第1章文字和語言 vs 數字和信息

以下內容學習、摘錄自《數學之美》

數字、文字和自然語言一樣，都是信息的載體，它們之間原本有著天然的聯系。語言和數學的產生都是為了同一個目的——記錄和傳播信息。但是，直到半個多世紀前香農博士提出信息論，人們才開始把數學和信息系統自覺地聯系起來。在此之前，數學的發展主要跟人類對自然的認識以及生產活動聯系在一起，包括天文學、幾何和工程學、經濟學、力學物理學甚至生物學等，而數學和語言學幾乎是沒有交集的。

隨著文明的進步，埃及象形文字從最初數量大約只有500個，到數量5000個左右，與中國常用的漢字數量相當。然而到了數量級后，象形文字數量便不再增加了，因為沒有人能夠學會和記住這么多的文字。于是，概念的第一次概括和歸類就開始了。在中國的象形文字中，“日”本意是太陽，但它同時又是太陽從升起到落山再到升起的時間周期，也就是我們講的一天。這種概念的聚類，在原理上與今天自然語言處理或者機器學習的聚類有很大的相似性，只是在遠古，完成這個過程可能需要上千年；而今天，可能只需幾天甚至幾小時，視計算機的速度和數量而定。

文字按照意思來聚類，最終會帶來一些歧義性，也就是說有時弄不清一個多義字在特定環境下它到底表示其中的哪個含義。而解決這個問題的方法，過去的先生和今天的學者也沒有什么不同，都是依靠上下文。有了上下文大多數情況下多義字的去除歧義( Disambiguation)都可以做到。當然，總有個別做不到的時候，這就導致了學者們對某段話理解上的不同。中國古代學者對儒家經典的注釋和正義，其實都是在按照自己的理解做消除歧義性的工作。今天的情況也類似，對上下文建立的概率模型再好，也有失靈的時候。這些是語言從產生伊始就固有的特點。

從公元前7世紀到了公元4世紀左右，埃及文化退出了歷史的舞臺，埃及的象形文字從此失傳。后來，有人在一個叫羅塞塔( Rosetta)的地方發現了一塊破碎的古埃及石碑，上面有三種語言：埃及象形文字、埃及的拼音文字和古希臘文。再后來，人們根據羅塞塔石碑破解了的古埃及象形文字。可見文字本身的載體是石頭還是紙張并不重要，它所承載的信息才是最重要的。

今天，我們對5000年前埃及的了解遠比對1000年前的瑪雅文明要多得多，這要歸功于埃及人通過文字記錄了他們生活中最重要的信息。而對于我這個長期從事自然語言處理的學者來講，這件事有兩點指導意義：1.信息的冗余是信息安全的保障。羅塞塔石碑上的內容是同一信息重復三次，因此只要有一份內容完好保留下來，原有的信息就不會丟失，這對信道編碼有指導意義。2.語言的數據，我們稱之為語料，尤其是雙語或者多語的對照語料對翻譯至關重要，它是我們從事機器翻譯研究的基礎。了解了羅塞塔石碑的歷史，對于今天很多翻譯軟件和服務都叫作“羅塞塔”就不會覺得奇怪了。

既然文字是出現在遠古“信息爆炸”導致人們的頭腦裝不下這些信息的時候，那么數字則是出現在人們的財產多到需要數一數才搞清楚有多少的時候。著名的美籍俄裔物理學家喬治·伽莫夫( George Gamow，1904-1968)在他的科普讀物《從一到無窮大》一書中講了這樣一個原始部落中的故事。兩個酋長要比一比誰說的數字大，一個酋長想了想，先說了“3”，第二個酋長想了半天，說你贏了。因為在原始部落，物質極其缺乏，很少會超過3，他們就稱之為“許多”或者叫數不清。因此，在那個時代，不可能出現完整的計數系統。

對于不同位數數字的表示，中國人和羅馬人都用明確的單位來表示數字的不同量級，中國人是用個十百千萬億兆；羅馬人用字符1代表1，V代表5，X代表10，L代表50，C代表100，D代表500，M代表1000，再往上就沒有了。這兩種表示法都不自覺地引入了樸素的編碼的概念：首先，它們都是用不同的符號代表不同的數字概念；第二，它們分別制定了解碼的規則。在中國，解碼的規則是乘法；而在羅馬，解碼的規則是加減法。描述數字最有效的是古印度人，他們發明了包括0在內的10個阿拉伯數字（這個0很重要，否則就需要許多描述進制的量詞，如個十百千萬），就是今天全世界通用的數字。這種表示方法比中國和羅馬的都抽象，但是使用方便。阿拉伯數字或者說印度數字的革命性不僅在于它的簡潔有效，而且標志著數字和文字的分離。這在客觀上讓自然語言的研究和數學在幾千年里沒有重合的軌跡，而且越走越遠。

象形文字到拼音文字是一個飛躍，因為人類在描述物體的方式上，從物體的外表進化到了抽象的概念，同時不自覺地采用了對信息的編碼。不僅如此，我們的祖先對文字的編碼還非常合理。在羅馬體系的文字中，總體來講，常用字短，生僻字長。而在意型文字中，也是類似，大都常用字筆畫少，而生僻字筆畫多。這完全符合信息論中的最短編碼原理，雖然我們的祖先并不懂信息論。這種文字設計(其實是一種編碼方法)帶來的好處是書寫起來省時間、省材料。在蔡倫發明紙張以前，書寫文字不是一件容易的事情。就以中文為例，在東漢以前要將文字刻在其他物件比如龜殼、石碑和竹簡上。由于刻個字的時間相當長，因此要惜墨如金。這就使得我們的古文(書面文字)非常簡潔，但是也非常難懂，而同時期的口語卻和今天的白話差別不大，語句較長但是易懂。(嶺南客家話基本上保留了古代口語的原貌，寫出來和我們清末民初的白話頗為相似。)

這種現象非常符合今天信息科學(和工程)的一些基本原理，就是在通信時，如果信道較寬，信息不必壓縮就可以直接傳遞；而如果信道很窄，信息在傳遞前需要盡可能地壓縮，然后在接收端進行解壓縮。在古代，兩個人講話說得快是一個寬信道，無需壓縮；書寫來得慢是一個窄信道，需要壓縮。將日常的白話口語寫成精簡的文言文本身是信道壓縮的過程，而將文言文解釋清楚是解壓縮的過程。這個現象與我們今天寬帶互聯網和移動互聯網上的視頻播放設定完全一致，前者是經過寬帶傳輸，因此分辨率可以做得高得多；而后者由于空中頻道帶寬的限制，傳輸速度要慢一到兩個數量級，因此分辨率要低得多。

語言從古語發展到現代語言，在表達含義上比以前更準確、更豐富，這里面語法起到了很大的作用。如果說從字母到詞的構詞法( Morp hology)是詞的編碼規則，那么語法則是語言的編碼和解碼規則。不過，相比較而言，詞可以被認為是有限而且封閉的集合，而語言則是無限和開放的集合。從數學上講，對于前者可以有完備的編解碼規則，而后者則不具備這個特性。因此，任何語言都有語法規則覆蓋不到的地方，這些例外或者說不精確性，讓我們的語言豐富多彩。雖然正統而教條的語言學家傾向于把這些例外作為“病句并且有的人畢其一生的精力來消滅病句，純化語言，但是事實證明這種工作是徒勞的。莎士比亞的作品在他的時代完全是通俗而大眾化的，其中包括大量違反古語法的名句，那個時代就開始有人試圖完善(其實是篡改)莎士比亞戲劇。可今天這些語言不但沒有消失，反而成了經典，而試圖完善他著作的人卻早已為大眾遺忘。

這就涉及到一個語言學研究方法的問題：到底是語言對，還是語法對？前者堅持從真實的語句文本(稱為語料)出發，而后者堅持從規則出發。經過三四十年的爭論，最后實踐是檢驗真理的唯一標準，自然語言處理的成就最終宣布了前者的獲勝。

點擊這里可以查看《數學之美》的其它學習筆記。

最后編輯于：2018.02.06 13:22:58

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,362評論 6贊 537
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,013評論 3贊 423
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,346評論 0贊 382
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,421評論 1贊 316
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,146評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,534評論 1贊 325
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,585評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,767評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,318評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,074評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,258評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,828評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,486評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,916評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,156評論 1贊 290
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,993評論 3贊 395
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,234評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

第1章文字和語言 vs 數字和信息

第1章文字和語言 vs 數字和信息

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

第1章 文字和語言 vs 數字和信息

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

第1章文字和語言 vs 數字和信息