以下內容學習、摘錄自《數學之美》
數字、文字和自然語言一樣,都是信息的載體,它們之間原本有著天然的聯系。語言和數學的產生都是為了同一個目的——記錄和傳播信息。但是,直到半個多世紀前香農博士提出信息論,人們才開始把數學和信息系統自覺地聯系起來。在此之前,數學的發展主要跟人類對自然的認識以及生產活動聯系在一起,包括天文學、幾何和工程學、經濟學、力學物理學甚至生物學等,而數學和語言學幾乎是沒有交集的。
隨著文明的進步,埃及象形文字從最初數量大約只有500個,到數量5000個左右,與中國常用的漢字數量相當。然而到了數量級后,象形文字數量便不再增加了,因為沒有人能夠學會和記住這么多的文字。于是,概念的第一次概括和歸類就開始了。在中國的象形文字中,“日”本意是太陽,但它同時又是太陽從升起到落山再到升起的時間周期,也就是我們講的一天。這種概念的聚類,在原理上與今天自然語言處理或者機器學習的聚類有很大的相似性,只是在遠古,完成這個過程可能需要上千年;而今天,可能只需幾天甚至幾小時,視計算機的速度和數量而定。
文字按照意思來聚類,最終會帶來一些歧義性,也就是說有時弄不清一個多義字在特定環境下它到底表示其中的哪個含義。而解決這個問題的方法,過去的先生和今天的學者也沒有什么不同,都是依靠上下文。有了上下文大多數情況下多義字的去除歧義( Disambiguation)都可以做到。當然,總有個別做不到的時候,這就導致了學者們對某段話理解上的不同。中國古代學者對儒家經典的注釋和正義,其實都是在按照自己的理解做消除歧義性的工作。今天的情況也類似,對上下文建立的概率模型再好,也有失靈的時候。這些是語言從產生伊始就固有的特點。
從公元前7世紀到了公元4世紀左右,埃及文化退出了歷史的舞臺,埃及的象形文字從此失傳。后來,有人在一個叫羅塞塔( Rosetta)的地方發現了一塊破碎的古埃及石碑,上面有三種語言:埃及象形文字、埃及的拼音文字和古希臘文。再后來,人們根據羅塞塔石碑破解了的古埃及象形文字。可見文字本身的載體是石頭還是紙張并不重要,它所承載的信息才是最重要的。
今天,我們對5000年前埃及的了解遠比對1000年前的瑪雅文明要多得多,這要歸功于埃及人通過文字記錄了他們生活中最重要的信息。而對于我這個長期從事自然語言處理的學者來講,這件事有兩點指導意義:1.信息的冗余是信息安全的保障。羅塞塔石碑上的內容是同一信息重復三次,因此只要有一份內容完好保留下來,原有的信息就不會丟失,這對信道編碼有指導意義。2.語言的數據,我們稱之為語料,尤其是雙語或者多語的對照語料對翻譯至關重要,它是我們從事機器翻譯研究的基礎。了解了羅塞塔石碑的歷史,對于今天很多翻譯軟件和服務都叫作“羅塞塔”就不會覺得奇怪了。
既然文字是出現在遠古“信息爆炸”導致人們的頭腦裝不下這些信息的時候,那么數字則是出現在人們的財產多到需要數一數才搞清楚有多少的時候。著名的美籍俄裔物理學家喬治·伽莫夫( George Gamow,1904-1968)在他的科普讀物《從一到無窮大》一書中講了這樣一個原始部落中的故事。兩個酋長要比一比誰說的數字大,一個酋長想了想,先說了“3”,第二個酋長想了半天,說你贏了。因為在原始部落,物質極其缺乏,很少會超過3,他們就稱之為“許多”或者叫數不清。因此,在那個時代,不可能出現完整的計數系統。
對于不同位數數字的表示,中國人和羅馬人都用明確的單位來表示數字的不同量級,中國人是用個十百千萬億兆;羅馬人用字符1代表1,V代表5,X代表10,L代表50,C代表100,D代表500,M代表1000,再往上就沒有了。這兩種表示法都不自覺地引入了樸素的編碼的概念:首先,它們都是用不同的符號代表不同的數字概念;第二,它們分別制定了解碼的規則。在中國,解碼的規則是乘法;而在羅馬,解碼的規則是加減法。描述數字最有效的是古印度人,他們發明了包括0在內的10個阿拉伯數字(這個0很重要,否則就需要許多描述進制的量詞,如個十百千萬),就是今天全世界通用的數字。這種表示方法比中國和羅馬的都抽象,但是使用方便。阿拉伯數字或者說印度數字的革命性不僅在于它的簡潔有效,而且標志著數字和文字的分離。這在客觀上讓自然語言的研究和數學在幾千年里沒有重合的軌跡,而且越走越遠。
象形文字到拼音文字是一個飛躍,因為人類在描述物體的方式上,從物體的外表進化到了抽象的概念,同時不自覺地采用了對信息的編碼。不僅如此,我們的祖先對文字的編碼還非常合理。在羅馬體系的文字中,總體來講,常用字短,生僻字長。而在意型文字中,也是類似,大都常用字筆畫少,而生僻字筆畫多。這完全符合信息論中的最短編碼原理,雖然我們的祖先并不懂信息論。這種文字設計(其實是一種編碼方法)帶來的好處是書寫起來省時間、省材料。在蔡倫發明紙張以前,書寫文字不是一件容易的事情。就以中文為例,在東漢以前要將文字刻在其他物件比如龜殼、石碑和竹簡上。由于刻個字的時間相當長,因此要惜墨如金。這就使得我們的古文(書面文字)非常簡潔,但是也非常難懂,而同時期的口語卻和今天的白話差別不大,語句較長但是易懂。(嶺南客家話基本上保留了古代口語的原貌,寫出來和我們清末民初的白話頗為相似。)
這種現象非常符合今天信息科學(和工程)的一些基本原理,就是在通信時,如果信道較寬,信息不必壓縮就可以直接傳遞;而如果信道很窄,信息在傳遞前需要盡可能地壓縮,然后在接收端進行解壓縮。在古代,兩個人講話說得快是一個寬信道,無需壓縮;書寫來得慢是一個窄信道,需要壓縮。將日常的白話口語寫成精簡的文言文本身是信道壓縮的過程,而將文言文解釋清楚是解壓縮的過程。這個現象與我們今天寬帶互聯網和移動互聯網上的視頻播放設定完全一致,前者是經過寬帶傳輸,因此分辨率可以做得高得多;而后者由于空中頻道帶寬的限制,傳輸速度要慢一到兩個數量級,因此分辨率要低得多。
語言從古語發展到現代語言,在表達含義上比以前更準確、更豐富,這里面語法起到了很大的作用。如果說從字母到詞的構詞法( Morp hology)是詞的編碼規則,那么語法則是語言的編碼和解碼規則。不過,相比較而言,詞可以被認為是有限而且封閉的集合,而語言則是無限和開放的集合。從數學上講,對于前者可以有完備的編解碼規則,而后者則不具備這個特性。因此,任何語言都有語法規則覆蓋不到的地方,這些例外或者說不精確性,讓我們的語言豐富多彩。雖然正統而教條的語言學家傾向于把這些例外作為“病句并且有的人畢其一生的精力來消滅病句,純化語言,但是事實證明這種工作是徒勞的。莎士比亞的作品在他的時代完全是通俗而大眾化的,其中包括大量違反古語法的名句,那個時代就開始有人試圖完善(其實是篡改)莎士比亞戲劇。可今天這些語言不但沒有消失,反而成了經典,而試圖完善他著作的人卻早已為大眾遺忘。
這就涉及到一個語言學研究方法的問題:到底是語言對,還是語法對?前者堅持從真實的語句文本(稱為語料)出發,而后者堅持從規則出發。經過三四十年的爭論,最后實踐是檢驗真理的唯一標準,自然語言處理的成就最終宣布了前者的獲勝。