數(shù)學(xué)常常給人一種深奧和復(fù)雜的感覺,但它的本質(zhì)常常是簡單而直接的。美德就如同華貴的寶石,在樸素的襯托下最顯華麗。數(shù)學(xué)的美妙也恰恰在于一個好的方法,常常是最簡單明了的方法。
一、文字和語言 VS 數(shù)字和信息
文字和語言與數(shù)學(xué),從產(chǎn)生起原本就有相同性,雖然它們的發(fā)展一度分道揚(yáng)鑣,但最終還是能走到一起。
今天自然語言處理學(xué)者們研究的問題,我們的祖先在設(shè)計語言之初其實(shí)已經(jīng)遇到了,并且用類似今天的方法解決了,雖然他們的認(rèn)識大多是自發(fā)的,而不是自覺的。他們過去遵循的法則和我們今天探求的研究方法背后有著共同的東西,這就是數(shù)學(xué)規(guī)律。
二、自然語言處理—從規(guī)則到統(tǒng)計
人類對機(jī)器了解自然語言的認(rèn)識走了一個大彎路。早起的研究集中采用基于規(guī)則的方法,雖然解決了一些簡單的問題,但無法從根本上將自然語言理解實(shí)用化。直到20多年后,人們開始嘗試用基于統(tǒng)計的方法進(jìn)行自然語言處理,才有了突破性的進(jìn)展和實(shí)用的產(chǎn)品。
基于統(tǒng)計的自然語言處理方法,在數(shù)學(xué)模型上和通信是相通的,甚至就是相同的。因此,在數(shù)學(xué)意義上自然語言處理又和語言的初衷—通信聯(lián)系在一起了。但是科學(xué)家們用了幾十年才認(rèn)識到這個聯(lián)系。
三、統(tǒng)計語言模型
統(tǒng)計語言模型是自然語言處理的基礎(chǔ),并廣泛用于機(jī)器翻譯、語音識別、印刷體或手寫識別、拼寫糾錯、漢字輸入和文獻(xiàn)查詢。
統(tǒng)計語言模型在形式上非常簡單,也容易理解。但是里頭的學(xué)問卻很深,一個專家可以在這方面研究很多年。數(shù)學(xué)的魅力就在于將復(fù)雜的問題簡單化。
四、談?wù)劮衷~
中文分詞是中文信息處理的基礎(chǔ),它同樣的走過了一段彎路,目前依靠統(tǒng)計語言模型已經(jīng)基本解決了這個問題。
中文分詞以語言模型為基礎(chǔ),經(jīng)過幾十年的發(fā)展和完善,今天基本上可以看做是一個已經(jīng)解決的問題。當(dāng)然不同人做的分詞器有好有壞,這里面的差別主要在于數(shù)據(jù)的使用和工程實(shí)現(xiàn)的精度。
五、隱含馬爾可夫模型
隱含馬爾可夫模型最初應(yīng)用于通信領(lǐng)域,繼而推廣到語音和語言處理中,成為連接自然語言處理和通信的橋梁。同時,隱含馬爾可夫模型也是機(jī)器學(xué)習(xí)的主要工具之一。
和幾乎所有的機(jī)器學(xué)習(xí)的模型一樣,它需要一個訓(xùn)練算法和使用時的解碼算法,掌握了這兩類算法,就基本上可以使用隱含馬爾可夫模型這個工具了。
六、信息的度量和作用
信息是可以量化度量的。信息熵不僅是對信息的量化度量,也是整個信息論的基礎(chǔ)。它對于通信、數(shù)據(jù)壓縮、自然語言處理都有很強(qiáng)的指導(dǎo)意義。
信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,在這一點(diǎn)上,它和熱力學(xué)中熵的概念有相似之處,因?yàn)楹笳呔褪且粋€系統(tǒng)無序的度量,從這一角度講也是對一種不確定性的度量。這說明科學(xué)上很多看似不同的科學(xué)之間也會有很強(qiáng)的相似性。
七、賈里尼克和現(xiàn)代語言處理
作為現(xiàn)代自然語言處理的奠基者,賈里尼克成功的將數(shù)學(xué)原理應(yīng)用于自然語言處理領(lǐng)域中,他的一生富有傳奇色彩。
八、簡單之美—布爾代數(shù)和搜索引擎
布爾代數(shù)雖然非常簡單,卻是計算機(jī)科學(xué)的基礎(chǔ),它不僅把邏輯和數(shù)學(xué)合二為一,而且給了一個新的視角看待世界,開創(chuàng)了數(shù)字化時代。牛頓:發(fā)覺真理在形式從來就是簡單的,而不是復(fù)雜含混的。
九、圖論和網(wǎng)絡(luò)爬蟲
互聯(lián)網(wǎng)搜索引擎在建立索引前需要用一個程序自動地將所有的網(wǎng)頁下載到服務(wù)器上,這個程序稱為網(wǎng)絡(luò)爬蟲,它的編寫基于離散數(shù)學(xué)中圖論的原理。
隨著互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷方法一下子有了用武之地。很多數(shù)學(xué)方法就是這樣,看上去沒什么實(shí)際用途,但隨著時間的推移會突然派上大用場。
十、PageRank—Google的民主表決式網(wǎng)頁排名技術(shù)
網(wǎng)頁排名技術(shù)PageRank式早起Google的殺手锏,它的出現(xiàn)使得網(wǎng)頁搜索的質(zhì)量上了一個大的臺階。它的原理是圖論和線性代數(shù)的矩陣運(yùn)算。
今天,Google搜索引擎比最初復(fù)雜、完善了許多。但是PageRank在Google所有算法中依然是至關(guān)重要的。在學(xué)術(shù)界,這個算法被公認(rèn)為文獻(xiàn)檢索中最大的貢獻(xiàn)之一,并被很多大學(xué)列為信息檢索課程的內(nèi)容。
十一、如何確定網(wǎng)頁和查詢的相關(guān)性
確定網(wǎng)頁和查詢的相關(guān)性是網(wǎng)頁搜索的根本問題,其中確定查詢中每個關(guān)鍵詞的重要性有多高是關(guān)鍵。TF-IDF是目前通用的關(guān)鍵詞重要性的度量,其背后的原理是信息論。
十二、有限狀態(tài)機(jī)和動態(tài)規(guī)劃—地圖與本地搜索的核心技術(shù)
地圖和本地服務(wù)中要用到有限狀態(tài)機(jī)和動態(tài)規(guī)劃技術(shù)。這兩項(xiàng)是機(jī)器智能和機(jī)器學(xué)習(xí)的工具,它們的應(yīng)用非常廣泛,還包括語音識別、拼寫和語法糾錯、拼音輸入法、工業(yè)控制和生物的序列分析等。
十三、Google AK-47的設(shè)計者—阿米特辛格博士
在所有武器最有名的是AK-47沖鋒槍,因?yàn)樗鼜牟豢ぃ灰讚p壞,可在任意環(huán)境下使用,可靠性好,殺傷力大并且操作簡單。Google的產(chǎn)品就是按照上述原理設(shè)計的。
十四、余弦定理和新聞的分類
計算機(jī)雖然讀不懂新聞,卻可以準(zhǔn)確地對新聞進(jìn)行分類。其數(shù)學(xué)工具是看似毫不相干的余弦定理。
這種新聞歸類的方法,準(zhǔn)確性很好,適用于被分類的文本集合在百萬數(shù)量級。如果大到億這樣的數(shù)量級,那么計算時間還是比較長的。
十五、矩陣運(yùn)算和文本處理中的兩個分類問題
無論是詞匯的聚類還是文本的分類,都可以通過線性代數(shù)中矩陣的奇異值分解來進(jìn)行。這樣一來,自然語言處理的問題就變成了一個數(shù)學(xué)問題。
在實(shí)際應(yīng)用中,可以先進(jìn)行奇異值分解,得到粗分類結(jié)果,再利用計算向量余弦的方法,在粗分類的結(jié)果的基礎(chǔ)上,進(jìn)行幾次迭代,得到比較精確的結(jié)果。
十六、信息指紋及其應(yīng)用
時間萬物都有一個唯一標(biāo)識的特征,信息也是如此。每一條信息都有它特定的指紋,通過這個指紋可以區(qū)別不同的信息。
所謂信息指紋,可以簡單的理解為將一段信息隨機(jī)地映射到一個多維二進(jìn)制空間中的一個點(diǎn)。只要這個隨機(jī)函數(shù)做的好,那么不同信息對應(yīng)的這些點(diǎn)就不會重合,因此,這些二進(jìn)制數(shù)字就成了原來的信息所具有的獨(dú)一無二的指紋。
十七、由電視劇《暗算》所想到的—談?wù)劽艽a學(xué)的數(shù)學(xué)原理
密碼學(xué)的根本是信息論和數(shù)學(xué)。沒有信息論指導(dǎo)的密碼是非常容易破解的。只有在信息論被廣泛應(yīng)用于密碼學(xué)后,密碼才真正的安全。
密碼學(xué)的最高境界依然是無論敵方獲取多少密文,也無法消除已方情報系統(tǒng)的不確定性。為了達(dá)到這個目的,就不僅要做到密文之間相互無關(guān),同時密文還是看似隨機(jī)的序列。公開密鑰是目前最常用的加密辦法。
十八、閃光的不一定是金子—談?wù)勊阉饕娣醋鞅讍栴}和搜索結(jié)果權(quán)威性問題
閃光的不一定是金子,搜索引擎排名靠前的網(wǎng)頁也未必是有用的網(wǎng)頁。消除這些作弊的網(wǎng)頁和通信中過濾噪音的原理相同。這說明信息的處理和通信的很多原理是相通的。
噪音存在于任何通信系統(tǒng),而好的通信系統(tǒng)需要能過濾掉噪音,還原真實(shí)的信號。搜索引擎是一個特殊的通信系統(tǒng),免不了有噪音,反作弊和確定權(quán)威性就是去噪音的過程。
十九、談?wù)剶?shù)學(xué)模型的重要性
正的數(shù)學(xué)模型在科學(xué)和工程中至關(guān)重要,而發(fā)現(xiàn)正確模型的途徑常常是曲折的。正確的模型在形式上通常是簡單的。
正確的模型也可能受噪音干擾,而顯得不準(zhǔn)確;這時不應(yīng)該用一種湊合的修正方法加以彌補(bǔ),而是要找到噪音的根源,這也許能通往重大的發(fā)現(xiàn)。
二十、不要把雞蛋放到一個籃子里—談?wù)勛畲箪啬P?/b>
最大熵模型是一個完美的數(shù)學(xué)模型。它可以將各種信息整合到統(tǒng)一的模型中,在信息處理和機(jī)器學(xué)習(xí)中有著廣泛的應(yīng)用。它在形式上非常簡單、優(yōu)美,而在實(shí)現(xiàn)時需要有精深的數(shù)學(xué)基礎(chǔ)和高超的技巧。
最大熵模型計算量巨大,在工程上實(shí)現(xiàn)方法的好壞決定了模型的實(shí)用與否。
二十一、拼音輸入法的數(shù)學(xué)原理
漢字的輸入過程本身就是人和計算機(jī)的通信。好的輸入法會自覺或不自覺的遵循通信的數(shù)學(xué)模型。當(dāng)然要做出最有效的輸入法,應(yīng)當(dāng)自覺使用信息論做指導(dǎo)。
二十二、自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們
將自然語言處理從基本規(guī)則的研究方法轉(zhuǎn)到基本統(tǒng)計的研究方法上,賓夕法尼亞大學(xué)的教授米奇馬庫斯功不可沒。他創(chuàng)立了今天在學(xué)術(shù)界廣泛使用的LCD語料庫,同時培養(yǎng)了一大批精英人物。
二十三、布隆過濾器
日常生活中,經(jīng)常要判斷一個元素是否在一個集合中。布隆過濾器時計算機(jī)工程中解決這個問題最好的數(shù)學(xué)工具。
布隆過濾器背后的數(shù)學(xué)原理在于兩個完全隨機(jī)的數(shù)字相沖突的概率很小,因此,可以在很小的誤識別率條件下,用很少的空間存儲大量信息。補(bǔ)救誤識別的常見辦法就是再建立一個小的白名單,存儲那些可能被誤判的信息。布隆過濾器中只有簡單的算術(shù)運(yùn)算,因此速度很快,使用方便。
二十四、馬爾可夫鏈的擴(kuò)展—貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)是一個加權(quán)的有向圖,是馬爾可夫鏈的擴(kuò)展。而從認(rèn)識論的層面看:貝葉斯網(wǎng)絡(luò)克服了馬爾可夫鏈那種機(jī)械的線性約束,它可以把任何有關(guān)聯(lián)的事件統(tǒng)一到它框架下面。它在生物統(tǒng)計、圖像處理、決策支持系統(tǒng)和博弈論中都有廣泛的使用。
二十五、條件隨機(jī)場、文法分析及其他
條件隨機(jī)場是計算聯(lián)合概率分布的有效模型,而語法分析似乎是英文課上英語老師教的東西,這兩者有什么聯(lián)系呢?
條件隨機(jī)場是一個非常靈活的用于預(yù)測的統(tǒng)計模型,它在模式識別、機(jī)器學(xué)習(xí)、生物統(tǒng)計,甚至預(yù)防犯罪等方面都有很成功的應(yīng)用。
二十六、維特比和他的維特比算法
維特比算法是現(xiàn)代數(shù)字通信中使用最頻繁的算法,同時也是很多自然語言處理的解碼算法。可以毫不夸張地講,維特比是我們今天生活的影響力最大的科學(xué)家之一,因?yàn)槿缃窕贑MDA的3G移動通信標(biāo)準(zhǔn)主要就是他創(chuàng)辦的高通公司制定的。
維特比不僅提供了關(guān)鍵性的發(fā)明,而且為了保障其效益在全社會得到最大化,他解決了所有配套的技術(shù)。所有試圖另辟蹊徑的公司都發(fā)現(xiàn),高通公司的標(biāo)準(zhǔn)怎么也繞不開,因?yàn)楦咄ㄒ呀?jīng)把能想到的事情都想到了。
二十七、上帝的算法—期望值最大算法
只有一些訓(xùn)練數(shù)據(jù),再定義一個最大化函數(shù),采用EM算法,利用計算機(jī)經(jīng)過若干次迭代,就可以得到所要的模型。這實(shí)在是太美妙了,這也許是我們造物主刻意安排的。所以我把它稱為上帝算法。
二十八、邏輯回歸和搜索廣告
邏輯回歸模型是一種將影響概率的不同因素結(jié)合在一起的指數(shù)模型,它不僅在搜索廣告中起著重要的作用,而且被廣泛應(yīng)用于信息處理和生物統(tǒng)計中。
二十九、各個擊破算法和Google云計算的基礎(chǔ)
Google頗為神秘的云計算中最重要的MapReduce工具,其原理就是計算機(jī)算法的“各個擊破”算法,它的原理原來這么簡單—將復(fù)雜的大問題分解成很多小問題分別求解,然后再把小問題的解合并成原始問題解。由此可見,在生活中大量用到的、真正有用的方法常常都是簡單樸實(shí)的。
三十、Google大腦和人工神經(jīng)網(wǎng)絡(luò)
Google大腦并不是一個什么都能思考的大腦,而是一個很能計算的人工神經(jīng)網(wǎng)絡(luò)。因此,與其說Google大腦很聰明,不如說它很算,不過,換個角度來說,隨著計算能力不斷提高,計算量大但簡單的數(shù)學(xué)方法有時能夠解決很復(fù)雜的問題。
三十一、大數(shù)據(jù)的威力—談?wù)剶?shù)據(jù)的重要性
如果說在過去的40年里,主導(dǎo)全球IT產(chǎn)業(yè)發(fā)展的是摩爾定律,那么今后的20年里,主導(dǎo)IT行業(yè)繼續(xù)發(fā)展的動力則來自于數(shù)據(jù)。
雖然人們對于數(shù)據(jù)的重要性早有認(rèn)識,但是過去因?yàn)榇鎯陀嬎銞l件的限制,一般認(rèn)為數(shù)據(jù)量夠用即可。隨著信息技術(shù)的發(fā)展,當(dāng)數(shù)據(jù)計算和存儲不再是問題是,人們發(fā)現(xiàn)超大量的數(shù)據(jù)會帶來以前意想不到的驚喜,這才導(dǎo)致大數(shù)據(jù)的興起。
在未來世界里,人們生活會越來越離不開數(shù)據(jù),很多圍繞數(shù)據(jù)收集和處理的工作機(jī)會將不斷涌現(xiàn)。而掌握處理和利用數(shù)據(jù)方法的人也必將成為新時代的成功者。推而廣之,無論在什么領(lǐng)域,從事什么樣的工作,誰懂得數(shù)據(jù)的重要性,誰會在工作中善用數(shù)據(jù),就更有可能獲得成功。