摘錄
第一章:文字和語(yǔ)言 VS 數(shù)字和信息
通信的原理和信息傳播的模型、(信源)編碼和最短編碼、解碼的規(guī)則,語(yǔ)法、聚類(lèi)、校驗(yàn)位、雙魚(yú)對(duì)照文本,語(yǔ)料庫(kù)和機(jī)器翻譯、多義性和利用上下文消除歧義,這些今天自然語(yǔ)言處理學(xué)者們研究的問(wèn)題,我們的祖先在設(shè)計(jì)語(yǔ)言的時(shí)候其實(shí)已經(jīng)遇到了,并且用類(lèi)似今天的方法解決了,雖然他們的認(rèn)識(shí)多是自發(fā)的,而不是自覺(jué)地。他們過(guò)去遵循的法則和我們今天探求的研究方法背后有著共同的東西,這就是數(shù)學(xué)規(guī)律。
第二章:自然語(yǔ)言處理——從規(guī)則到統(tǒng)計(jì)
基于統(tǒng)計(jì)的自然語(yǔ)言處理方法,在數(shù)學(xué)模型上和通信是相通的,甚至就是相同的。因此,在數(shù)學(xué)意義上自然語(yǔ)言處理又和語(yǔ)言的初衷——通信聯(lián)系在一起了。但是,科學(xué)家們認(rèn)識(shí)到這個(gè)聯(lián)系卻花了幾十年的時(shí)間。
第三章:統(tǒng)計(jì)語(yǔ)言模型
馬爾可夫模型:假設(shè)任意一個(gè)詞Wi出現(xiàn)的概率直通它前面的N個(gè)詞Wi-1、Wi-2、。。。Wi-n有關(guān)。(N從1到2,從2到3對(duì)模型都有顯著的提升,當(dāng)從3到4提升不再明顯)
統(tǒng)計(jì)語(yǔ)言模型在形式上非常簡(jiǎn)單,任何人都很容易理解。但是里面的學(xué)問(wèn)卻可以很深,一個(gè)專(zhuān)家可以在這方面研究很多年,比如我們?cè)谘由扉喿x中提到的那些問(wèn)題。數(shù)學(xué)的魅力就在于將復(fù)雜的問(wèn)題簡(jiǎn)單化。
第四章:談?wù)勚形姆衷~
中文分詞以統(tǒng)計(jì)語(yǔ)言模型為基礎(chǔ),經(jīng)過(guò)幾十年的發(fā)展和完善,今天基本上可以看做是一個(gè)已經(jīng)解決的問(wèn)題。當(dāng)然不同的人做的分詞器有好有壞,這里面的差別主要在數(shù)據(jù)的使用和工程實(shí)現(xiàn)的精度。
第五章:隱含馬爾可夫模型
隱含馬爾可夫模型最初應(yīng)用于通信領(lǐng)域,繼而推廣到語(yǔ)音和語(yǔ)言處理中,成為連接自然語(yǔ)言處理和通信的橋梁。同事,隱含馬爾可夫模型也是極其學(xué)習(xí)主要工具之一。和幾乎所有的極其學(xué)習(xí)的模型工具一樣,它需要一個(gè)訓(xùn)練算法(Baum-Welch算法)和使用時(shí)的解碼算法(維特比算法),掌握了這兩類(lèi)算法,就基本上可以使用隱含馬爾可夫模型這個(gè)工具了。
第六章:信息的度量和作用
信息熵不僅是對(duì)信息的量化度量,而且是整個(gè)信息論的基礎(chǔ)。它對(duì)于通信、數(shù)據(jù)壓縮、自然語(yǔ)言處理都有很強(qiáng)的指導(dǎo)意義。信息熵的物理含義是對(duì)一個(gè)信息系統(tǒng)不確定性的度量,在這一點(diǎn)上,它和熱力學(xué)中熵的概念相同,因?yàn)楹笳呤菍?duì)于一個(gè)系統(tǒng)無(wú)序的度量。這說(shuō)明科學(xué)上很多看似不同的學(xué)科之間也會(huì)有很強(qiáng)的相似性。
第七章:賈里尼克和現(xiàn)代語(yǔ)言處理
信息科學(xué)大師——賈里尼克
第八章:簡(jiǎn)單之美——布爾代數(shù)和搜索引擎的索引
布爾代數(shù)(1和0,and or not)非常簡(jiǎn)單,但是對(duì)數(shù)學(xué)和計(jì)算機(jī)發(fā)展的意義重大,它不僅把邏輯和數(shù)學(xué)合二為一,而且給了我們一個(gè)全新的視角看待世界,開(kāi)創(chuàng)了今天數(shù)字化的時(shí)代。在此,讓我們用偉大科學(xué)家牛頓的一句話(huà)來(lái)結(jié)束這一章,“(人民)發(fā)覺(jué)真理在形式上從來(lái)是簡(jiǎn)單的,而不是復(fù)雜和含混的。
第九章:圖論和網(wǎng)絡(luò)爬蟲(chóng)
圖的遍歷是一件很簡(jiǎn)單的事情,沒(méi)有多少人會(huì)去研究這件事情,也沒(méi)有多少人用得到。可是互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷方法一下子有了用武之地。很多數(shù)學(xué)方法就是這個(gè)樣子,看上去沒(méi)有什么實(shí)際用途,但是隨著時(shí)間的推移會(huì)一下子派上大用場(chǎng)。
第十章:PageRank——Google的民主表決式網(wǎng)頁(yè) 排名技術(shù)
今天,Google 搜索引擎比最初復(fù)雜、完善了許多。但是PageRank在Google所有算法中依然是至關(guān)重要的。
第十一章:如何確定網(wǎng)頁(yè)和查詢(xún)的相關(guān)性
TF-IDF是對(duì)搜索關(guān)鍵字的重要性度量,從理論上講,它有很強(qiáng)的理論根據(jù)。因此如果對(duì)搜索不是很精通的人,直接采用TF-IDF效果也不會(huì)太差。現(xiàn)在各家搜索引擎對(duì)關(guān)鍵詞重要性的度量,都在TF-IDF的基礎(chǔ)上有些改進(jìn)和微調(diào)。但是,在原理上與TF-IDF相差不遠(yuǎn)。
第十二章:地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃
有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)則的應(yīng)用非常廣泛,遠(yuǎn)遠(yuǎn)不止識(shí)別地址、導(dǎo)航等地圖服務(wù)相關(guān)領(lǐng)域,它們?cè)谡Z(yǔ)音識(shí)別、拼寫(xiě)和語(yǔ)法糾錯(cuò)、拼音輸入法、工業(yè)控制和生物的序列分析等領(lǐng)域都有著極其重要的應(yīng)用。其在拼音輸入法中也有重大作用
第十三章:Google AK-47的設(shè)計(jì)者——Dr阿米特 辛格
介紹Dr Singhal
第十四章:余弦定理和新聞的分類(lèi)
1、計(jì)算所有新聞之間兩兩的余弦相似性,把相似性大于一個(gè)閾值的新聞合并成一個(gè)小類(lèi)。這樣N篇新聞被合并成N1個(gè)小類(lèi)。
2、把每個(gè)小類(lèi)所有的新聞作為一個(gè)整體,計(jì)算小類(lèi)的特征向量,再計(jì)算小類(lèi)之間兩兩的余弦相似性,然后合并成大一點(diǎn)的小類(lèi)N2. N2<N1。
第十五章:矩陣運(yùn)算和文本處理中的兩個(gè)分類(lèi)問(wèn)題
計(jì)算大量新聞時(shí)一步到位的辦法是利用矩陣運(yùn)算中的奇異值分解(SVD),得到粗分類(lèi)結(jié)果,再利用計(jì)算向量余弦的方法,在粗分類(lèi)結(jié)果的基礎(chǔ)上,進(jìn)行幾次迭代,得到比較精確的結(jié)果。
第十六章:信息指紋極其應(yīng)用
信息指紋可以理解成將一段信息(文字、圖片、音頻、視頻等)隨機(jī)地映射到一個(gè)多維二進(jìn)制空間中的一個(gè)點(diǎn)(一個(gè)二進(jìn)制數(shù)字)。只要這個(gè)隨機(jī)函數(shù)做得好,那么不同信息對(duì)應(yīng)的這些點(diǎn)不會(huì)重合,因此這些二進(jìn)制數(shù)字就成了原來(lái)信息所具有的獨(dú)一無(wú)二的指紋。
第十七章:由電視劇《暗算》所想到的——談?wù)劽艽a學(xué)的數(shù)學(xué)原理
我們?cè)诮榻B信息論中談到,利用信息可以消除一個(gè)系統(tǒng)的不確定性。而利用已經(jīng)獲得的信息情報(bào)來(lái)消除一個(gè)情報(bào)系統(tǒng)的不確定性就是解密。因此,密碼學(xué)的最高境界就是無(wú)論地方獲取多少密文,也無(wú)法消除己方情報(bào)系統(tǒng)的不確定性。為了達(dá)到這個(gè)目的,就不僅要做到密文之間相互無(wú)關(guān),同時(shí)密文還是看似完全隨機(jī)的序列。在信息誕生后,科學(xué)家們沿著這個(gè)思路設(shè)計(jì)出很好的密碼系統(tǒng),而公開(kāi)秘鑰是目前最常用的加密辦法。
第十八章:閃光的不一定是金子——談?wù)勊阉饕娣醋鞅讍?wèn)題
SEO——Search Engine Optimizer 搜索引擎優(yōu)化者——作弊者
第十九章:談?wù)剶?shù)學(xué)模型的重要性
我們對(duì)任何問(wèn)題總是再找相應(yīng)的準(zhǔn)確的數(shù)學(xué)模型
第二十章:不要把雞蛋放到同一個(gè)籃子里——談?wù)勛畲箪啬P?/p>
最大熵模型可以將各種信息整合到一個(gè)統(tǒng)一的模型中。它有很多良好的特性:從形式上看,它非常簡(jiǎn)單,非常優(yōu)美;從效果上看,它是唯一一種可以滿(mǎn)足各個(gè)信息源的限制條件,同事又能保證平滑性的模型。由于最大熵模型具有這些良好的特性,它的應(yīng)用范圍因而十分廣泛。但是,最大熵模型的計(jì)算量巨大,在工程上實(shí)現(xiàn)方法的好壞決定了模型的實(shí)用與否。
第二十一章:拼音輸入法的數(shù)學(xué)原理
漢字的輸入過(guò)程本身就是人和計(jì)算機(jī)的通信,好的輸入法會(huì)自覺(jué)或者不自覺(jué)地遵循通信的數(shù)學(xué)模型。當(dāng)然要做出最有效的輸入法,應(yīng)當(dāng)自覺(jué)使用信息論做指導(dǎo)。
第二十二章:自然語(yǔ)言處理的教父馬庫(kù)斯和他的優(yōu)秀弟子們
馬庫(kù)斯主要弟子:柯林斯、布萊爾
第二十三章:布隆過(guò)濾器
布隆過(guò)濾器背后的數(shù)學(xué)原理在于兩個(gè)完全隨機(jī)的數(shù)字沖突的概率很小,因此,可以在很小的誤識(shí)別率條件下,用很少的空間存儲(chǔ)大量信息。常見(jiàn)的補(bǔ)救無(wú)識(shí)別的辦法是再建立一個(gè)小的白名單,存儲(chǔ)那些可能被誤判的信息。由于布隆過(guò)濾器中只有簡(jiǎn)單的算術(shù)運(yùn)算,因此它的速度很快使用方便。
第二十四章:馬爾可夫鏈的擴(kuò)展——葉貝斯網(wǎng)絡(luò)
葉貝斯網(wǎng)絡(luò)是一個(gè)加權(quán)的有向圖,是馬爾可夫鏈的擴(kuò)展。從認(rèn)識(shí)的層面看,葉貝斯網(wǎng)絡(luò)克服了馬爾可夫鏈那種機(jī)械的線(xiàn)性的約束,它可以把任何有關(guān)聯(lián)的時(shí)間統(tǒng)一到它的框架下面。
第二十五章:條件隨機(jī)場(chǎng)和句法分析
條件隨機(jī)場(chǎng)是一個(gè)非常靈活的用于預(yù)測(cè)的統(tǒng)計(jì)模型。和最大熵模型一樣,條件隨機(jī)場(chǎng)的形式簡(jiǎn)單,但是實(shí)現(xiàn)復(fù)雜。
第二十六章:維特比和他的維特比算法
高通公司創(chuàng)始人:維特比 CDMA 3G通信技術(shù)
第二十七章:再談文本自動(dòng)分類(lèi)問(wèn)題——期望最大化算法
EM算法只需要有一些訓(xùn)練數(shù)據(jù),定義一個(gè)最大化函數(shù),剩下的事情就交給計(jì)算機(jī)了。
第二十八章:邏輯回歸和廣告搜索
邏輯回歸模型是一種將影響概率的不同因素結(jié)合在一起的指數(shù)模型。和許多模型一樣,都可以采用通用迭代算法GIS和改進(jìn)的迭代算法IIS來(lái)實(shí)現(xiàn)。除了在信息處理中的應(yīng)用,邏輯回歸模型還廣泛應(yīng)用于生物統(tǒng)計(jì)。
第二十九章:各個(gè)擊破算法和Google云計(jì)算的基礎(chǔ)
我們現(xiàn)在發(fā)現(xiàn)Google頗為神秘的云計(jì)算中最重要的MapReduce工具,其實(shí)原理就是計(jì)算機(jī)算法中常用的“各個(gè)擊破”法,它的原理原來(lái)這么簡(jiǎn)單——將復(fù)雜的大問(wèn)題分解成很多小問(wèn)題分別求解,然后再把小問(wèn)題的解合并成原始問(wèn)題的解。由此可見(jiàn),在生活中大量用到的,真正有用的方法往往樸實(shí)而簡(jiǎn)單。