《數(shù)學(xué)之美》

摘錄

第一章:文字和語(yǔ)言 VS 數(shù)字和信息

通信的原理和信息傳播的模型、(信源)編碼和最短編碼、解碼的規(guī)則,語(yǔ)法、聚類(lèi)、校驗(yàn)位、雙魚(yú)對(duì)照文本,語(yǔ)料庫(kù)和機(jī)器翻譯、多義性和利用上下文消除歧義,這些今天自然語(yǔ)言處理學(xué)者們研究的問(wèn)題,我們的祖先在設(shè)計(jì)語(yǔ)言的時(shí)候其實(shí)已經(jīng)遇到了,并且用類(lèi)似今天的方法解決了,雖然他們的認(rèn)識(shí)多是自發(fā)的,而不是自覺(jué)地。他們過(guò)去遵循的法則和我們今天探求的研究方法背后有著共同的東西,這就是數(shù)學(xué)規(guī)律。

第二章:自然語(yǔ)言處理——從規(guī)則到統(tǒng)計(jì)

基于統(tǒng)計(jì)的自然語(yǔ)言處理方法,在數(shù)學(xué)模型上和通信是相通的,甚至就是相同的。因此,在數(shù)學(xué)意義上自然語(yǔ)言處理又和語(yǔ)言的初衷——通信聯(lián)系在一起了。但是,科學(xué)家們認(rèn)識(shí)到這個(gè)聯(lián)系卻花了幾十年的時(shí)間。

第三章:統(tǒng)計(jì)語(yǔ)言模型

馬爾可夫模型:假設(shè)任意一個(gè)詞Wi出現(xiàn)的概率直通它前面的N個(gè)詞Wi-1、Wi-2、。。。Wi-n有關(guān)。(N從1到2,從2到3對(duì)模型都有顯著的提升,當(dāng)從3到4提升不再明顯)

統(tǒng)計(jì)語(yǔ)言模型在形式上非常簡(jiǎn)單,任何人都很容易理解。但是里面的學(xué)問(wèn)卻可以很深,一個(gè)專(zhuān)家可以在這方面研究很多年,比如我們?cè)谘由扉喿x中提到的那些問(wèn)題。數(shù)學(xué)的魅力就在于將復(fù)雜的問(wèn)題簡(jiǎn)單化。

第四章:談?wù)勚形姆衷~

中文分詞以統(tǒng)計(jì)語(yǔ)言模型為基礎(chǔ),經(jīng)過(guò)幾十年的發(fā)展和完善,今天基本上可以看做是一個(gè)已經(jīng)解決的問(wèn)題。當(dāng)然不同的人做的分詞器有好有壞,這里面的差別主要在數(shù)據(jù)的使用和工程實(shí)現(xiàn)的精度。

第五章:隱含馬爾可夫模型

隱含馬爾可夫模型最初應(yīng)用于通信領(lǐng)域,繼而推廣到語(yǔ)音和語(yǔ)言處理中,成為連接自然語(yǔ)言處理和通信的橋梁。同事,隱含馬爾可夫模型也是極其學(xué)習(xí)主要工具之一。和幾乎所有的極其學(xué)習(xí)的模型工具一樣,它需要一個(gè)訓(xùn)練算法(Baum-Welch算法)和使用時(shí)的解碼算法(維特比算法),掌握了這兩類(lèi)算法,就基本上可以使用隱含馬爾可夫模型這個(gè)工具了。

第六章:信息的度量和作用

信息熵不僅是對(duì)信息的量化度量,而且是整個(gè)信息論的基礎(chǔ)。它對(duì)于通信、數(shù)據(jù)壓縮、自然語(yǔ)言處理都有很強(qiáng)的指導(dǎo)意義。信息熵的物理含義是對(duì)一個(gè)信息系統(tǒng)不確定性的度量,在這一點(diǎn)上,它和熱力學(xué)中熵的概念相同,因?yàn)楹笳呤菍?duì)于一個(gè)系統(tǒng)無(wú)序的度量。這說(shuō)明科學(xué)上很多看似不同的學(xué)科之間也會(huì)有很強(qiáng)的相似性。

第七章:賈里尼克和現(xiàn)代語(yǔ)言處理

信息科學(xué)大師——賈里尼克

第八章:簡(jiǎn)單之美——布爾代數(shù)和搜索引擎的索引

布爾代數(shù)(1和0,and or not)非常簡(jiǎn)單,但是對(duì)數(shù)學(xué)和計(jì)算機(jī)發(fā)展的意義重大,它不僅把邏輯和數(shù)學(xué)合二為一,而且給了我們一個(gè)全新的視角看待世界,開(kāi)創(chuàng)了今天數(shù)字化的時(shí)代。在此,讓我們用偉大科學(xué)家牛頓的一句話(huà)來(lái)結(jié)束這一章,“(人民)發(fā)覺(jué)真理在形式上從來(lái)是簡(jiǎn)單的,而不是復(fù)雜和含混的。

第九章:圖論和網(wǎng)絡(luò)爬蟲(chóng)

圖的遍歷是一件很簡(jiǎn)單的事情,沒(méi)有多少人會(huì)去研究這件事情,也沒(méi)有多少人用得到。可是互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷方法一下子有了用武之地。很多數(shù)學(xué)方法就是這個(gè)樣子,看上去沒(méi)有什么實(shí)際用途,但是隨著時(shí)間的推移會(huì)一下子派上大用場(chǎng)。

第十章:PageRank——Google的民主表決式網(wǎng)頁(yè) 排名技術(shù)

今天,Google 搜索引擎比最初復(fù)雜、完善了許多。但是PageRank在Google所有算法中依然是至關(guān)重要的。

第十一章:如何確定網(wǎng)頁(yè)和查詢(xún)的相關(guān)性

TF-IDF是對(duì)搜索關(guān)鍵字的重要性度量,從理論上講,它有很強(qiáng)的理論根據(jù)。因此如果對(duì)搜索不是很精通的人,直接采用TF-IDF效果也不會(huì)太差。現(xiàn)在各家搜索引擎對(duì)關(guān)鍵詞重要性的度量,都在TF-IDF的基礎(chǔ)上有些改進(jìn)和微調(diào)。但是,在原理上與TF-IDF相差不遠(yuǎn)。

第十二章:地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃

有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)則的應(yīng)用非常廣泛,遠(yuǎn)遠(yuǎn)不止識(shí)別地址、導(dǎo)航等地圖服務(wù)相關(guān)領(lǐng)域,它們?cè)谡Z(yǔ)音識(shí)別、拼寫(xiě)和語(yǔ)法糾錯(cuò)、拼音輸入法、工業(yè)控制和生物的序列分析等領(lǐng)域都有著極其重要的應(yīng)用。其在拼音輸入法中也有重大作用

第十三章:Google AK-47的設(shè)計(jì)者——Dr阿米特 辛格

介紹Dr Singhal

第十四章:余弦定理和新聞的分類(lèi)

1、計(jì)算所有新聞之間兩兩的余弦相似性,把相似性大于一個(gè)閾值的新聞合并成一個(gè)小類(lèi)。這樣N篇新聞被合并成N1個(gè)小類(lèi)。

2、把每個(gè)小類(lèi)所有的新聞作為一個(gè)整體,計(jì)算小類(lèi)的特征向量,再計(jì)算小類(lèi)之間兩兩的余弦相似性,然后合并成大一點(diǎn)的小類(lèi)N2. N2<N1。

第十五章:矩陣運(yùn)算和文本處理中的兩個(gè)分類(lèi)問(wèn)題

計(jì)算大量新聞時(shí)一步到位的辦法是利用矩陣運(yùn)算中的奇異值分解(SVD),得到粗分類(lèi)結(jié)果,再利用計(jì)算向量余弦的方法,在粗分類(lèi)結(jié)果的基礎(chǔ)上,進(jìn)行幾次迭代,得到比較精確的結(jié)果。

第十六章:信息指紋極其應(yīng)用

信息指紋可以理解成將一段信息(文字、圖片、音頻、視頻等)隨機(jī)地映射到一個(gè)多維二進(jìn)制空間中的一個(gè)點(diǎn)(一個(gè)二進(jìn)制數(shù)字)。只要這個(gè)隨機(jī)函數(shù)做得好,那么不同信息對(duì)應(yīng)的這些點(diǎn)不會(huì)重合,因此這些二進(jìn)制數(shù)字就成了原來(lái)信息所具有的獨(dú)一無(wú)二的指紋。

第十七章:由電視劇《暗算》所想到的——談?wù)劽艽a學(xué)的數(shù)學(xué)原理

我們?cè)诮榻B信息論中談到,利用信息可以消除一個(gè)系統(tǒng)的不確定性。而利用已經(jīng)獲得的信息情報(bào)來(lái)消除一個(gè)情報(bào)系統(tǒng)的不確定性就是解密。因此,密碼學(xué)的最高境界就是無(wú)論地方獲取多少密文,也無(wú)法消除己方情報(bào)系統(tǒng)的不確定性。為了達(dá)到這個(gè)目的,就不僅要做到密文之間相互無(wú)關(guān),同時(shí)密文還是看似完全隨機(jī)的序列。在信息誕生后,科學(xué)家們沿著這個(gè)思路設(shè)計(jì)出很好的密碼系統(tǒng),而公開(kāi)秘鑰是目前最常用的加密辦法。

第十八章:閃光的不一定是金子——談?wù)勊阉饕娣醋鞅讍?wèn)題

SEO——Search Engine Optimizer 搜索引擎優(yōu)化者——作弊者

第十九章:談?wù)剶?shù)學(xué)模型的重要性

我們對(duì)任何問(wèn)題總是再找相應(yīng)的準(zhǔn)確的數(shù)學(xué)模型

第二十章:不要把雞蛋放到同一個(gè)籃子里——談?wù)勛畲箪啬P?/p>

最大熵模型可以將各種信息整合到一個(gè)統(tǒng)一的模型中。它有很多良好的特性:從形式上看,它非常簡(jiǎn)單,非常優(yōu)美;從效果上看,它是唯一一種可以滿(mǎn)足各個(gè)信息源的限制條件,同事又能保證平滑性的模型。由于最大熵模型具有這些良好的特性,它的應(yīng)用范圍因而十分廣泛。但是,最大熵模型的計(jì)算量巨大,在工程上實(shí)現(xiàn)方法的好壞決定了模型的實(shí)用與否。

第二十一章:拼音輸入法的數(shù)學(xué)原理

漢字的輸入過(guò)程本身就是人和計(jì)算機(jī)的通信,好的輸入法會(huì)自覺(jué)或者不自覺(jué)地遵循通信的數(shù)學(xué)模型。當(dāng)然要做出最有效的輸入法,應(yīng)當(dāng)自覺(jué)使用信息論做指導(dǎo)。

第二十二章:自然語(yǔ)言處理的教父馬庫(kù)斯和他的優(yōu)秀弟子們

馬庫(kù)斯主要弟子:柯林斯、布萊爾

第二十三章:布隆過(guò)濾器

布隆過(guò)濾器背后的數(shù)學(xué)原理在于兩個(gè)完全隨機(jī)的數(shù)字沖突的概率很小,因此,可以在很小的誤識(shí)別率條件下,用很少的空間存儲(chǔ)大量信息。常見(jiàn)的補(bǔ)救無(wú)識(shí)別的辦法是再建立一個(gè)小的白名單,存儲(chǔ)那些可能被誤判的信息。由于布隆過(guò)濾器中只有簡(jiǎn)單的算術(shù)運(yùn)算,因此它的速度很快使用方便。

第二十四章:馬爾可夫鏈的擴(kuò)展——葉貝斯網(wǎng)絡(luò)

葉貝斯網(wǎng)絡(luò)是一個(gè)加權(quán)的有向圖,是馬爾可夫鏈的擴(kuò)展。從認(rèn)識(shí)的層面看,葉貝斯網(wǎng)絡(luò)克服了馬爾可夫鏈那種機(jī)械的線(xiàn)性的約束,它可以把任何有關(guān)聯(lián)的時(shí)間統(tǒng)一到它的框架下面。

第二十五章:條件隨機(jī)場(chǎng)和句法分析

條件隨機(jī)場(chǎng)是一個(gè)非常靈活的用于預(yù)測(cè)的統(tǒng)計(jì)模型。和最大熵模型一樣,條件隨機(jī)場(chǎng)的形式簡(jiǎn)單,但是實(shí)現(xiàn)復(fù)雜。

第二十六章:維特比和他的維特比算法

高通公司創(chuàng)始人:維特比 CDMA 3G通信技術(shù)

第二十七章:再談文本自動(dòng)分類(lèi)問(wèn)題——期望最大化算法

EM算法只需要有一些訓(xùn)練數(shù)據(jù),定義一個(gè)最大化函數(shù),剩下的事情就交給計(jì)算機(jī)了。

第二十八章:邏輯回歸和廣告搜索

邏輯回歸模型是一種將影響概率的不同因素結(jié)合在一起的指數(shù)模型。和許多模型一樣,都可以采用通用迭代算法GIS和改進(jìn)的迭代算法IIS來(lái)實(shí)現(xiàn)。除了在信息處理中的應(yīng)用,邏輯回歸模型還廣泛應(yīng)用于生物統(tǒng)計(jì)。

第二十九章:各個(gè)擊破算法和Google云計(jì)算的基礎(chǔ)

我們現(xiàn)在發(fā)現(xiàn)Google頗為神秘的云計(jì)算中最重要的MapReduce工具,其實(shí)原理就是計(jì)算機(jī)算法中常用的“各個(gè)擊破”法,它的原理原來(lái)這么簡(jiǎn)單——將復(fù)雜的大問(wèn)題分解成很多小問(wèn)題分別求解,然后再把小問(wèn)題的解合并成原始問(wèn)題的解。由此可見(jiàn),在生活中大量用到的,真正有用的方法往往樸實(shí)而簡(jiǎn)單。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,501評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,673評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,610評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,939評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,668評(píng)論 6 412
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 56,004評(píng)論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,001評(píng)論 3 449
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 43,173評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,705評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,426評(píng)論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,656評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,139評(píng)論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,833評(píng)論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,247評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,580評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,371評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,621評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容

  • 很早之前看了幾篇博文,只留下模糊印象 。這次是在學(xué)習(xí)人工智能的基礎(chǔ)知識(shí)后再看,其中研究自然語(yǔ)言的方法從基于規(guī)則轉(zhuǎn)變...
    輕舟閱讀 5,937評(píng)論 0 9
  • 寫(xiě)在之前 如需轉(zhuǎn)載,請(qǐng)注明出處。如有侵權(quán)或者其他問(wèn)題,煩請(qǐng)告知。 第1章文字和語(yǔ)言 vs 數(shù)字和信息 文字和語(yǔ)言與...
    hainingwyx閱讀 1,185評(píng)論 0 2
  • 第一章、 文字和語(yǔ)言vs數(shù)字和信息 簡(jiǎn)要介紹了語(yǔ)言和文字的發(fā)展過(guò)程 第二章、 自然語(yǔ)言處理 在上世紀(jì)50年代到...
    hyhchaos閱讀 427評(píng)論 0 0
  • 1.1 統(tǒng)計(jì)語(yǔ)言模型 香農(nóng)(Claude Shannon)就提出了用數(shù)學(xué)的辦法處理自然語(yǔ)言。首先成功利用數(shù)學(xué)方法解...
    wzz閱讀 1,988評(píng)論 0 10
  • 一輪明月掛在心頭 溫柔的灑滿(mǎn)海面 月光撫摸你肆意的笑容 浪花追逐你調(diào)皮的腳步 我張開(kāi)雙臂望著你 來(lái)吧 走進(jìn)我心海
    未々眠閱讀 269評(píng)論 2 4