《數(shù)學之美》讀書筆記

很早之前看了幾篇博文,只留下模糊印象 。這次是在學習人工智能的基礎知識后再看,其中研究自然語言的方法從基于規(guī)則轉變?yōu)榛诮y(tǒng)計,對我啟發(fā)很大。 在面對一個復雜的問題時,一定要去想著把它轉化成數(shù)學問題,而不是按照慣性思維去分析,只有轉化成簡單優(yōu)雅的數(shù)學模型,才證明你的研究方向對了。電腦并不神秘,它其實只是傻瓜
全書內容多,本文只介紹三條主線:自然語言的統(tǒng)計模型、拼音輸入法、搜索引擎。PS:簡書不支持latex公式,讓這篇文章寫的很麻煩。

目錄

1.文字和語言 vs 數(shù)字和信息
2.自然語言處理 - 從規(guī)則到統(tǒng)計
3.統(tǒng)計語言模型
4.中文分詞
5.隱含馬爾可夫模型
6.信息熵
7.牛人介紹: 賈里尼克(Jelinek,現(xiàn)代自然語言處理奠基者,將語音識別看作通信問題)
8.布爾代數(shù),搜索引擎的索引
9.圖論、網絡爬蟲
10.Page Rank,網頁排名技術
11.TF-IDF,網頁與查詢相關性
12.有限狀態(tài)機和動態(tài)規(guī)劃-地圖和本地搜索
13.牛人介紹:阿米特·辛格,
14.余弦定理和新聞分類
15.矩陣計算、文本處理中兩個分類問題
16.信息指紋:哈希
17.密碼學中的數(shù)學、信息論
18.搜索引擎反作弊
19.數(shù)學模型重要性
20.最大熵模型
21.拼音輸入法的數(shù)學原理
22.牛人介紹:馬庫斯(Marcus),建立語料庫。
23.布隆過濾器
24.貝葉斯網絡
25.條件隨機場和句法分析
26.牛人介紹:維特比,高通創(chuàng)辦者,制定CDMA協(xié)議。
27.期望最大化算法
28.邏輯回歸和搜索廣告
29.Map Reduce

1. 自然語言處理,語音識別,機器翻譯

1.1 基于規(guī)則的語言處理

早期學術界認為,要讓機器完成翻譯和語音識別這種人類才能做的事情,就必須先讓計算機理解自然語言,而做到這點就要讓機器有類似人類的智能。這個方法論被稱為“鳥飛派”(通過觀察鳥的飛行方式,采用仿生的思路造出飛機)。

那么怎么讓機器理解自然語言呢?受傳統(tǒng)語言學的影響,他們覺得要讓機器做好兩件事:分析句子語法和獲取語義。分析句子語法就是按照語法把句子拆分,分清它的主語、謂語、賓語是什么,每個部分的詞性是什么,用什么標點符號。而語義分析,就是弄清句子要表達的具體意思。語法規(guī)則很容易用計算機算法描述,這讓人們覺得基于規(guī)則的方法是對的。但是這種方法很快就陷入困境,因為基于語法的分析器處理不了復雜句子,同時,詞的多義性無法用規(guī)則表述,例如下面的例子:

The pen is in the box. 和 The box is in the pen.
第二句話讓非英語母語的人很難理解,盒子怎么在鋼筆里呢?其實在這里,pen是圍欄的意思。這里pen是鋼筆還是圍欄,通過上下文已經不能解決,而需要常識,即鋼筆可以放在盒子里,但是盒子比鋼筆大,所以不能放在盒子里,于是pen在這里是圍欄的意思,盒子可以放在圍欄里。

1.2 基于統(tǒng)計的語言處理

賈里尼克(Jelinek)把語音識別問題當作通信問題,并用兩個隱含馬爾可夫模型(聲學和語言模型)概括了語音識別,推動了基于統(tǒng)計的語言處理方法。

在語音識別中,計算機需要知道一個文字序列是否能構成一個大家理解而且有意義的句子。早期的做法是判斷給出的句子是否合乎語法,由前文可知這條路走不通。賈里尼克從另外角度看這個問題:通過計算一個句子出現(xiàn)的概率大小來判斷它的合理性,于是語音識別問題轉換成計算概率問題,根據這個思路,賈里尼克建立了統(tǒng)計語言模型

假定S表示某一個有意義的句子,由一連串特定順序排列的詞w1,w2,w3...組成。我們想知道S在文本中出現(xiàn)的可能性,計算S的概率P(S),根據條件概率公式:


其中P(w1)為w1出現(xiàn)的概率,P(w2|w1)為已知第一個詞出現(xiàn)的條件下,第二個詞出現(xiàn)的概率,以此類推。前面幾個概率容易計算,但是后面的概率隨著變量增多,變得不可計算。在這里需要應用馬爾可夫假設來簡化計算。馬爾可夫假設假定當前狀態(tài)只與前一個狀態(tài)有關,即Wi出現(xiàn)的概率只同它前面的詞有關Wi-1,于是上面的公式可以簡化為:

接下來的問題是估算條件概率P(Wi|Wi-1),由條件概率公式得:


而估計聯(lián)合概率P(Wi-1, Wi)和P(Wi-1)可以統(tǒng)計語料庫得到,通過計算(Wi-1, Wi)這對詞在語料庫中前后相鄰出現(xiàn)的次數(shù)C,以及Wi-1單獨出現(xiàn)的次數(shù),就可得到這些詞或者二元組的相對頻度。根據大數(shù)定理,只要統(tǒng)計量足夠,相對頻度就等于概率,于是


于是復雜的語序合理性問題,變成了簡單的次數(shù)統(tǒng)計問題。

上式對應的統(tǒng)計語言模型是二元模型,實際應用中,google翻譯用到四元模型。

1.3 中文分詞

對于西方拼音語言來說,詞之間有明確的分界符(空格),但是中、日、韓、泰等語言沒有。因此,首先要對句子進行分詞,才能做進一步自然語言處理。對一個句子正確的分詞結果如下:

分詞前:中國航天官員應邀到美國與太空總署官員開會。
分詞后:中國/航天/官員/應邀/到/美國/與/太空/總署/官員/開會/。

最容易想到的分詞方法是“查字典”,即把一個句子從左到右掃描一遍,遇到字典里有的詞就標出來,遇到復合詞就找最長匹配,遇到不認識的字串就分割成單字。這個方法能解決七八成的問題,但是遇到有二義性的分割就無能為力了,例如“發(fā)展中國家”,正確的分割是“發(fā)展-中-國家”,但是按照查字典法就會分成“發(fā)展-中國-家”。另外,并不是最長匹配都一定正確,例如“上海大學城書店”,正確的分割是“上海-大學城-書店”,而不是“上海大學-城-書店”。

按照前文的成功思路,依靠語法規(guī)則無法解決分詞的二義性問題,還是得靠統(tǒng)計語言模型。

假設一個句子S有n種分詞方法,利用前文的統(tǒng)計語言模型,分別計算出每種分詞方法的概率,概率最大的即為最好的分詞方法。因為窮舉所有的分詞方法計算量太大,所以可以把它看成是一個動態(tài)規(guī)劃問題,并利用維特比算法快速找到最佳分詞。具體應用時還要考慮分詞的顆粒度。

2. 拼音輸入法

2.1 拼音輸入法中的數(shù)學

中文輸入法經歷了以自然音節(jié)編碼輸入,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的過程。輸入法輸入漢字的快慢取決于對漢字編碼的平均長度,也就是擊鍵次數(shù)乘以尋找這個鍵需要的時間。單純地減少編碼長度未必能提高輸入速度,因為尋找一個鍵的時間會增長。

將漢字輸入到計算機中,是將人能看懂的信息編碼變成計算機約定的編碼(Unicode或UTF-8)的過程。對漢字的編碼分為兩部分:對拼音的編碼和消除(一音多字)歧義。鍵盤上可使用的是26個字母和10個數(shù)字鍵,最直接的方式是讓26個字母對應拼音,用10個數(shù)字消除歧義性。只有當兩個編碼都縮短時,漢字的輸入才能夠變快。早期的輸入法常常只注重第一部分而忽略第二部分,例如雙拼輸入法和五筆輸入法。

每一個拼音對應多個漢字,把一個拼音串對應的漢字由左向右連起來,就是一張有向圖,如下圖所示,y1,y2,y3...是輸入的拼音串,W11,W12,W13是第一個音的候選漢字(后面的文字描述用W1代替),以此類推。從第一個字到最后一個字可以組成很多句子,每個句子對應圖中的一條路徑。



拼音輸入法就是要根據上下文在給定的拼音條件下找到最優(yōu)的句子,即求

(Arg是argument的縮寫,Arg Max為獲得最大值的信息串)
化簡這個概率需要用到隱含馬爾可夫模型(見2.2介紹),我們把拼音串看成能觀察到的“顯狀態(tài)”,候選漢字看成“隱狀態(tài)”,然后求在這個“顯狀態(tài)”下的“隱狀態(tài)”概率。帶入下文中的隱含馬爾可夫模型公式(2.3),式(2.1)化簡為:

化簡連乘, 需要將等式兩邊取對數(shù)得

乘法變成了加法。我們定義兩個詞之間的距離

這樣,尋找最大概率問題變成了尋找最短路徑問題。

2.2 隱含馬爾可夫模型

上文介紹過馬爾可夫假設(研究隨機過程中的一個假設),即在隨機狀態(tài)序列中,假設其中的一個狀態(tài)只于前一個狀態(tài)有關。如天氣預報,假設今天的天氣只與昨天有關,這樣就能得到近似解:

馬爾可夫鏈

符合這個假設的隨機過程稱為馬爾可夫過程,也叫馬爾可夫鏈。隱含馬爾可夫模型是馬爾可夫鏈的一個擴展:任意時刻t的狀態(tài)St是不可見的,但在每個時刻會輸出Ot, Ot僅和St相關,這叫獨立輸出假設,數(shù)學公式如下:

P(Ot|St)我們可以通過觀察得到。

隱馬爾可夫模型

解決問題通常是通過已知求未知,我們要通過觀察到$o_t$求出$s_t$的概率,即求

由條件概率公式可得:

因為觀察到的狀態(tài)O一旦產生就不會變了,所以它是一個可忽略的常數(shù),上式可以化簡為

因為

式(2.2)可以化簡為

3.信息論:信息的度量和作用

3.1 信息熵

香農在他的論文“通信的數(shù)學原理”[想到牛頓的“自然哲學與數(shù)學原理”],提出了信息熵(shang),把信息和數(shù)字聯(lián)系起來,解決了信息的度量,并量化出信息的作用。

一條信息的信息量和它的不確定性正相關,信息熵約等于不確定性的多少。香農給出的信息熵公式為

P(x)為x的概率分布。

信息熵的公式為什么取負數(shù)?因為概率小于1,小數(shù)求得的對數(shù)是負數(shù),給整個公式加上負號,最終的結果為正。

下面舉例說明信息熵公式為什么會用到log和概率。

猜中世界杯冠軍需要多少次?
足球世界杯共32個球隊,給他們編號1-32號,第一次猜冠軍是否在1-16號之中,如果對了就會接著猜是否在1-8號,如果錯了就知道冠軍在9-16號,第三次猜是否在9-12號,這樣只需要5次就能猜中,log32 = 5。這里采用的是折半查找,所以取對數(shù)。

但實際情況不需要猜5次,因為球隊有強弱,可以先把奪冠熱門分一組,剩下的分一組,問冠軍是否在熱門組中,再繼續(xù)這個過程,按照奪冠概率對剩下的球隊分組。引入概率就會讓查找數(shù)更少,也就是不確定性更小,信息熵更小。可以計算,當每支球隊奪冠概率相等時(1/32),信息熵的結果為5。

3.2 條件墑:

假定X和Y是兩個隨機變量,X是我們要了解的,已知X的隨機分布P(X),于是X的熵為:


假定我們還知道Y的一些情況,包括它和X一起出現(xiàn)的概率,即聯(lián)合概率分布,以及在Y取不同值前提下X的概率分布,即條件概率分布,于是在Y條件下X的條件熵為:


可證明H(X|Y) <H(X), 即引入相關信息后,不確定性下降了。

3.3 互信息

信息之間的相關性如果度量呢? 香農提出了用互信息度量兩個隨機事件的相關性。例如,“好悶熱”和“要下雨了”的互信息很高。
X與Y的互信息公式如下:

經過演算,可得到

只要有足夠的語料庫,P(x,y), P(x) 和P(y)是很容易計算的。

機器翻譯中最難的兩個問題之一是二義性,如Bush 既可以是總統(tǒng)布什,也可以是灌木叢,Kerry既可以是國務卿克里,也可以是小母牛。如何正確的翻譯?一種思路是通過語法辨別,但效果不好; 另一種思路是用互信息,從大量文本中找出和總統(tǒng)布什一起出現(xiàn)的詞語,如總統(tǒng)、美國、國會等,再用同樣的方法找出和灌木叢一起出現(xiàn)的詞,如土壤、植物等,有了這兩組詞,在翻譯Bush時,看看上下文中哪類詞更多就可以了。

3.4 相對熵/交叉熵

相對熵(KL Divergence),衡量兩個取值為正的函數(shù)的相似性:

結論:

  1. 兩個完全相等的函數(shù),相對熵為零;
  2. 相對熵越大,兩個函數(shù)差異越大。
  3. 對于概率分布函數(shù),或者概率密度函數(shù),相對熵可以度量兩個隨機分布的差異性。

在自然語言處理中,常用相對熵計算兩個常用詞在不同文本中的概率分布,看他們是否同義;或者根據兩篇文章中不同詞的分布,衡量它們的內容是否相等。利用相對熵,可以得到信息檢索中最重要的概念:詞頻率-逆向文檔頻率(TF-IDF),在后面的搜索章節(jié)會對它詳細介紹。

4. 搜索

4.1 獲取網頁:網絡爬蟲

把整個互聯(lián)網看作一張大圖,每個網頁就是圖中的一個節(jié)點,超鏈接是連接節(jié)點的弧。通過網絡爬蟲,用圖的遍歷算法,就能自動地訪問到每個網頁并把它們存起來。

網絡爬蟲是這樣工作:假定從一家門戶網站的首頁出發(fā),先下載這個網頁,再通過這個網頁分析出里面包含的所有超鏈接,接下來訪問并下載這些超鏈接指向的網頁。讓計算機不同地做下去,就能下載整個互聯(lián)網。 還需要用一個記事本(哈希表)記錄下載了哪些網頁避免重復下載。

工程實現(xiàn)問題:

  1. 遍歷算法采用廣度優(yōu)先還是深度優(yōu)先?
    搜索引擎要做到在有限的時間內,最多地爬下最重要的網頁。顯然各個網站最重要的是它的首頁,那么就應該先下載所有網站的首頁。如果把爬蟲再擴大一點,就要繼續(xù)下載首頁直接鏈接的網頁,因為這些網頁是網站設計者自己認為相當重要的網頁。在這個前提下,似乎應該采用廣度優(yōu)先。

但是還要考慮網絡通信的“握手”問題。網絡爬蟲每次訪問網站服務器時,都要通過“握手”建立連接(TCP協(xié)議),如果采用廣度優(yōu)先,每個網站先輪流下載所有首頁,再回過頭來下載第二級網頁,這樣就要頻繁的訪問網站,增加“握手”耗時。

實際的網絡爬蟲是由成百上千臺服務器組成的分布式系統(tǒng),由調度系統(tǒng)決定網頁下載的順序,對于某個網站,一般是由特定的一臺或幾臺服務器專門下載,這些服務器先下載完一個網站再進入下一個網站,這樣可以減少握手次數(shù)(深度優(yōu)先)。具體到每個網站,采用廣度優(yōu)先,先下載首頁,再下載首頁直接鏈接的網頁。

  1. 頁面分析和超鏈接(URL)提取
    早期的網頁都是直接用HTML書寫,URL以文本的形式放在網頁中,前后有明顯標識,很容易提取出來。但現(xiàn)在很多網頁都是用腳本語言(如JavaScript)生成,URL不是直接可見的文本,所以網絡爬蟲要模擬瀏覽器運行網頁后才能得到隱含的URL,但很多網頁的腳本寫的不規(guī)范,很難解析,這就導致這樣的網頁無法被搜索引擎收錄。

  2. 維護超鏈接哈希表
    在一臺服務器上建立和維護一張哈希表并不是難事,但如果同時有成千上萬臺服務器一起下載網頁,維護一張統(tǒng)一的哈希表就會遇到很多問題:

首先,這張哈希表會大到存不下來;其次,每臺服務器下載前和下載后都要訪問哈希表,于是哈希表服務器的通信就成了整個爬蟲系統(tǒng)的瓶頸。解決辦法是:明確分工,將某個區(qū)間的URL分給特定的幾臺服務器,避免所有服務器對同一個URL做判斷;批量詢問哈希表,減少通信次數(shù),每次更新一大批哈希表的內容。

4.2 網頁檢索:布爾代數(shù)

最簡單的索引結構是用一個很長的二進制數(shù)表示一個關鍵字是否在每個網頁中,有多少個網頁就有多少位數(shù),每一位對應一個網頁,1代表相應的網頁有這個關鍵字,0代表沒有。比如關鍵字“原子能”對應的二進制數(shù)是0100 1000 1100 0001...表示(從左到右)第二、第五、第九、第十、第十六個網頁包含這個關鍵字。假定關鍵字“應用”對應的二進制數(shù)是0010 1001 1000 0001...,那么要找到同時包含“原子能”和“應用”的網頁時,只需要將這兩個二進制數(shù)進行布爾AND運算,結果是0000 1000 0000 0001...表示第五和第十六個網頁滿足要求。 這個二進制數(shù)非常長,但是計算機做布爾運算非常快,現(xiàn)在最便宜的微機,在一個指令周期進行32位布爾運算,一秒鐘十億次以上。

為了保證對任何搜索都能提供相關網頁,主要的搜索引擎都是對所有詞進行索引,假如互聯(lián)網上有100億個有意義的網頁,詞匯表大小是30萬,那么這個索引至少是100億x30萬=3000萬億。考慮到大多數(shù)的詞只出現(xiàn)在一部分文本中,壓縮比是100:1,也是30萬億的量級。為了網頁排名方便,索引中還要存其他附加信息,如每個詞出現(xiàn)的位置,次數(shù)等等。因此整個索引就變得非常大,需要通過分布式存儲到不同服務器上(根據網頁編號劃分為很多小塊,根據網頁重要性建立重要索引和非重要索引)。

4.3 度量網頁和查詢的相關性:TF-IDF

我們以查找包含“原子能的應用”網頁舉例,“原子能的應用”可以分成三個關鍵詞:原子能、的、應用。憑直覺,我們認為包含這三個關鍵詞較多的網頁,比包含它們較少的網頁相關。但這并不可取,因為這樣的話,內容長的網頁比內容短的網頁占便宜,所以要根據網頁長度對關鍵詞的次數(shù)進行歸一化,用關鍵詞的次數(shù),除以網頁的總字數(shù),這個商叫做“關鍵詞的頻率”或“單文本頻率”(TF:Term Frequency)。比如,某個網頁上有1000詞,其中“原子能”“的”“應用”分別出現(xiàn)了2次、35次、5次,那么它們的詞頻就是0.002、0.035、0.005,將這三個數(shù)相加就是相應網頁和查詢“原子能的應用”的單文本頻率。所以,度量網頁和查詢的相關性,一個簡單的方法就是直接使用各個關鍵詞在網頁中出現(xiàn)的總頻率。

但是這也有不準確的地方,例如上面的例子中,“的”占了總詞頻的80%以上,但是它對確定網頁的主題幾乎沒什么用,我們叫這樣的詞為停止詞(stop word),類似的還有“是”“和”等。 另外“應用”是很普通的詞,而“原子能”是專業(yè)詞,后者在相關性排名中比前者重要。因此需要給每個詞給一個權重,權重的設定滿足兩個條件:

  1. 一個詞預測主題的能力越強,權重就越大;
  2. 停止詞權重為零。

在信息檢索中,使用最多的是“逆文本頻率指數(shù)”(IDF:Inverse Document Frequency),公式為


(D是全部網頁數(shù),Dw為關鍵詞w出現(xiàn)的網頁個數(shù))。最終確定查詢相關性,是利用TF和IDF的加權求和。 (IDF其實是在特定條件下關鍵詞概率分布的交叉熵)

4.4 搜索結果頁排序:Page Rank算法

這是拉里·佩奇和謝爾蓋·布林發(fā)明的計算網頁自身質量的數(shù)學模型,google憑借該算法,使搜索的相關性有了質的飛躍,圓滿解決了以往搜索頁中排序不好的問題。該算法的核心思想為:如果一個網頁被很多其他網頁所鏈接,說明它收到普遍的承認和信賴,那么它的排名就高。當然,在具體應用中還要加上權重,給排名高的網頁鏈接更高的權重。這里有一個怪圈,計算搜索結果網頁排名過程中需要用到網頁本身的排名,這不是“先有雞還是先有蛋的問題”嗎? 謝爾蓋·布林解決了這個問題,他把這個問題變成了一個二維矩陣問題,先假定所有網頁排名相同(1/N),在根據這個初始值不斷迭代排名,最后能收斂到真實排名。

4.5 新聞分類:余弦定理

google有新聞頻道,里面的內容是由計算機聚合、整理并分類各網站內容。以前門戶網站的內容是由編輯在讀懂之后,再根據主題分類。但是計算機根本讀不懂新聞,它只會計算,所以要讓計算機分類新聞,首先就要把文字變成可計算的數(shù)字,再設計一個算法來計算任意兩篇新聞的相似性。

計算一篇新聞中所有實詞的TF-IDF值,再把這些值按照對應的實詞在詞匯表的位置依次排列,就得到一個向量。例如詞匯表中有64000個詞,其編號和詞如左下表所示,在某一篇新聞中,這64000個詞的TF-IDF值如右下表所示,這64000個數(shù)就組成了一個64000維的向量,我們就用這個向量代表這篇新聞,成為這篇新聞的特征向量。每篇新聞都有一個特征向量,向量中的每個數(shù)代表對應的詞對這篇新聞主題的貢獻。

同一類的新聞,一定某些主題詞用的較多,兩篇相似的新聞,它們的特征向量一定在某幾個緯度的值比較大。如果兩個向量的方向一致,就說明新聞的用詞比例基本一致,我們采用余弦定理計算兩個向量間的夾角:

新聞分類算法分為有目標和無目標:第一種是已知一些新聞類別的特征向量,拿它分別和所有待分類的新聞計算余弦相似性,并分到對應的類別中,這些已知的新聞類別特征向量既可以手工建立,也可以自動建立; 第二種是沒有分好類的特征向量做參考,它采用自底向上的聚類方法,計算所有新聞兩兩之間的余弦相似性,把相似性大于一個閾值的新聞分作一個小類,再比較各小類之間的余弦相似性,就這樣不斷待在聚合,一直到某一類因為太大而導致里面的新聞相似性很小時停止。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,936評論 6 535
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,744評論 3 421
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,879評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,181評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,935評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,325評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,384評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,534評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 49,084評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,892評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,623評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,322評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,735評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,990評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,800評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,084評論 2 375

推薦閱讀更多精彩內容

  • 寫在之前 如需轉載,請注明出處。如有侵權或者其他問題,煩請告知。 第1章文字和語言 vs 數(shù)字和信息 文字和語言與...
    hainingwyx閱讀 1,181評論 0 2
  • 1.1 統(tǒng)計語言模型 香農(Claude Shannon)就提出了用數(shù)學的辦法處理自然語言。首先成功利用數(shù)學方法解...
    wzz閱讀 1,985評論 0 10
  • 1.整體來說,這本書到底在談些什么? 談數(shù)學知識在計算機中的實際應用,還有精妙的數(shù)學方法。 2.作者細部說了什么,...
    游冶星河閱讀 4,045評論 3 12
  • 在羅馬體系的文字中,總體來講,常用字短,生僻字長。而在意形文字中,也是類似。這完全符合信息論中的最短編碼原理。 在...
    李渡閱讀 644評論 0 1
  • 上次寫到了統(tǒng)計語言模型進行語言處理,由于模型是建立在詞匯的基礎之上的,日韓中等國家的語言首先要進行分詞。例如把句...
    擦干眼淚我還是王閱讀 331評論 0 0