在羅馬體系的文字中,總體來講,常用字短,生僻字長。而在意形文字中,也是類似。這完全符合信息論中的最短編碼原理。
在通信時,如果信道較寬,信息不必壓縮就可以傳遞;而如果信道較窄,信息在傳遞時需要盡可能的壓縮,然后在接收端進行解壓縮。
-
語言模型:
一個句子是否合理,就要看它的可能性大小如何。可能性用概率來衡量,演化成數學模型就是馬爾可夫二元模型,即假設一個詞出現的頻率只與他之前一個詞相關。
N元模型即是假設一個詞由之前N-1個詞決定
馬爾可夫二元和N元模型
當N從1到到2時,再從2到3時,模型的效果上升顯著。而模型從3到4時,效果的提升就不是很顯著,而資源的耗費卻非常快,所以除非不惜資源做到極致,很少有人使用4元以上模型。 中文分詞:
一般使用查字典方法,查字典方法,從左往右掃描一遍,遇到字典里有的詞就標識出來,遇到復合詞就找最長的詞匹配,遇到不認識的就分割成單字詞。
其中用統計學+查字典的形式,解決分詞歧義的問題。
在對中文分詞時,一個問題就是詞語的顆粒度問題。不同的應用中,會有一種顆粒度比另一種好的情況。比如在機器翻譯中,一般說顆粒度大,翻譯效果好。但在另外一些應用,比如網頁搜索中,小的顆粒度比大的顆粒度反而要好。因此顆粒度看場景使用。-
馬爾科夫鏈和隱含馬爾科夫鏈
如果沒有信息,任何公式或者數字的游戲都無法排除不確定性。信息的作用在于消除不確定性,自然語言處理的大量問題就是找相關的信息。
網頁搜索:
網頁搜索的本質是要從大量(幾十億個)網頁中,找到和用戶輸入的搜索詞最相關的幾個網頁。幾十億個可能性,如果只剩下幾個網頁,就幾乎沒有不確定性了。網頁搜索的本質是消除不確定性,如果提供的信息不夠,正確做法是挖掘新的隱含信息,或直接問問用戶。不正確的做法是在關鍵詞上玩數字和公式的游戲,由于沒有額外信息的引入,很沒有效果。
搜索引擎的道:下載(網頁)→索引→排序
網絡爬蟲對網頁遍歷的次序不是簡單的BFS或者DFS,而是有一個相對復雜的下載優先級排序的方法。管理這個優先級排序的子系統一般稱為調度系統。
對于一個特定的查詢,搜索結果的排名取決于兩組信息:關于網頁的質量信息和這個查詢與每個網頁的相關性信息。-
有限狀態機
如果一條地址能從狀態機的開始狀態經過狀態機的若干中間狀態,走到終止狀態,那么這條抵制就有效,否則無效。
圖論/動態規劃:找一個圖給定兩個點中最短路徑,可以將一個“尋找全程最短路線”的問題,分解成一個個尋找局部最短路線的小問題。 模型原則
一個正確的數學模型應當在形式上是簡單的
一個正確的模型一開始可能還不如一個精雕細琢過的錯誤模型來的精準,但是,如果認定大方向是正確的,就應該堅持下去
大量準確的數據對研發很重要
正確的模型也可能受噪音干擾,而顯得不正確。這時不應該用一種湊合的修正方法來彌補,而是要找到噪音的根源,這也許能通往重大的發現。拼音輸入法的數學原理:
輸入法輸入漢字的快慢取決于對漢字編碼的平均長度,用通俗話來講,就是擊鍵次數乘以尋找這個鍵需要的事件。
《數學之美》讀書筆記
最后編輯于 :
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
- 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
- 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...