文章介紹了什么是統計模型,統計模型的如何得來。
特別是馬爾可夫假設。
然后就是一個擴展閱讀:關于統計語言模型的工程訣竅
- 高階語言模型的獲得:主要是二元和三元,而之后的四元及其以上的效果提升不明顯
- 關于模型的訓練,零概率問題和平滑方法。正好這段時也正在寫關于一元(就是昨天才寫完)的模型訓練和平滑問題的解決,但是我用的模型是貝葉斯模型訓練的分類器。雖然我接觸的那本書和這本的平滑理論原理是一樣的,但是關于他的計算公式那些我還是一知半解的,可能是數學基本功太差了的原因,希望自己后面補一補。
- 最后就是關于語料庫的選擇,這個不用多提,很重要,就像一個人初入門的工作者和行業領域專家一個道理。問題需要有針對性才能有更好的解決辦法
什么是統計模型很容易理解,當時關于如何構建模型學問很大,不急慢慢來,一個一個的來。