數學之美-第四章-談談分詞

主體講述的是中文分詞方法的演變歷史,由于一些亞洲語言詞與詞之間沒有明確的分界符,因此需要先進分詞處理。這也是中文的自然語言處理的獨到之處吧。

主要介紹在分詞過程中的奇異性是基于統計語言模型解決,然后再說人工分詞出現奇異性的解決(在擴展閱讀中)。

之后談到詞的顆粒度和層次,在中文應用場景的不同,所需要的效果就會有所不同,由于對不同場景的應用,構造不同的分詞器,會產生資源的浪費,所以之后就有人提出了讓一個分詞器同時支持不同層次的詞的切分,然后在不同應用中自行決定切分的顆粒度。

小結

中文分詞以統計語言模型為基礎,經過幾十年的發展和完善,今天基本上可以看作是一個已經本解決的問題。

當然不同的人做的分詞器友好有壞,這里面的差別主要在于數據的使用和工程實現的精度。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 常用概念: 自然語言處理(NLP) 數據挖掘 推薦算法 用戶畫像 知識圖譜 信息檢索 文本分類 常用技術: 詞級別...
    御風之星閱讀 9,300評論 1 25
  • 轉載請注明:終小南 ? 中文分詞算法總結 什么是中文分詞眾所周知,英文是以 詞為單位的,詞和詞之間是靠空格隔開,而...
    kirai閱讀 9,922評論 3 24
  • 層次化的隱馬爾可夫模型 在自然語言處理等應用中,由于處理序列具有遞歸特性,尤其當序列長度比較大時,HMM的復雜度將...
    我偏笑_NSNirvana閱讀 6,836評論 1 15
  • 1)ICTCLAS 最早的中文開源分詞項目之一,由中科院計算所的張華平、劉群所開發,采用C/C++編寫,算法基于《...
    MobotStone閱讀 5,781評論 1 15
  • 背景 英文以空格作為分隔符,而中文詞語之間沒有分隔; 在中文里,“詞”和“詞組”邊界模糊現代漢語的基本表達單元雖然...
    翼徳閱讀 2,769評論 0 5