主體講述的是中文分詞方法的演變歷史,由于一些亞洲語言詞與詞之間沒有明確的分界符,因此需要先進分詞處理。這也是中文的自然語言處理的獨到之處吧。
主要介紹在分詞過程中的奇異性是基于統計語言模型解決,然后再說人工分詞出現奇異性的解決(在擴展閱讀中)。
之后談到詞的顆粒度和層次,在中文應用場景的不同,所需要的效果就會有所不同,由于對不同場景的應用,構造不同的分詞器,會產生資源的浪費,所以之后就有人提出了讓一個分詞器同時支持不同層次的詞的切分,然后在不同應用中自行決定切分的顆粒度。
小結
中文分詞以統計語言模型為基礎,經過幾十年的發展和完善,今天基本上可以看作是一個已經本解決的問題。
當然不同的人做的分詞器友好有壞,這里面的差別主要在于數據的使用和工程實現的精度。