主體講述的是中文分詞方法的演變歷史,由于一些亞洲語言詞與詞之間沒有明確的分界符,因此需要先進分詞處理。這也是中文的自然語言處理的獨到之處吧。
主要介紹在分詞過程中的奇異性是基于統(tǒng)計語言模型解決,然后再說人工分詞出現(xiàn)奇異性的解決(在擴展閱讀中)。
之后談到詞的顆粒度和層次,在中文應(yīng)用場景的不同,所需要的效果就會有所不同,由于對不同場景的應(yīng)用,構(gòu)造不同的分詞器,會產(chǎn)生資源的浪費,所以之后就有人提出了讓一個分詞器同時支持不同層次的詞的切分,然后在不同應(yīng)用中自行決定切分的顆粒度。
小結(jié)
中文分詞以統(tǒng)計語言模型為基礎(chǔ),經(jīng)過幾十年的發(fā)展和完善,今天基本上可以看作是一個已經(jīng)本解決的問題。
當然不同的人做的分詞器友好有壞,這里面的差別主要在于數(shù)據(jù)的使用和工程實現(xiàn)的精度。