吳軍《數學之美》第2章 自然語言處理 - 從規則到統計

自然語言處理從規則到統計的過渡花了15年時間。為什么這場爭議持續了15年?

1. 一種新的研究方法的成熟需要很多年。

- 20世紀70年代,基于統計的方法的核心模型是通信系統加隱含馬爾可夫模型。這個系統的輸入和輸出都是一維得得符號序列,而且保持原有的次序。

- 1988年,IBM的Peter Brown等人提出了基于統計的機器翻譯方法,框架是對的,但是效果很差,因為當時既沒有足夠的統計數據,也沒有足夠強大的模型來解決不同語言語序顛倒的問題。

2. 用基于統計的方法代替傳統的方法,需要等原有的一批語言學家退休。

?- 錢鐘書在《圍城》中講,老科學家可以理解成“老的科學家”或者“老科學的家”兩種。后者的年紀不算老,但是已經落伍,大家必須耐心等他們退休讓出位子。

基于統計的自然語言處理方法,在數學模型上和通信是相通的。

通信模型

信息(信息源) -> 編碼 -> 信息(信道) -> 解碼 -> 信息(接收方)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容