notes about Natural Language Processing (almost) from Scratch

Neil Zhu,簡書ID Not_GOD,University AI 創始人 & Chief Scientist,致力于推進世界人工智能化進程。制定并實施 UAI 中長期增長戰略和目標,帶領團隊快速成長為人工智能領域最專業的力量。
作為行業領導者,他和UAI一起在2014年創建了TASA(中國最早的人工智能社團), DL Center(深度學習知識中心全球價值網絡),AI growth(行業智庫培訓)等,為中國的人工智能人才建設輸送了大量的血液和養分。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動,產生了巨大的影響力,書寫了60萬字的人工智能精品技術內容,生產翻譯了全球第一本深度學習入門書《神經網絡與深度學習》,生產的內容被大量的專業垂直公眾號和媒體轉載與連載。曾經受邀為國內頂尖大學制定人工智能學習規劃和教授人工智能前沿課程,均受學生和老師好評。

Ronan Collobert & Jason Weston ...
L′eon Bottou, Michael Karlen, Koray Kavukcuoglu, Pavel Kuksa

摘要:提出統一的神經網絡體系和學習算法可以用來解決若干自然語言處理任務,包含part of speech標注、chunking、命名實體識別和語義角色標記。在這四個領域中都已經達到或者超過了當前最新的研究成果。我們的目標是設計出一種靈活的結構可以學習用于解決這些問題的表征,因此避免了過多的特征工程(這樣就不需要大量的先驗知識)。我們的系統可以在大量的無標記數據中學習到內部表征,而不需要人工設定相應的深思熟慮的那些特征。這個工作也讓使用最少的計算資源來構建一個方便可用并且性能高效的標記系統變成可能。

introduction

需要一種統一的數據結構來對文本進行建模。
這些簡單的表征通常由于特定的應用激發出來,例如,用于信息檢索的詞袋模型的變體。這些表征也會是他們捕獲了某種自然語言的更加一般的特性。
他們可以描述語義信息(part-of-speech tagging, chunking and parsing)或者語義信息(word-sense disambiguation, semantic role labeling, named entity extraction and anaphora resolution)。文本語料庫已經人工標注使用這樣的數據結構來在不同的系統中進行性能的比對。標準測試集也對NLP領域的研究產生巨大的刺激。
這些標準測試集也只能告訴我們故事的其中一部分,因為他上門沒有測量出這些系統能夠多么有效地轉換為可以應用在真實場景的任務上的系統。

本篇文章就嘗試來超越多個標準測試集,使用一個單一的學習系統。實際上,我們將這個標準測試集看成一個間接的對學習過程發現的內部表示的相關度的度量,而且我們認為這些中間的表征比標準測試集的更加一般。

很多高度工程化的NLP系統解決標準測試任務的時候使用線性統計模型應用在任務相關的特征上。換句話說,這些研究者本身已經通過特征工程發現了中間的表征。這些特征一般是從preexisting系統的輸出中產生,而后產生復雜的運行時依賴關系。這個觀點比較有效因為研究者們提升了語言知識的大多數部分的層次。另一方面,有一種過度工程的現象來為了讓某種測試集的效果達到最好而放棄了其在NLP中的泛化能力。

在這個貢獻中,我們描述了一個統一的NLP系統,在若干的測試集上都達到了較好的性能,通過發現其自身的內部表征。我們已經盡可能多地避免了工程特征,并且我們因此也忽略了大部分的語言知識。通過轉化在海量未標記數據發現的中間表示我們也達到了最新的研究水平。我們稱文章“almost from scratch”就是來強調這種對先驗的NLP知識的弱化(盡管知識本身是很重要的)

第二節描述了目標測試任務。第三節描述了統一的模型和監督學習的測試結果。第四節使用了相當大得未標記數據集來訓練這個模型。巨大的性能提升,通過將無監督的內部表征轉換為監督測試集的模型。第五節則調查了多個任務的監督訓練。第六節驗證了有多大的提升可以被達到通過使用經典的NLP工程技術在我們的系統中。接著我們總結全文。

標準測試任務

POS
CHUNK
NER
SRL

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容