3.2.3 自然語言處理 NLP

NLP 幾大任務

自然語言處理(簡稱NLP),是研究計算機處理人類語言的一門技術,包括:

  1. 句法語義分析:對于給定的句子,進行分詞、詞性標記、命名實體識別和鏈接、句法分析、語義角色識別和多義詞消歧。
  2. 信息抽取:從給定文本中抽取重要的信息,比如,時間、地點、人物、事件、原因、結果、數字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在什么時候、什么原因、對誰、做了什么事、有什么結果。涉及到實體識別、時間抽取、因果關系抽取等關鍵技術。
  3. 文本挖掘(或者文本數據挖掘):包括文本聚類、分類、信息抽取、摘要、情感分析以及對挖掘的信息和知識的可視化、交互式的表達界面。目前主流的技術都是基于統計機器學習的。
  4. 機器翻譯:把輸入的源語言文本通過自動翻譯獲得另外一種語言的文本。根據輸入媒介不同,可以細分為文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。機器翻譯從最早的基于規則的方法到二十年前的基于統計的方法,再到今天的基于神經網絡(編碼-解碼)的方法,逐漸形成了一套比較嚴謹的方法體系。
  5. 信息檢索:對大規模的文檔進行索引。可簡單對文檔中的詞匯,賦之以不同的權重來建立索引,也可利用1,2,3的技術來建立更加深層的索引。在查詢的時候,對輸入的查詢表達式比如一個檢索詞或者一個句子進行分析,然后在索引里面查找匹配的候選文檔,再根據一個排序機制把候選文檔排序,最后輸出排序得分最高的文檔。
  6. 問答系統: 對一個自然語言表達的問題,由問答系統給出一個精準的答案。需要對自然語言查詢語句進行某種程度的語義分析,包括實體鏈接、關系識別,形成邏輯表達式,然后到知識庫中查找可能的候選答案并通過一個排序機制找出最佳的答案。
  7. 對話系統:系統通過一系列的對話,跟用戶進行聊天、回答、完成某一項任務。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術。此外,為了體現上下文相關,要具備多輪對話能力。同時,為了體現個性化,要開發用戶畫像以及基于用戶畫像的個性化回復。

隨著深度學習在圖像識別、語音識別領域的大放異彩,人們對深度學習在NLP的價值也寄予厚望。再加上AlphaGo的成功,人工智能的研究和應用變得炙手可熱。自然語言處理作為人工智能領域的認知智能,成為目前大家關注的焦點。很多研究生都在進入自然語言領域,寄望未來在人工智能方向大展身手。但是,大家常常遇到一些問題。俗話說,萬事開頭難。如果第一件事情成功了,學生就能建立信心,找到竅門,今后越做越好。否則,也可能就灰心喪氣,甚至離開這個領域。這里針對給出我個人的建議,希望我的這些粗淺觀點能夠引起大家更深層次的討論。

來源:知乎微軟亞洲研究院

NLP 任務解決情況

  1. 句法語義分析:
  2. 信息抽取:
  3. 文本挖掘:
  4. 機器翻譯:
  5. 信息檢索:
  6. 問答系統:
  7. 對話系統:

NLP 閱讀資料

  • 國際學術組織、學術會議與學術論文

    • 協會 The Association for Computational Linguistics(ACL)
      • 興趣小組 SIGDAT(Linguistic data and corpus-based approaches to NLP)
      • 興趣小組 SIGNLL(Natural Language Learning)
    • 會議 EMNLP(Conference on Empirical Methods on Natural Language Processing)
    • 會議 CoNLL(Conference on Natural Language Learning)
    • 協會 International Committee on Computational Linguistics
    • 會議 COLING(Interantional Conference on Computational Linguistics)
    • 網站 ACL Anthology
    • 期刊 Computational Linguistics
    • 期刊 Transactions of ACL, TACL
    • 期刊 ACM Transactions on Speech and Language Processing
    • 期刊 ACM Transactions on Asian Language Information Processing
    • 期刊 Journal of Quantitative Linguistics
    • 信息檢索和數據挖掘領域相關會議 SIGIR
    • 信息檢索和數據挖掘領域相關會議 WWW
    • 信息檢索和數據挖掘領域相關會議 WSDM
    • 人工智能領域相關會議 AAAI
    • 人工智能領域相關會議 IJCAI
    • 人工智能領域相關期刊 Artificial Intelligence
    • 人工智能領域相關期刊 Journal of AI Research
    • 機器學習領域相關會議 ICML
    • 機器學習領域相關會議 NIPS
    • 機器學習領域相關會議 AISTATS
    • 機器學習領域相關會議 UAI
    • 機器學習領域相關期刊 Journal of Machine Learning Research (JMLR)
    • 機器學習領域相關期刊 Machine Learning (ML)
    • 中國計算機學會推薦國際學術會議和期刊目錄
    • 博客 natural language processing
    • ACL Wiki
    • 文章 NOW Publisher - Foundations and Trends
    • 文章 Morgan & Claypool Publisher - Synthesis Lectures on Human Language Technologies
    • 演講 videolectures.net
  • 國內學術組織、學術會議與學術論文

    • 協會 中國中文信息學會
    • 會議 全國計算語言學學術會議(CCL)
    • 會議 全國青年計算語言學研討會(YCCL)
    • 會議 全國信息檢索學術會議(CCIR)
    • 會議 全國機器翻譯研討會(CWMT)
    • 會議 自然語言處理與中文計算會議 (NLP&CC)
    • 期刊 中文信息學報
    • 期刊 計算機學報
    • 期刊 軟件學報
    • 微博 王威廉
    • 微博 李沐
    • 博客 52nlp

來源:劉知遠博客

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。