NLP簡報

本文首發于微信公眾號:NewBeeNLP


歡迎來到 NLP 時事簡報!涵蓋了諸如特定語言 BERT 模型、免費數據集、深度學習庫等主題。

1、Publications ??

1.1 Language-specific BERT models

我已經記不清現在有多少種特定語言的 BERT 模型了,這里有一些最新的版本:

  • 荷蘭語 Dutch BERT(RobBERT[1]| BERTje[2])
  • 德語 German BERT[3]
  • 葡萄牙語 Portuguese BERT[4]
  • 法語(CamemBERT[5] | FlauBERT[6])
  • 意大利語(AlBERTo[7] | UmBERTo[8])
  • 西班牙語(BETO[9])
  • 阿拉伯語(araBERT[10])
  • 大多數這些模型也可以通過 huggingFace 的Transformer 庫[11]獲得,該庫最近升級到了2.4.1[12]。

    1.2 Overly Optimistic Prediction Results on Imbalanced Data: Flaws and Benefits of Applying Over-sampling

    這篇論文[13]揭示并廣泛討論了在對數據集進行劃分之前應用過采樣來處理不平衡數據集的缺點和優點。此外,該工作復現了先前的研究,并確定了導致過于樂觀的結果的方法論缺陷。

    1.3 Encode, Tag and Realize: A Controllable and Efficient Approach for Text Generation

    為了減少基于 seq2seq 的文本生成方法中常見的 hallucination [14](產生輸入文本不支持的輸出)的影響,Google 工程師公開了一種稱為LaserTagger[15]的文本生成方法。該方法的主要思想是通過使用預測的編輯操作(例如KEEPDELETE-ADD等)標記單詞并在所謂的realization step中將其應用于輸入單詞來產生輸出。

    這代替了通常只從頭生成輸出的文本生成方法,這種方法通常很慢而且容易出錯。該模型除了產生更少的錯誤外,還提供了其他好處,例如,在進行少量訓練示例的情況下,可以在實現并行預測的同時進行編輯操作,同時仍保持良好的準確性并優于 BERT baseline。

    1.4 Convolutional Neural Networks as a Model of the Visual System: Past, Present, and Future

    1.5 Multilingual Denoising Pre-training for Neural Machine Translation

    1.6 On improving conversational agents

    Meena[18]是一種 neural conversational agents,旨在進行更明智和更具體的改進對話----定義為從人類對話中捕獲重要屬性(例如,流暢度)的指標。該模型通過編碼器學習會話上下文,并通過解碼器制定合理的響應。據報道,通過考慮使用更強大的解碼器可以提高通話質量。

    你也可以了解更多 Alan Nichol(Rasa HQ 的聯合創始人)關于這項工作的想法[19]。

    2、Creativity and Society ??

    2.1 ML tools — reading comprehension test and sentiment analyzer

    2.2 A Self-Taught AI Researcher at Google

    在這個采訪A Self-Taught AI Researcher at Google[23]中,你可以直接從 Google Art&Culture 的 ML 研究人員 Emil 那里聽到有關他作為一名自學成才的研究人員從事 AI 事業的經歷。

    3、Tools and Datasets ??

    3.1 Free Datasets

    Google 數據集搜索[24]正式退出測試版,現在可提供多達 2500 萬個數據集進行搜索。如果你想獲得下一個數據科學或機器學習項目的靈感,那么這里是查找對整個 Internet 上托管的數據集的引用的地方。它基本上是用于數據集的搜索引擎,這是一項了不起的工作,需要付出巨大的努力!

    Big Bad NLP 數據庫[25]是一個網站,你可以在其中搜索 200 多種 NLP 數據集的專用數據庫,以執行諸如常識,情感分析,問題回答,蘊含推理等任務。

    3.2 Reinforcement learning library

    最近,Chris Nota 開發并發布了PyTorch 庫[26],用于基于流行的深度 RL 算法(例如 DQN,PPO 和 DDPG 等)來構建強化學習代理。該庫的重點是面向對象的設計,并能夠快速實施和評估新型強化學習代理。

    3.3 ML Explainability and Interpretability

    如果你當前正在使用基于文本的語言模型,并且想了解在應用于不同語言任務時如何更輕松地解釋它們,那么你可能會對Captum[27]感興趣。Captum 是一個可解釋性庫,可用于分析功能重要性,解釋文本和視覺模型,解釋多峰模型以及其他模型(例如用于回答問題的 BERT)。

    如果你對模型的可解釋性感興趣,那么這套教程[28]也可能會讓您感興趣。它包括通過 notebook 了解功能重要性的方法。

    3.4 Machine learning and deep learning libraries

    Google Research 團隊發布了Flax[29],一種基于JAX[30]的靈活而強大的神經網絡庫,該庫提供了使用典型的 Numpy API 進行快速計算和訓練機器學習模型的框架。

    Thinc[31]是由 spaCy 的開發者開發的輕量級深度學習庫。它提供了功能編程 API,用于組成,配置和部署使用 PyTorch 和 TensorFlow 之類的庫構建的自定義模型。

    Lyft 發布了Flyte[32],它是一個多租戶,可用于生產的無服務器平臺,用于部署并發,可伸縮和可維護的 ML 和數據處理工作流。

    3.5 A tool for conversational AI

    開源對話式 AI 框架DeepPavlov[33]為構建對話系統和復雜的對話系統提供了免費且易于使用的解決方案。DeepPavlov 帶有幾個預定義的組件,用于解決與 NLP 相關的問題。它將 BERT(包括會話 BERT)集成到三個下游任務中:文本分類,命名實體識別(和一般的序列標記)以及問題解答。結果,它在所有這些任務上都取得了重大改進。(Google Colab[34] | Blog[35] | Demo[36])

    4、Ethics in AI ??

    4.1 Facial recognition and privacy

    紐約時報針對與面部識別技術有關的隱私的不同觀點撰寫了一篇有趣的報告。這個故事的重點是一個名為“ Clearview”的“秘密公司”,據稱該公司使用 AI 技術通過從 Twitter,Facebook 和 YouTube 等社交媒體網站上抓取的圖像來構建通用的面部識別。所述技術引起了人們對隱私的擔憂,但是據稱它還主要用于執法。點擊此處[37]閱讀更多故事。

    4.2 Human-Level AI Progress

    Jeremy Kahn 在這個報告[38]中廣泛討論了在 AI 技術的當前發展背景下“ Narrow AI”和“ General AI”之間的區別。除了討論的許多主題之外,關于(如果可能的話)實現 AGI 的回報還有很多問題。該報告還提到了大型高科技公司最近對這些努力進行投資的興趣。最值得注意的是,該報告包括一些受人尊敬的研究人員提出的一些擔憂,他們聲稱某些試圖操縱 AI 敘述以利于他們的研究組織表現出“不負責任和不道德”的行為。

    4.3 Understanding AI Ethics and Safety

    5、Articles and Blog posts ??

    5.1 Speeding up tokenization tutorial

    Steven van de Graaf 撰寫了這篇文章[40],報告說,與使用 Transformers 中的標準內置標記器相比,使用HuggingFace 的新 Tokenizer 庫[41]的性能有所提高。Steven 報告說,其速度提高了 9 倍,并且實現過程花費了 10.6 秒來標記 100 萬個句子。

    5.2 Can language models really comprehend?

    The Gradient 最近在Gary Marcus 的這篇文章[42]中發表,他討論了他認為是 GPT-2 等語言模型背后的基本缺陷的內容。Gary Marcus 的主要觀點是,經過訓練能夠預測下一個單詞的模型不一定是可以理解或推理的模型,即“預測是理解的組成部分,而不是整體。” 他還討論了在語言環境中先天性的重要性,并指出當前的語言模型沒有考慮到這一點。

    5.3 Curriculum for Reinforcement Learning

    5.4 Introduction to NumPy

    6、Education ??

    6.1 Foundations of machine learning and statistical inference

    來自加州理工學院的 Anima Anandkumar 發布了一門名為“機器學習和統計推論的基礎”的課程。該課程側重于 ML 概念,例如矩陣,張量,優化,概率模型,神經網絡等。這是一門很棒的課程,因為它側重于 ML 的理論方面,這對于理解和改進更高級的方法同樣重要。(視頻播放列表[45]|課程提綱[46])

    6.2 Deep Learning Lecture Series

    DeepMind 與 UCL 合作發布了深度學習講座系列[47],其中包括 12 個講座,這些講座將由 DeepMind 的領先研究科學家進行。主題包括如何使用注意力,記憶力和生成模型等方法訓練神經網絡。

    6.3 Open Syllabus

    6.4 Discussing, Sharing, and Learning about ML

    r/ResearchML[49]是用于討論 ML 論文的新的機器學習子目錄。這一主題更側重于研究并鼓勵更深入的討論。

    7、Notable Mentions ??

    How we built the good first issues feature[51]:了解有關 GitHub 如何利用機器學習為開發人員發現簡單和個性化問題的更多信息,以便他們可以解決與他們的興趣相匹配的問題。這鼓勵了來自開源貢獻者的更快和更多的貢獻。

    緊跟 Sebastian Ruder 的 NLP News[52],以獲取最新的 NLP 最新新聞。重點包括 NLP 進展的更新,過去十年的回顧,新的 NLP 課程以及其他主題。

    一份超贊的TensorFlow 2.0 深度學習 notebook[53]列表,范圍從 CycleGAN 到 Transformers 到圖像字幕任務。它們由 LBNL 的科學學院深度學習公開發布。

    一篇令人印象深刻且易于理解的博客文章,解釋了貝葉斯神經網絡[54]的基礎,入門的絕佳介紹。

    An Opinionated Guide to ML Research[55]:John Schulman 就如何更好地選擇研究問題以及在實施和解決手頭的研究任務方面更具戰略性等方面,為即將到來的機器學習研究人員提供了一些建議,還分享了個人發展和持續進步的技巧。

    今日限定款分割線,右下角鏈接可以閱讀原文~


    本文參考資料

    [1]

    RobBERT: https://arxiv.org/abs/2001.06286

    [2]

    BERTje: https://arxiv.org/abs/1912.09582

    [3]

    德語 German BERT: https://deepset.ai/german-bert

    [4]

    葡萄牙語 Portuguese BERT: https://github.com/neuralmind-ai/portuguese-bert

    [5]

    CamemBERT: https://arxiv.org/abs/1911.03894

    [6]FlauBERT: https://arxiv.org/abs/1912.05372[7]AlBERTo: http://ceur-ws.org/Vol-2481/paper57.pdf

    [8]UmBERTo: https://github.com/musixmatchresearch/umberto

    [9]BETO: https://github.com/dccuchile/beto

    [10]araBERT: https://colab.research.google.com/drive/1KSy89fAkWt6EGfnFQElDjXrBror9lIZh

    [11]Transformer 庫: https://huggingface.co/models

    [12]2.4.1: https://github.com/huggingface/transformers/releases

    [13]論文: https://arxiv.org/abs/2001.06296

    [14]hallucination : https://arxiv.org/abs/1910.08684

    [15]LaserTagger: https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html

    [16]報告: https://arxiv.org/abs/2001.07092

    [17]mBART: https://arxiv.org/pdf/2001.08210.pdf

    [18]Meena: https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

    [19]關于這項工作的想法: https://venturebeat.com/2020/01/31/with-googles-meena-are-ai-assistants-about-to-get-alot-smarter/

    [20]Albert Learns to Read: https://littlealbert.now.sh/#/

    [21]ALBERT: https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html

    [22]博客 Teaching Machines to Read: https://www.spark64.com/post/machine-comprehension

    [23]A Self-Taught AI Researcher at Google: https://blog.floydhub.com/emils-story-as-a-self-taught-ai-researcher/

    [24]Google 數據集搜索: https://blog.google/products/search/discovering-millions-datasets-web/

    [25]Big Bad NLP 數據庫: https://quantumstat.com/dataset/dataset.html

    [26]PyTorch 庫: https://github.com/cpnota/autonomous-learning-library

    [27]Captum: https://captum.ai/

    [28]這套教程: https://www.kaggle.com/learn/machine-learning-explainability

    [29]Flax: https://github.com/google-research/flax/tree/prerelease

    [30]JAX: https://github.com/google/jax

    [31]Thinc: https://thinc.ai/

    [32]Flyte: https://eng.lyft.com/introducing-flyte-cloud-native-machine-learning-and-data-processing-platform-fb2bb3046a59

    [33]DeepPavlov: https://github.com/deepmipt/DeepPavlov

    [34]Google Colab: https://colab.research.google.com/github/deepmipt/dp_notebooks/blob/master/DP_tf.ipynb

    [35]Blog: https://medium.com/tensorflow/deeppavlov-an-open-source-library-for-end-to-end-dialog-systems-and-chatbots-31cf26849e37

    [36]Demo: https://demo.deeppavlov.ai/#/en/textqa

    [37]此處: https://www.nytimes.com/2020/01/18/technology/clearview-privacy-facial-recognition.html

    [38]這個報告: https://fortune.com/longform/ai-artificial-intelligence-big-tech-microsoft-alphabet-openai/

    [39]這份非常詳盡的報告: https://www.turing.ac.uk/sites/default/files/2019-06/understanding_artificial_intelligence_ethics_and_safety.pdf

    [40]這篇文章: https://towardsdatascience.com/a-small-timing-experiment-on-the-new-tokenizers-library-a-write-up-7caab6f80ea6

    [41]HuggingFace 的新 Tokenizer 庫: https://github.com/huggingface/tokenizers

    [42]Gary Marcus 的這篇文章: https://thegradient.pub/gpt2-and-the-nature-of-intelligence/

    [43]幾種基于課程的方法: https://lilianweng.github.io/lil-log/2020/01/29/curriculum-for-reinforcement-learning.html

    [44]非常詳細的 numpy 教程: https://numpy.org/devdocs/user/absolute_beginners.html

    [45]視頻播放列表: https://www.youtube.com/playlist?list=PLVNifWxslHCDlbyitaLLYBOAEPbmF1AHg

    [46]課程提綱: http://tensorlab.cms.caltech.edu/users/anima/cms165-2020.html

    [47]深度學習講座系列: https://www.eventbrite.co.uk/o/ucl-x-deepmind-deep-learning-lecture-series-general-29078980901

    [48]Open Syllabus: https://opensyllabus.org/

    [49]r/ResearchML: https://www.reddit.com/r/ResearchML/

    [50]PracticalAI: https://practicalai.me/explore/content/

    [51]How we built the good first issues feature: https://github.blog/2020-01-22-how-we-built-good-first-issues/

    [52]NLP News: http://newsletter.ruder.io/issues/nlp-progress-restrospectives-and-look-ahead-new-nlp-courses-independent-research-initiatives-interviews-lots-of-resources-217744

    [53]TensorFlow 2.0 深度學習 notebook: https://github.com/NERSC/dl4sci-tf-tutorials

    [54]貝葉斯神經網絡: https://engineering.papercup.com/posts/bayesian-neural-nets/

    [55]An Opinionated Guide to ML Research: http://joschu.net/blog/opinionated-guide-ml-research.html

    本文首發于微信公眾號:NewBeeNLP

    ?著作權歸作者所有,轉載或內容合作請聯系作者
    平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
    • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
      沈念sama閱讀 228,505評論 6 533
    • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
      沈念sama閱讀 98,556評論 3 418
    • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
      開封第一講書人閱讀 176,463評論 0 376
    • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
      開封第一講書人閱讀 63,009評論 1 312
    • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
      茶點故事閱讀 71,778評論 6 410
    • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
      開封第一講書人閱讀 55,218評論 1 324
    • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
      沈念sama閱讀 43,281評論 3 441
    • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
      開封第一講書人閱讀 42,436評論 0 288
    • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
      沈念sama閱讀 48,969評論 1 335
    • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
      茶點故事閱讀 40,795評論 3 354
    • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
      茶點故事閱讀 42,993評論 1 369
    • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
      沈念sama閱讀 38,537評論 5 359
    • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
      茶點故事閱讀 44,229評論 3 347
    • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
      開封第一講書人閱讀 34,659評論 0 26
    • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
      開封第一講書人閱讀 35,917評論 1 286
    • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
      沈念sama閱讀 51,687評論 3 392
    • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
      茶點故事閱讀 47,990評論 2 374

    推薦閱讀更多精彩內容