本文首發于微信公眾號:NewBeeNLP
歡迎來到 NLP 時事簡報!涵蓋了諸如特定語言 BERT 模型、免費數據集、深度學習庫等主題。
1、Publications ??
1.1 Language-specific BERT models
我已經記不清現在有多少種特定語言的 BERT 模型了,這里有一些最新的版本:
大多數這些模型也可以通過 huggingFace 的Transformer 庫[11]獲得,該庫最近升級到了2.4.1[12]。
1.2 Overly Optimistic Prediction Results on Imbalanced Data: Flaws and Benefits of Applying Over-sampling
這篇論文[13]揭示并廣泛討論了在對數據集進行劃分之前應用過采樣來處理不平衡數據集的缺點和優點。此外,該工作復現了先前的研究,并確定了導致過于樂觀的結果的方法論缺陷。
1.3 Encode, Tag and Realize: A Controllable and Efficient Approach for Text Generation
為了減少基于 seq2seq 的文本生成方法中常見的 hallucination [14](產生輸入文本不支持的輸出)的影響,Google 工程師公開了一種稱為LaserTagger[15]的文本生成方法。該方法的主要思想是通過使用預測的編輯操作(例如KEEP
,DELETE-ADD
等)標記單詞并在所謂的realization step中將其應用于輸入單詞來產生輸出。
這代替了通常只從頭生成輸出的文本生成方法,這種方法通常很慢而且容易出錯。該模型除了產生更少的錯誤外,還提供了其他好處,例如,在進行少量訓練示例的情況下,可以在實現并行預測的同時進行編輯操作,同時仍保持良好的準確性并優于 BERT baseline。
1.4 Convolutional Neural Networks as a Model of the Visual System: Past, Present, and Future
1.5 Multilingual Denoising Pre-training for Neural Machine Translation
1.6 On improving conversational agents
Meena[18]是一種 neural conversational agents,旨在進行更明智和更具體的改進對話----定義為從人類對話中捕獲重要屬性(例如,流暢度)的指標。該模型通過編碼器學習會話上下文,并通過解碼器制定合理的響應。據報道,通過考慮使用更強大的解碼器可以提高通話質量。
你也可以了解更多 Alan Nichol(Rasa HQ 的聯合創始人)關于這項工作的想法[19]。
2、Creativity and Society ??
2.1 ML tools — reading comprehension test and sentiment analyzer
2.2 A Self-Taught AI Researcher at Google
在這個采訪A Self-Taught AI Researcher at Google[23]中,你可以直接從 Google Art&Culture 的 ML 研究人員 Emil 那里聽到有關他作為一名自學成才的研究人員從事 AI 事業的經歷。
3、Tools and Datasets ??
3.1 Free Datasets
Google 數據集搜索[24]正式退出測試版,現在可提供多達 2500 萬個數據集進行搜索。如果你想獲得下一個數據科學或機器學習項目的靈感,那么這里是查找對整個 Internet 上托管的數據集的引用的地方。它基本上是用于數據集的搜索引擎,這是一項了不起的工作,需要付出巨大的努力!
Big Bad NLP 數據庫[25]是一個網站,你可以在其中搜索 200 多種 NLP 數據集的專用數據庫,以執行諸如常識,情感分析,問題回答,蘊含推理等任務。
3.2 Reinforcement learning library
最近,Chris Nota 開發并發布了PyTorch 庫[26],用于基于流行的深度 RL 算法(例如 DQN,PPO 和 DDPG 等)來構建強化學習代理。該庫的重點是面向對象的設計,并能夠快速實施和評估新型強化學習代理。
3.3 ML Explainability and Interpretability
如果你當前正在使用基于文本的語言模型,并且想了解在應用于不同語言任務時如何更輕松地解釋它們,那么你可能會對Captum[27]感興趣。Captum 是一個可解釋性庫,可用于分析功能重要性,解釋文本和視覺模型,解釋多峰模型以及其他模型(例如用于回答問題的 BERT)。
如果你對模型的可解釋性感興趣,那么這套教程[28]也可能會讓您感興趣。它包括通過 notebook 了解功能重要性的方法。
3.4 Machine learning and deep learning libraries
Google Research 團隊發布了Flax[29],一種基于JAX[30]的靈活而強大的神經網絡庫,該庫提供了使用典型的 Numpy API 進行快速計算和訓練機器學習模型的框架。
Thinc[31]是由 spaCy 的開發者開發的輕量級深度學習庫。它提供了功能編程 API,用于組成,配置和部署使用 PyTorch 和 TensorFlow 之類的庫構建的自定義模型。
Lyft 發布了Flyte[32],它是一個多租戶,可用于生產的無服務器平臺,用于部署并發,可伸縮和可維護的 ML 和數據處理工作流。
3.5 A tool for conversational AI
開源對話式 AI 框架DeepPavlov[33]為構建對話系統和復雜的對話系統提供了免費且易于使用的解決方案。DeepPavlov 帶有幾個預定義的組件,用于解決與 NLP 相關的問題。它將 BERT(包括會話 BERT)集成到三個下游任務中:文本分類,命名實體識別(和一般的序列標記)以及問題解答。結果,它在所有這些任務上都取得了重大改進。(Google Colab[34] | Blog[35] | Demo[36])
4、Ethics in AI ??
4.1 Facial recognition and privacy
紐約時報針對與面部識別技術有關的隱私的不同觀點撰寫了一篇有趣的報告。這個故事的重點是一個名為“ Clearview”的“秘密公司”,據稱該公司使用 AI 技術通過從 Twitter,Facebook 和 YouTube 等社交媒體網站上抓取的圖像來構建通用的面部識別。所述技術引起了人們對隱私的擔憂,但是據稱它還主要用于執法。點擊此處[37]閱讀更多故事。
4.2 Human-Level AI Progress
Jeremy Kahn 在這個報告[38]中廣泛討論了在 AI 技術的當前發展背景下“ Narrow AI”和“ General AI”之間的區別。除了討論的許多主題之外,關于(如果可能的話)實現 AGI 的回報還有很多問題。該報告還提到了大型高科技公司最近對這些努力進行投資的興趣。最值得注意的是,該報告包括一些受人尊敬的研究人員提出的一些擔憂,他們聲稱某些試圖操縱 AI 敘述以利于他們的研究組織表現出“不負責任和不道德”的行為。
4.3 Understanding AI Ethics and Safety
5、Articles and Blog posts ??
5.1 Speeding up tokenization tutorial
Steven van de Graaf 撰寫了這篇文章[40],報告說,與使用 Transformers 中的標準內置標記器相比,使用HuggingFace 的新 Tokenizer 庫[41]的性能有所提高。Steven 報告說,其速度提高了 9 倍,并且實現過程花費了 10.6 秒來標記 100 萬個句子。
5.2 Can language models really comprehend?
The Gradient 最近在Gary Marcus 的這篇文章[42]中發表,他討論了他認為是 GPT-2 等語言模型背后的基本缺陷的內容。Gary Marcus 的主要觀點是,經過訓練能夠預測下一個單詞的模型不一定是可以理解或推理的模型,即“預測是理解的組成部分,而不是整體。” 他還討論了在語言環境中先天性的重要性,并指出當前的語言模型沒有考慮到這一點。
5.3 Curriculum for Reinforcement Learning
5.4 Introduction to NumPy
6、Education ??
6.1 Foundations of machine learning and statistical inference
來自加州理工學院的 Anima Anandkumar 發布了一門名為“機器學習和統計推論的基礎”的課程。該課程側重于 ML 概念,例如矩陣,張量,優化,概率模型,神經網絡等。這是一門很棒的課程,因為它側重于 ML 的理論方面,這對于理解和改進更高級的方法同樣重要。(視頻播放列表[45]|課程提綱[46])
6.2 Deep Learning Lecture Series
DeepMind 與 UCL 合作發布了深度學習講座系列[47],其中包括 12 個講座,這些講座將由 DeepMind 的領先研究科學家進行。主題包括如何使用注意力,記憶力和生成模型等方法訓練神經網絡。
6.3 Open Syllabus
6.4 Discussing, Sharing, and Learning about ML
r/ResearchML[49]是用于討論 ML 論文的新的機器學習子目錄。這一主題更側重于研究并鼓勵更深入的討論。
7、Notable Mentions ??
How we built the good first issues feature[51]:了解有關 GitHub 如何利用機器學習為開發人員發現簡單和個性化問題的更多信息,以便他們可以解決與他們的興趣相匹配的問題。這鼓勵了來自開源貢獻者的更快和更多的貢獻。
緊跟 Sebastian Ruder 的 NLP News[52],以獲取最新的 NLP 最新新聞。重點包括 NLP 進展的更新,過去十年的回顧,新的 NLP 課程以及其他主題。
一份超贊的TensorFlow 2.0 深度學習 notebook[53]列表,范圍從 CycleGAN 到 Transformers 到圖像字幕任務。它們由 LBNL 的科學學院深度學習公開發布。
一篇令人印象深刻且易于理解的博客文章,解釋了貝葉斯神經網絡[54]的基礎,入門的絕佳介紹。
An Opinionated Guide to ML Research[55]:John Schulman 就如何更好地選擇研究問題以及在實施和解決手頭的研究任務方面更具戰略性等方面,為即將到來的機器學習研究人員提供了一些建議,還分享了個人發展和持續進步的技巧。
今日限定款分割線,右下角鏈接可以閱讀原文~
本文參考資料
[1]
RobBERT: https://arxiv.org/abs/2001.06286
[2]
BERTje: https://arxiv.org/abs/1912.09582
[3]
德語 German BERT: https://deepset.ai/german-bert
[4]
葡萄牙語 Portuguese BERT: https://github.com/neuralmind-ai/portuguese-bert
[5]
CamemBERT: https://arxiv.org/abs/1911.03894
[6]FlauBERT: https://arxiv.org/abs/1912.05372[7]AlBERTo: http://ceur-ws.org/Vol-2481/paper57.pdf
[8]UmBERTo: https://github.com/musixmatchresearch/umberto
[9]BETO: https://github.com/dccuchile/beto
[10]araBERT: https://colab.research.google.com/drive/1KSy89fAkWt6EGfnFQElDjXrBror9lIZh
[11]Transformer 庫: https://huggingface.co/models
[12]2.4.1: https://github.com/huggingface/transformers/releases
[13]論文: https://arxiv.org/abs/2001.06296
[14]hallucination : https://arxiv.org/abs/1910.08684
[15]LaserTagger: https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html
[16]報告: https://arxiv.org/abs/2001.07092
[17]mBART: https://arxiv.org/pdf/2001.08210.pdf
[18]Meena: https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
[19]關于這項工作的想法: https://venturebeat.com/2020/01/31/with-googles-meena-are-ai-assistants-about-to-get-alot-smarter/
[20]Albert Learns to Read: https://littlealbert.now.sh/#/
[21]ALBERT: https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html
[22]博客 Teaching Machines to Read: https://www.spark64.com/post/machine-comprehension
[23]A Self-Taught AI Researcher at Google: https://blog.floydhub.com/emils-story-as-a-self-taught-ai-researcher/
[24]Google 數據集搜索: https://blog.google/products/search/discovering-millions-datasets-web/
[25]Big Bad NLP 數據庫: https://quantumstat.com/dataset/dataset.html
[26]PyTorch 庫: https://github.com/cpnota/autonomous-learning-library
[27]Captum: https://captum.ai/
[28]這套教程: https://www.kaggle.com/learn/machine-learning-explainability
[29]Flax: https://github.com/google-research/flax/tree/prerelease
[30]JAX: https://github.com/google/jax
[31]Thinc: https://thinc.ai/
[32]Flyte: https://eng.lyft.com/introducing-flyte-cloud-native-machine-learning-and-data-processing-platform-fb2bb3046a59
[33]DeepPavlov: https://github.com/deepmipt/DeepPavlov
[34]Google Colab: https://colab.research.google.com/github/deepmipt/dp_notebooks/blob/master/DP_tf.ipynb
[35]Blog: https://medium.com/tensorflow/deeppavlov-an-open-source-library-for-end-to-end-dialog-systems-and-chatbots-31cf26849e37
[36]Demo: https://demo.deeppavlov.ai/#/en/textqa
[37]此處: https://www.nytimes.com/2020/01/18/technology/clearview-privacy-facial-recognition.html
[38]這個報告: https://fortune.com/longform/ai-artificial-intelligence-big-tech-microsoft-alphabet-openai/
[39]這份非常詳盡的報告: https://www.turing.ac.uk/sites/default/files/2019-06/understanding_artificial_intelligence_ethics_and_safety.pdf
[40]這篇文章: https://towardsdatascience.com/a-small-timing-experiment-on-the-new-tokenizers-library-a-write-up-7caab6f80ea6
[41]HuggingFace 的新 Tokenizer 庫: https://github.com/huggingface/tokenizers
[42]Gary Marcus 的這篇文章: https://thegradient.pub/gpt2-and-the-nature-of-intelligence/
[43]幾種基于課程的方法: https://lilianweng.github.io/lil-log/2020/01/29/curriculum-for-reinforcement-learning.html
[44]非常詳細的 numpy 教程: https://numpy.org/devdocs/user/absolute_beginners.html
[45]視頻播放列表: https://www.youtube.com/playlist?list=PLVNifWxslHCDlbyitaLLYBOAEPbmF1AHg
[46]課程提綱: http://tensorlab.cms.caltech.edu/users/anima/cms165-2020.html
[47]深度學習講座系列: https://www.eventbrite.co.uk/o/ucl-x-deepmind-deep-learning-lecture-series-general-29078980901
[48]Open Syllabus: https://opensyllabus.org/
[49]r/ResearchML: https://www.reddit.com/r/ResearchML/
[50]PracticalAI: https://practicalai.me/explore/content/
[51]How we built the good first issues feature: https://github.blog/2020-01-22-how-we-built-good-first-issues/
[52]NLP News: http://newsletter.ruder.io/issues/nlp-progress-restrospectives-and-look-ahead-new-nlp-courses-independent-research-initiatives-interviews-lots-of-resources-217744
[53]TensorFlow 2.0 深度學習 notebook: https://github.com/NERSC/dl4sci-tf-tutorials
[54]貝葉斯神經網絡: https://engineering.papercup.com/posts/bayesian-neural-nets/
[55]An Opinionated Guide to ML Research: http://joschu.net/blog/opinionated-guide-ml-research.html
本文首發于微信公眾號:NewBeeNLP