2018 · NIPS · Learned in Translation: Contextualized Word Vectors
想法來源:從CV中借鑒的想法,深層的神經網絡權重初始化問題,可以提升最后的表現性能。
價值:在通用的NLP任務中提高最后的表現。
方法:訓練好的機器翻譯的encoder(BiLSTM),作為上下文編碼器,結合Glove向量作為表示,扔到downstream任務里。
缺點:task specific,大多還是利用了下游任務的模型表現。
詳細方案:
訓練好一個翻譯模型的encoder,用這個encoder編碼單詞表示。拼接glove向量
-c350
下游任務還是利用各自的模型,比如分類,利用率a-o-a模型和self att, max, mean, min pooling。QA利用了Dynamic Coattention Network (DCN)
數據集:
- smallest MT dataset comes from the WMT 2016 multi-modal translation shared task
- largest MT dataset WMT 2017
- medium-sized MT dataset Spoken Language Translation 2016
- Stanford Sentiment Treebank (SST)
- IMDb dataset
- small TREC dataset
- Stanford Natural Language Inference Corpus (SNLI)
- SQuAD
實驗:
分類:
-c400
-c400
QA:
-c400