生成式預訓練語言模型能否視作閉卷問答的知識庫？

?原創作者|?朱林

論文解讀：

Can Generative Pre-trained Language Models Serve as Knowledge Bases for Closed-book QA?

論文作者：

Cunxiang Wang, Pai Liu, Yue Zhang

論文地址：

https://aclanthology.org/2021.acl-long.251.pdf

收錄會議：

ACL2021

代碼和數據集：

https://github.com/wangcunxiang/Can_PLM_Server_as_KB

01?背景

圖1?預訓練語言模型

BERT、GPT等大型預訓練語言模型（Pre-trained Language Model, PLM）顯著提高了各種自然語言處理（NLP）任務的性能。

越來越多的證據表明PLM中蘊含著大千世界豐富的知識，故最新的實驗研究著重探究“LM as KB”的范式，即直接生成語言模型作為知識庫（Knowledge Base, KB）來解決問題。

圖2?LM直接完成閉卷問答任務

本文探討的就是是否可以用PLM作為KB來完成閉卷問答（Closed-book QA）任務。該任務是一項極具挑戰性的任務，它需要一個模型能直接回答問題，而無需訪問外部知識。

形式上如圖2所示，輸入問題q，輸出詞序列o，同時將正確答案g與輸出結果o進行比較來評估模型準確性。

02?問題

由于PLM天然可以存儲和使用知識，所以它們可以在閉卷問答任務中實現較高的性能。然而，現有的研究留下了許多懸而未決的問題，比如：

（1） PLM在閉卷問答任務上到底有多少潛力？比如：用于訓練的數據集僅包含了標準問答對數據集，是否可以通過其他語料數據來訓練？在回答閉卷問題之前，是否有機制可以控制具體使用哪些知識來訓練PLM？

（2）目前，主要研究成果基于的實驗數據集里面訓練集和測試集數據之間有較高重合，使得我們難以分辨出訓練出的模型給出的答案到底是來自其固有知識（泛化能力強）還是訓練數據中的表層線索（泛化能力弱）。

03?探究

實驗準備與說明

為了探討之前研究所遺留的問題，本文作者用SQuAD數據集構建了一套新的問答數據集（以下亦稱為SQuAD），原始SQuAD數據集是一個閱讀理解數據集，其中每個問題都有一個對應的維基百科段落作為可追溯的知識源，新SQuAD將原始數據集改造為了問答對數據集，該數據集的特點是訓練集和測試集的數據重合度低。

其他數據集均為傳統問答任務常用的問答數據集，如WebQuestions(WB)、TriviaQA(TQ)和NaturalQuestions(NQ)，這三者有重合度高的特點，如表1所示。

表1?四個數據集的問答數據重合度

同時，本文選用BART模型作為PLM的主實驗對象，因為它在眾多生成任務上取得了最先進的結果。當然，作者也比較了GPT-2/3模型，相關結果和BART表現一致。

實驗結果

表2 BART在四個數據集上閉卷問答任務的準確率結果

四個數據集的準確率結果顯示在表2的第一行，其中BART模型在三個數據集WB、TQ和NQ上取得了相對較高的結果，但它在SQuAD上表現不佳，準確率僅為1.5%。

作者還使用SQuAD段落進一步預訓練BART，然后進行QA-funetune。結果如表2的第二行所示，性能為1.8%，略好于1.5%，但仍然極低。

表3 重合分析結果

為了檢測重合率對結果的影響，作者定義如下符號：

作者選擇WQ作為高重合數據集的典型，以與低重合的SQuAD進行比較。

結果表明，如果測試問題與訓練問題有很大的重合，則模型傾向于在訓練集中就生成目標和單詞。

04?改進

通過分析、對比和探究BERT在不同數據集上的表現，作者找到了一些有希望改進結果的方向。可以通過使用簡單的數據增強技巧，例如，簡單地將相關段落添加到測試輸出中可以幫助BART檢索相關的知識并給出正確的答案。

此外，用類似的方式處理問答，進行QA-finetuning。將語言模型預生成和問答優化任務解耦可以讓模型更好地保留知識。

總體設計

圖3 為閉卷問答生成PLM的優化過程

如圖3所示，作者的設計受到課堂教學的啟發。

老師首先講授課本內容，然后讓學生背誦書中的要點，以測試他們對這本書的了解程度。

接下來，老師給學生一些練習題進行練習。

最后，老師給出一組不同的試題來測試學生。注意是整本書講授和背誦，而不是一本書的拆分，練習題和考試題都與本書有關。

教學&背誦

方法

為了研究BART是否可以從原始語料庫中獲取和存儲知識，作者使用SQuAD中的段落來微調BART模型，作者稱之為LM-finetuning。這段時期可以看作是為BART注入知識，亦稱“教學”。然后測試模型以檢查BART可以記住多少知識，稱為“背誦”。

LM-finetuning訓練階段（教學）：作者遵循BART的原始訓練目標進行MLM-finetune步驟，這是一個去噪自動編碼過程。

傳統BART訓練目標有五個操作，作者在這里只采用了詞填充。對于每個輸入段落，作者隨機遮掩（Mask）了30%的詞喂給模型進行訓練，如圖3的第三行所示。

圖4 LM-finetuning訓練和測試期間兩種Mask策略的示例

LM-finetuning測試階段（背誦）：在這一階段，作者開發了一個名為“背誦”的任務來檢測模型有學到了多少特定的知識。

作者的背誦任務是給PLM幾個Mask段落并要求PLM恢復它們。對每個段落，作者遮掩了作為相關問題的答案，如圖4最后一行所示。通過這種方式，如果BART可以恢復特定遮掩的段落，它必須具有進一步問答所需的知識。

由于Answer Spans大多是實體或獨立的知識片段，模型通過啟發式或表面線索恢復它們的可能性相對較小。

結果

表4模型“背誦”表現

作者首先使用原始BART、隨機初始化BART和LM-finetuning的BART對所有SQuAD段落進行背誦實驗，結果如表4(i)所示。

隨機初始化BART給出0準確率，表明該任務很困難，沒有猜測的可能性。原始BART得分為2.2%，表明它包含某些有限的知識。

LM-finetuning的BART的準確度為2.7%，這個結果表明其在一定程度上是有用的，但仍然不高，BART在記憶重要知識方面面臨重大挑戰。

鑒于上述觀察，作者嘗試通過從SQuAD中提取子集來生成更小的數據集來降低挑戰難度。結果如表4(ii)的前兩行所示，作者發現當量增加時，記憶能力迅速下降。

作者得出結論，BART具有一定的存儲知識的能力，但該能力較弱。如果控制LM-finetuning的段落數，可以確保BART記住最需要的知識。當確信相關知識被保留時，在較小子集上訓練的LM-finetuning模型是更好的選擇。

練習&考試

方法

作者提出了一種加強知識檢索的簡單方法，即QA-bridge-tune，這是一個擴展的QA-finetuning過程。

圖5 一種直觀的QA-bridge-tuning方法

該過程如圖5所示，對于每個問題輸入，輸出將相關段落與答案連接起來。由此，該模型在回答問題時可以顯式地回憶記憶過的段落，QA-bridge-tune通過它在問答和記憶知識之間架起一座橋梁，使模型可以用學到的知識回答問題。此外，這種方法可以幫助提高可解釋性。

結果

圖6多種BERT優化組合模型在SQuAD問答任務性能表現

結果如表6所示，可以看到QA-bridge-tune幫助模型在問答時喚醒相關的記憶知識，從而提高準確率，在基線上提高2到3倍。

05?結論

本文通過細致實驗分析探討了“LM as KB”范式下解決閉卷問答任務時采用普通PLM會產生的諸多問題。

實驗表明，閉卷問答任務對于PLM（如BART）仍然具有極大挑戰性。這種挑戰既在于需要模型記住知識細節，也在于記住知識后如何回答問題。

作者通過采用簡單預處理方法對于PLM分多步進行微調，將學習記憶和回答問題過程進行了解耦，提供了一個不錯的優化思路。

06?啟發與思考

本文留給了我們一些啟發與思考：

（1）“LM as KB ”這一范式是目前的一個研究熱點，理想情況下，這種范式下可以為很多NLP問題，尤其是QA問題提供非常通用便捷的解決方案。但是目前在實際應用中準確率不高，有很多問題亟待深入研究；

（2）有監督的深度學習方法重新設計數據輸入或者數據增強，雖然簡單，但是也是不能忽視的提高模型性能的手段之一；

（3）對于前人的方法和結論，需要多辯證思考、提問和批判，自己親自動手實驗驗證最佳。實驗設計要全面，片面的實驗可能會產生令人誤導的結果；

（4）模型流程更加精細化、過程尋求可解釋性是未來深度學習學術研究的趨勢；

（5）學會觀察生活，從生活中汲取靈感，很多絕妙想法往往來源于樸素的生活現象或者生活道理。比如本文的靈感就來自于我們日常的課堂教學過程。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,936評論 6贊 535
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,744評論 3贊 421
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,879評論 0贊 381
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,181評論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,935評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,325評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,384評論 3贊 443
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,534評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,084評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,892評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,067評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,623評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,322評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,735評論 0贊 27
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,990評論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,800評論 3贊 395
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,084評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

生成式預訓練語言模型能否視作閉卷問答的知識庫？

生成式預訓練語言模型能否視作閉卷問答的知識庫？

01?背景

02?問題

03?探究

實驗準備與說明

實驗結果

04?改進

總體設計

教學&背誦

方法

結果

練習&考試

方法

結果

05?結論

06?啟發與思考

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

生成式預訓練語言模型能否視作閉卷問答的知識庫？

01?背景

02?問題

03?探究

實驗準備與說明

實驗結果

04?改進

總體設計

教學&背誦

方法

結果

練習&考試

方法

結果

05?結論

06?啟發與思考

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频