導讀
OpenAI近期發布聊天機器人模型ChatGPT,迅速出圈全網。它以對話方式進行交互。以更貼近人的對話方式與使用者互動,可以回答問題、承認錯誤、挑戰不正確的前提、拒絕不適當的請求。高質量的回答、上癮式的交互體驗,圈內外都紛紛驚呼。
為什么有如此高的評價?理論支撐是什么?背后的技術原理是什么?待解決的問題和方案有哪些?資本怎么看待這件事?本文的目標是將這些問題詳細的給大家講清楚。
1 ChatGPT是什么?
ChatGPT本質是一個應用在對話場景的語言模型,基于GPT3.5通過人類反饋的強化學習微調而來,能夠回答后續問題、承認錯誤、質疑不正確的前提以及拒絕不適當的請求。首先讓我們今天的主角ChatGPT來親自介紹自己。
1.1讓ChatGPT介紹自己
ChatGPT是什么?既然ChatGPT是語言模型,語言模型是什么?通過強化學習訓練,強化學習又是什么?
1.2全球范圍的興起和爆發
OpenAI 11月30號發布,首先在北美、歐洲等已經引發了熱烈的討論。隨后在國內開始火起來。全球用戶爭相曬出自己極具創意的與ChatGPT交流的成果。ChatGPT在大量網友的瘋狂測試中表現出各種驚人的能力,如流暢對答、寫代碼、寫劇本、糾錯等,甚至讓記者編輯、程序員等從業者都感受到了威脅,更不乏其將取代谷歌搜索引擎之說。繼AlphaGo擊敗李世石、AI繪畫大火之后,ChatGPT成為又一新晉網紅。下面是谷歌全球指數,我們可以看到火爆的程度。
國內對比各大平臺,最先火起來是在微信上,通過微信指數我們可以看到,97.48%來自于公眾號,開始于科技圈,迅速拓展到投資圈等。我最先了解到ChatGPT相關信息的也是在關注的科技公眾號上,隨后看到各大公眾號出現關于介紹ChatGPT各種震驚體關鍵詞地震、殺瘋了、毀滅人類等。隨后各行各業都參與進來有趣的整活,問數學題,問歷史,還有寫小說,寫日報,寫代碼找BUG......
1.3背后的金主OpenAI
OpenAI是一個人工智能研究實驗室,目的是促進和發展友好的人工智能,使人類整體受益。OpenAI原是非營利機構,但為了更好地實現產研結合,2019年3月成立OpenAI LP子公司,目的為營利所用。
2019年7月微軟投資雙方將攜手合作,2020年6月宣布了GPT-3語言模型,刷新了人們對AI的認知。GPT系列語言模型讓我們不斷對通用人工智能(AGI)充滿了期待。
OpenAI目標之初就很遠大,解決通用人工智能問題,主要涉及強化學習和生成模型。
強化學習最早被認為是實現人類通用智能重要手段,2016年DeepMind開發的AlphaGo Zero 使用強化學習訓練,讓人類圍棋的歷史經驗成為了「Zero」,標志著人類向通用型的人工智能邁出了重要一步。2019年OpenAI 在《Dota2》的比賽中戰勝了人類世界冠軍。OpenAI在強化學習有很多深入的研究,Dactyl也是一款OpenAI通過強化強化學習訓練能夠高精度操縱物體的機器人手,OpenAI Gym是一款用于研發和比較強化學習算法的工具包,所以ChatGPT中使用強化學習也是順理成章。
生成模型方面,為我們熟知的是GPT-3,這是一個強大的語言模型能夠生成人類一樣流暢的語言。DellE 2是最近很火的AI繪畫根據文本描述生成圖片。Codex是和微軟合作通過github代碼訓練而來,可以生成代碼和Debug,已經商業化。
作為OpenAI曾經的創始人伊隆·馬斯克也發表了對ChatGPT的評價!
看看ChatGPT是怎么介紹自家公司的?
2 ChatGPT一些有趣的體驗
作為一個聊天機器人,我們體驗發現相比傳統的機器人在連貫性問答中更加流暢自然。微信上已經有很多的小程序可以體驗,或者直接講ChatGPT接入了微信中,下面體驗一下已經接入到企業微信的ChatGPT。
1)公司一向注重價值觀,第一道題回答對一半,公司規定應第一時間退回,特殊情況無法退回,無論價值多少都需要進行申報,所以ChatGPT應該入職不了我司。第二道經典問題的回答還蠻符合公司正直的價值觀的,哈哈。
2)公司協會活動總又人放鴿子,我來問問ChatGPT這些人啥心態。看到幫忙想的理由和放鴿子的人說的一樣,我有點懷疑他們的心態了。
3)職場工具人看看能不能通過ChatGPT代勞,可以看到文案寫作還是不錯的。回答的這個提綱有一點小問題但不影響大局。講故事編劇本也是不錯的,先幫中國足球寫好參加世界杯的文案,就是不知道能不能用的上了。
4)身邊同事很重視娃的教育,那么從娃娃抓起先看看ChatGPT能不能帶娃學習。文化常識題回答正確,數學題這推理能力,我擔心娃考不上初中,可以用但是家長給把把關啊!同時也考察了一下他腦筋急轉彎怎么樣,這個傻瓜沒答對。
5)號稱編程神器可寫代碼、修bug,考察一下Leetcode中等難度的都沒問題。雖然它自謙不會編程,但根據測試和網友的驗證能力確實強。
6)考察一下互聯網知識儲備,挑戰失?。∪鏑hatGPT自己所述,他還有很多局限性比如給出看起來沒問題其實挺離譜的答案,例如回答自己公司的成果還夾雜私人感情,把競爭對手DeepMind的AlphaGo功勞都據為己有。
做一個小節,其實網上有特別多有趣的案例,這里篇幅有限只是簡單了列舉幾個。通過體驗結合網友的反饋,ChatGPT的確掌握了一些知識體系和回答技巧。我們看到相比傳統的聊天機器人,ChatGPT在連貫性問答中更加流暢自然,什么話都能接住。除了好玩的聊天神器外還有很多實用的價值,比如解答專業概念、編程類問題、從日常郵件、寫請假條、廣告文案等等,都可以通過ChatGPT代勞??赐赀@些有趣的案例,那么ChatGPT究竟如何實現的,我們接下來將講解關于ChatGPT的哪些技術原理。
3 ChatGPT之前技術沿襲
ChatGPT是基于GPT3.5語言模型,人類反饋的強化學習微調而來。本節將對涉及語言模型和強化學習兩個重要技術做一個科普,已經熟悉的可直接跳過本節。
3.1語言模型的技術演進
語言模型通俗講是判斷這句話是否通順、正確。數學函數表達為給定前N個詞,預測第N+1 個詞概率,將概率序列分解成條件概率乘積的形式,這個函數就可以實現語言模型去生成句子。那么是什么樣的語言模型如此強大,本小節梳理了深度學習開始的語言模型演技過程,如下圖所示:
第一次開始用神經網絡做語言模型是2003年Bengio提出的NNLM的網絡結構,隨著圖像領域預訓練的取得的突破迅速遷移到NLP領域,有了我們熟知的word2vec,通常做NLP任務句子中每個單詞Onehot形式輸入,使用預訓練好的word embedding初始化網絡的第一層,進行下游任務。word2vec的弊端是word embedding靜態的,后續代表性工作中ELMo通過采用雙層雙向LSTM實現了根據當前上下文對Word Embedding動態調整。
ELMo非常明顯的缺點在特征抽取器LSTM結構帶來的,17年Google在機器翻譯Transformer取得了效果的突破,NLP各種任務開始驗證Transformer特征提取的能力比LSTM強很多。自此NLP開啟了Transformer時代。
2018年OpenAI采用Transformer Decoder結構在大規模語料上訓練 GPT1模型橫掃了各項NLP任務,自此邁入大規模預訓練時代NLP任務標準的預訓練+微調范式。由于GPT采用Decoder的單向結構天然缺陷是無法感知上下文,Google很快提出了Encoder結構的Bert模型可以感知上下文效果上也明顯有提升。隨后2019年OpenAI提出了GPT2,GPT2擁有和GPT1一樣的模型結構,但得益于更高的數據質量和更大的數據規模有了驚人的生成能力。同年Google采用了Encoder-Decoder結構,提出了T5模型。從此大規模預訓練語言模型兵分三路,開始了一系列延續的工作。
2020年OpenAI提出GPT3將GPT模型提升到全新的高度,其訓練參數達到了1750億,自此超大模型時代開啟。技術路線上摒棄了之前預訓練+微調的范式,通過輸入自然語言當作指示生成答案,開始了NLP任務新的范式預訓練+提示學習。由于GPT3可以產生通順的句子但是準確性等問題一直存在,出現WebGPT、InstructGPT、ChatGPT等后續優化的工作,實現了模型可以理解人類指令的含義,會甄別高水準答案,質疑錯誤問題和拒絕不適當的請求。
3.2深度強化學習技術演進
深度強化學習(deep reinforcement learning,DRL)是強化學習一個分支,基于深度學習強大的感知能力來處理復雜的、高維的環境特征,并結合強化學習的思想與環境進行交互,完成決策過程。DRL在游戲場景這種封閉、靜態和確定性環境可以達到甚至超越人類的決策水平。比較著名的事件是2017年DeepMind 根據深度學習和策略搜索的 AlphaGo 擊敗了圍棋世界冠軍李世石。2018 年OpenAI 團隊基于多智能體 DRL推出的OpenAI Five 在Dota2游戲中擊敗了人類玩家。DRL算法主要分為以下兩類:
值函數算法:值函數算法通過迭代更新值函數來間接得到智能體的策略,智能體的最優策略通過最優值函數得到?;谥岛瘮档腄RL算法采用深度神經網絡對值函數或者動作值函數進行近似,通過時間差分學習或者 Q 學習的方式分別對值函數或者動作值函數進行更新。代表性的是2015 年 DeepMind 團隊提出深度Q網絡(DQN),及其后的各種變種DDQN、Dueling DQN、分布式DQN等。
策略梯度算法:策略梯度算法直接采用函數近似的方法建立策略網絡,通過策略網絡選取動作得到獎勵值,并沿梯度方向對策略網絡參數進行優化,得到優化的策略最大化獎勵值。可以用來處理連續動作。在實際應用中流行的做法是將值函數算法和策略梯度算法結合得到的執行器?評價器(AC)結構。代表性工作有策略梯度算法、AC 算法以及各種變種DDPG、A3C、PPO等。ChatGPT使用的就是策略梯度算法PPO。
4 ChatGPT背后的技術原理
ChatGPT整體技術方案是基于 GPT-3.5 大規模語言模型通過人工反饋強化學習來微調模型,讓模型一方面學習人的指令,另一方面學習回答的好不好。
本節首先闡述ChatGPT提升的效果及背后對應的技術,然后介紹ChatGPT的整體訓練流程,其次介紹提升涉及幾個技術細節。
4.1核心提升了什么?
ChatGPT在對話場景核心提升了以下三方面:
1)更好的理解用戶的提問,提升模型和人類意圖的一致性,同時具備連續多輪對話能力。
2)大幅提升結果的準確性,主要表現在回答的更加的全面,同時可以承認錯誤、發現無法回答的問題。
3)具備識別非法和偏見的機制,針對不合理提問提示并拒絕回答。
ChatGPT的提升主要涉及以下三方面技術:
1)性能強大的預訓練語言模型GPT3.5,使得模型具備了博學的基礎。
2)webGPT等工作驗證了監督學習信號可大幅提升模型準確性。
3)InstructGPT等工作引入強化學習驗證了對齊模型和用戶意圖的能力。
4.1整體技術流程
ChatGPT的訓練過程分為微調GPT3.5模型、訓練回報模型、強化學習來增強微調模型三步:
第一步:微調GPT3.5模型。讓GPT 3.5在對話場景初步具備理解人類的的意圖,從用戶的prompt集合中采樣,人工標注prompt對應的答案,然后將標注好的prompt和對應的答案去Fine-tune GPT3.5,經過微調的模型具備了一定理解人類意圖的能力。
第二步:訓練回報模型。第一步微調的模型顯然不夠好,至少他不知道自己答的好不好,這一步通過人工標注數據訓練一個回報模型,讓回報模型來幫助評估回答的好不好。具體做法是采樣用戶提交的prompt,先通過第一步微調的模型生成n個不同的答案,比如A、B、C、D。接下來人工對A、B、C、D按照相關性、有害性等標準標準并進行綜合打分。有了這個人工標準數據,采取pair-wise 損失函數來訓練回報模型RM。這一步實現了模型判別答案的好壞。
第三步:強化學習來增強微調模型。使用第一步微調GPT3.5模型初始化PPO模型,采樣一批和前面用戶提交prompt不同的集合,使用PPO模型生成答案,使用第二步回報模型對答案打分。通過產生的策略梯度去更新PPO模型。這一步利用強化學習來鼓勵PPO模型生成更符合RM模型判別高質量的答案。
通過第二和第三步的迭代訓練并相互促進,使得PPO模型能力越來越強。
4.3主要涉及的技術細節
4.3.1 GPT3.5理解能力提升
ChatGPT是在GPT3.5模型技術上進行微調的,這里對GPT-3.5在GPT3基礎上做的工作進行梳理,官方列舉了以下GPT-3.5系列幾個型號:
code-davinci-002是一個基礎模型,對于純代碼補全任務。這也是ChatGPT具備超強代碼生成能力的原因。
text-davinci-002是在code-davinci-002基礎上訓練的InstructGPT模型,訓練策略是instructGPT+FeedRM。
text-davinci-003是基于text-davinci-002模型的增強版本,訓練策略是instructGPT+PPO。
根據如下圖官方發布的模型時間線和文檔,我們可以了解到ChatGPT是在text-davinci-003 基礎上微調而來,這也是ChatGPT模型性能如此強大的核心要素。因為GPT-3.5系列模型是在2021年第四季度之前的文本和代碼樣本上訓練,所以我們體驗ChatGPT時候同樣無法回答訓練樣本日期之后的問題。
4.3.2監督信號提升效果顯著
GPT3之前在預訓練+微調已經是NLP任務中標準范式,GPT3模型的訓練是純自監督學習并以API的形式發布,用戶不具備微調的能力,官方也是主打預訓練+提示學習的能力。Prompt方法本質是挖掘語言模型本身具備的知識,恰當的提示去激發語言模型的補全能力。監督信號微調可以理解為改變了語言模型的理解能力,InstructGPT的工作可以理解為對GPT3-SFT做了數據增強提升,使得模型在理解人類指令方面更出色。但這并不影響監督信號對最終效果的價值。
在InstructGPT的工作中,我們可以看到GPT3-SFT和InstructGPT在毒性、幻覺、理解客戶能力上,監督學習微調已經和強化學習對比有很大的競爭力,甚至在幻覺角度比基于強化學習的InstructGPT提升很明顯。
4.3.3人類反饋強化微調效果
ChatGPT通過人類反饋強化學習(RLHF)來讓模型理解人類的指令。人類反饋強化學習(RLHF)是DeepMind早期提出的,使用少量的人類反饋來解決現代RL任務。RLHF的思想在很多工作中都有體現,例如OpenAI的webGPT、DeepMind中Sparrow等都通過人類的反饋進一步提升大模型的效果。
RLHF整個訓練過程如下圖所示:
目標是實現后空翻的任務,智能體Agent在環境中隨機行動,每隔一段時間,兩個行為的視頻片段給一個人,人判斷兩個視頻哪個更接近目標。通過人的反饋數據,學習一個最能解釋人類判斷的獎勵模型Reward Model,然后使用RL來學習如何實現目標。隨著人類繼續提供模型無法判斷時候的反饋,實現了進一步完善它對目標的理解。智能體Agent從人類反饋中學習最終在許多環境中有時甚至是超過人類的表現。
4.4行動驅動的大語言模型
盡管學術界一直無法真正定義AGI,今年大型語言模型(LLM)的表現讓我們對通用人工智能有了期待,通過OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功,人工智能的未來應該是行動驅動的,一個行動驅動的LLM看起來很像AGI,如下圖所示:
模型的行為就像一個智能體Agent選擇行動。在中間,我們有開箱即用的基礎模型LLM。用戶通過Prompt詢問模型結果。
左邊是外部可利用的資源,這些可以是任何將文本作為輸入并提供文本作為輸出的函數,包括搜索、數據庫、代碼解釋器和與人聊天等,它可以增強模型的能力。
右邊是我們有任務導向的訓練,如instruction tuning、RLHF等。instruction tuning相對好實現,RLHF需要調整PPO算法相對較難。整體上RL利用使用日志等專有數據,通過創建強大的反饋回路,訓練模型使其更加符合任務需求并迭代優化。
5總結與展望
5.1技術創新:待解決問題和改進
ChatGPT一個問題是只能回答2021年前的問題。模型無法獲取近期的知識,將ChatGPT+webGPT結合是一個可以想到的方案。DeepMind提出的Sparrow就是一個參考,Sparrow model針對對話內容模型生成結果并判斷是否搜索互聯網,以提供更多的正確參考答案,用強化學習算法去優化Sparrow的輸出結果。整體流程如下圖所示:
5.2技術應用:能否取代搜索引擎
應該不會取代,根據目前體驗的效果,距離搜索引擎還有很長的路要走,主要基于幾個方面。
首先ChatGPT本質是語言模型,當前的訓練技術模型不具備或者說很弱的推理能力,一些推理問題比如小學生問題完敗。根據當前體驗看擅長創作類文案,其他問題經常出現一些事實錯誤情況。而搜索引擎技術的核心索引、檢索和排序是給到用戶Top相關性內容,用戶自主多了一層推理、對比篩選、總結。
其次目前的ChatGPT不能夠回答21年之后的問題,新知識的獲取是通過增加標注數據實現。如果要支持獲取社會熱點新聞等,就需要改變底層技術方案。盡管這個問題WebGPT、Sparrow通過搜索引擎解決,能否替代自己就有了答案。
最后就是成本問題,ChatGPT火的原因之一就是免費體驗,之前超大模型GPT3收費模式根本沒有產生這么大的反響。商業化一直是大模型的痛,模型效果和模型參數成正比。搜索引擎索引、檢索、排序的成本和ChatGPT這種模型計算成本不在一個量級上。
5.3未來預期:資本市場怎么看
和負責投資和戰略的同學聊,近期都在討論AI。AI賽道無疑是投資界“今年最大的熱點之一”。ChatGPT和今年大火的AI繪畫都屬于泛AIGC領域,AIGC 是繼 PGC、UGC 后的新內容生產形態。AI投資人看來,從語音、文字、圖像的內容生成都將出現增長,而對話可能是其中最重要的殺手級應用。根據 Gartner 預計,到 2025 年,生成式人工智能將占所有生成數據的 10%,而當前占比小于 1%。
回顧一下OpenAI,作為AIGC頂級技術公司已經做了不少商業化的嘗試,通過API方式來推動GPT-3的技術商業化,將GPT3作為一項付費服務來推廣。Codex也是已經商業化的產品。GPT-3歷經兩年商業化嘗試,如今并未取代記者編輯或碼農的職業生涯,OpenAI也從中發現,將GPT系列作為輔助生產力工具對商業化更為合適。此次ChatGPT采取免費試用可能是OpenAI準備繼續打磨這款產品,根據用戶的反饋幫助模型改進從而作出更恰當的反應。等產品打磨好可能為GPT-4商業化鋪路。
回顧國內行業巨頭和高校科研機構大規模預訓練模型軍備競賽一直持續。百度發布了產業級知識增強大模型“文心”(參數規模達2600億),并基于“文心”模型形成了產業全景圖。華為聯合鵬程實驗室發布“盤古”大模型,阿里巴巴達摩院發布的中文語言模型 PLUG。智源人工智能研究院的超大規模預訓練模型“悟道”(悟道2.0參數規模達1.75萬億)?;仡檱鴥葎摌I公司,根據睿獸分析顯示2022年以來大規模預訓練模型賽道出現多筆融資,其中不乏聯想創投、君聯資本、啟明創投、創新工場等知名投資機構。瀾舟科技、聆心智能、小冰等這些企業均將商業落地作為融資后的發力重點。
2022年以來 AIGC 應用多點開花,伴隨著深度學習模型不斷完善、開源模式的推動、大模型探索商業化的可能,AIGC 有望加速發展,讓人們對通用人工智能有了更多的期待。
6參考材料
ChatGPT: Optimizing Language Models for Dialogue
Aligning Language Models to Follow Instructions
WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing
Aligning Language Models to Follow Instructions
Learning from Human Preferences
Proximal Policy Optimization
https://gpt.Chatapi.art/?
Building safer dialogue agents
https://jmcdonnell.substack.com/p/the-near-future-of-ai-is-action-driven
火爆全網的ChatGPT,早被資本盯上了,國內有人剛融了10億
關于引爆全球的ChatGPT,AI算法工程師和分析師們的看法并不相通|數智前瞻-36氪
一文看懂什么是強化學習?(基本概念+應用場景+主流算法)