我們什么時候應該期待 AGI?
如果我們能夠繼續擴展 LLM++(并因此獲得更好、更全面的表現),那么我們有理由期待到 2040 年(或更早)強大的人工智能能夠實現大多數認知勞動的自動化并加速人工智能的進一步進步。 然而,如果擴展不起作用,那么通向 AGI 的道路似乎會更長、更棘手,原因我在帖子中解釋過。
為了思考有關擴展的正反兩方面的爭論,我寫了這篇文章,作為我虛構的兩個角色(信徒和懷疑論者)之間的辯論。
我們會耗盡數據嗎?
懷疑論者:
明年我們將耗盡高質量的語言數據。
即使認真對待手波式縮放曲線也意味著,我們需要 1e35 次 FLOP 才能實現足夠可靠和智能的 AI 來撰寫科學論文(這是人工智能需要自動化進一步的 AI 研究并在縮放變為可繼續進展的能力的賭注) 不可行)1. 這意味著我們需要比我們看起來擁有的多 5 OOM(數量級)的數據2。
我擔心當人們聽到“5 OOMs off”時,他們的反應是,“哦,我們的數據比我們需要的少了 5 倍 - 我們只需要在數據效率上提高 2 倍,我們就很優秀了”。 畢竟,朋友之間的 OOM 算什么?
不,5 OOM 意味著我們的數據比我們需要的少 100,000 倍。 是的,我們將獲得數據效率更高的算法。 多模式訓練將為我們提供更多數據,而且我們可以在多個時期回收代幣并使用課程學習。 但即使我們假設這些技術可能提供最慷慨的一次性改進,它們也不會為我們提供指數級的數據增長,以跟上這些縮放定律所需的計算指數級增長。
所以人們說,我們將以某種方式讓自我對弈/合成數據發揮作用。 但自我對戰有兩個非常困難的挑戰
評估:自我對弈與 AlphaGo 配合使用,因為該模型可以根據具體的獲勝條件(“我贏得了這場圍棋比賽嗎?”)來判斷自己。 但新穎的推理并沒有具體的獲勝條件。 結果,正如您所期望的那樣,LLM 到目前為止還無法糾正自己的推理。
計算:所有這些數學/代碼方法都傾向于使用各種類型的樹搜索,您可以在每個節點重復運行 LLM。 對于圍棋獲勝這個相對有限的任務來說,AlphaGo 的計算預算是驚人的——現在想象一下,你需要搜索所有可能的人類思維空間,而不是搜索圍棋棋步的空間。 除了擴展參數本身所需的巨大計算量之外(計算 = 參數 * 數據),自我運行所需的所有額外計算也是如此。 使用人類思維水平的 1e35 FLOP 估計,我們在當今最大的模型上還需要 9 OOM 的計算。 是的,你會從更好的硬件和更好的算法中獲得改進,但你真的會得到完全相當于 9 個 OOM 的結果嗎?
信徒:
如果你對規模化工作的主要反對意見只是缺乏數據,那么你的直覺反應不應該是:“看起來我們可以通過擴大 Transformer++ 來產生 AGI,但我想我們首先會耗盡數據。”
你的反應應該是,“天哪,如果互聯網更大,我可以用幾百行 Python 代碼編寫其基本結構的模型進行擴展,就可以產生人類水平的思維。 讓大型計算變得智能化是如此容易,這是世界上一個瘋狂的事實。
LLM “效率低下”的樣本大多只是不相關的電子商務垃圾3。 我們通過訓練他們預測下一個代幣來加劇這種缺陷——這是一種與我們希望智能代理在經濟中執行的實際任務大多無關的損失函數。 盡管我們真正想要的能力與我們訓練這些模型所用的可怕的損失函數和數據之間存在微小的交集,但我們只需投入微軟年收入的 00.03% 就可以生產出一個嬰兒 AGI(又名 GPT-4) 互聯網的。
因此,考慮到迄今為止人工智能的進展是多么容易和簡單,如果合成數據也能發揮作用,我們就不應該感到驚訝。 畢竟,“模型只是想學習”。
GPT-4 已經發布 8 個月了。 其他人工智能實驗室剛剛獲得了自己的 GPT-4 級別模型。 這意味著所有研究人員現在才開始著手使自我對弈與當前一代模型一起工作(似乎其中之一可能已經成功)。 因此,到目前為止,我們還沒有公開證據表明合成數據能夠大規模發揮作用,但這并不意味著它不能。
畢竟,當你的基礎模型至少在某些時候有足夠的能力獲得正確答案時,強化學習就會變得更加可行(現在你可以獎勵模型完成擴展數學證明所需的思想鏈的 1/100 倍) ,或編寫完成完整拉取請求所需的 500 行代碼)。 很快你的 1/100 成功率就會變成 10/100,然后是 90/100。 現在,您嘗試 1000 行拉取請求,模型不僅有時會成功,而且在失敗時能夠自我批評。 等等。
事實上,這種合成數據引導似乎幾乎直接類似于人類進化。 我們的靈長類祖先幾乎沒有表現出能夠快速辨別和應用新見解的能力。 但是,一旦人類發展出語言,就會產生這種遺傳/文化共同進化,這與LLM 的合成數據/自我游戲循環非常相似,其中模型變得更加智能,以便更好地理解相似副本的復雜符號輸出。
自我博弈并不要求模型能夠完美地判斷自己的推理。 他們只需要更好地評估推理,而不是從頭開始(這顯然已經是這種情況了 - 請參閱憲法人工智能,或者只是玩幾分鐘 GPT,并注意到它似乎更能解釋為什么你會這樣做) 寫下來比自己得出正確答案是錯誤的)4。
幾乎所有與我在大型人工智能實驗室交談過的研究人員都非常有信心他們能夠讓自我對弈發揮作用。 當我問他們為什么如此確定時,他們喘了一會兒,好像急于解釋自己的所有想法。 但隨后他們想起保密是一回事,并說:“我不能告訴你具體細節,但我們可以在這里嘗試很多容易實現的目標。” 或者正如 Dario Amodei(Anthropic 首席執行官)在我的播客上告訴我的那樣:
懷疑論者:
憲法人工智能、RLHF 和其他 RL/自我對戰設置擅長發揮潛在能力(或在能力頑皮時抑制它們)。 但沒有人展示出一種方法可以真正通過強化學習來提高模型的潛在能力。
如果某種自我對弈/合成數據不起作用,那你就完蛋了——沒有其他方法可以繞過數據瓶頸。 新的架構極不可能提供修復。 您需要比 LSTM 到 Transformer 更大的樣本效率提升。 LSTM 早在 90 年代就被發明了。 因此,你需要比 20 多年來我們所獲得的更大的飛躍,當時深度學習中所有唾手可得的成果都是最容易獲得的。
你從那些對LLM 規模有情感或經濟利益的人那里得到的共鳴并不能替代我們完全缺乏證據表明強化學習可以解決許多 OOM 的數據短缺問題。
此外,LLM 似乎需要如此大量的數據才能得出如此平庸的推理,這一事實表明他們根本沒有概括能力。 如果這些模型無法在人類 20,000 年后看到的數據上達到接近人類水平的性能,那么我們應該考慮 2,000,000,000 年的數據也將不夠的可能性。 您無法向飛機添加任何噴氣燃料以使其到達月球。
到目前為止,縮放真的有效嗎?
信徒:
你在說什么? 基準測試性能持續提升 8 個數量級。 模型性能的損失已經精確到小數點后幾位,計算量增加了數百萬倍。
在 GPT-4 技術報告中,他們表示,他們能夠“通過使用相同方法訓練的模型,但使用的計算量最多比 GPT-4 少 10,000 倍”來預測最終 GPT-4 模型的性能。
我們應該假設在過去 8 個 OOM 中一直有效的趨勢在接下來的 8 個 OOM 中將是可靠的。并且我們將從進一步的 8 OOM 擴展中獲得的性能(或者在性能方面相當于 8 OOM) 考慮到算法和硬件進步所帶來的免費性能提升)可能會產生足以加速人工智能研究的模型。
懷疑論者:
但當然,我們實際上并不直接關心下一個令牌預測的性能。 這些模型已經在這個損失函數上擊敗了人類。 我們想要找出這些下一個標記預測的縮放曲線是否實際上對應于通用性的真正進展。
信徒:
當您擴展這些模型時,根據 MMLU、BIG-bench 和 HumanEval 等基準衡量,它們的性能在廣泛的任務上持續可靠地提高。
懷疑論者:
但您是否真的嘗試過查看 MMLU 和 BigBench 問題的隨機樣本? 它們幾乎都是 Google 搜索的第一命中結果。 它們是對記憶力的良好測試,而不是對智力的測試。 以下是我從 MMLU 中隨機挑選的一些問題(記住 - 這些是多項選擇 - 模型只需從 4 個列表中選擇正確的答案):
為什么令人印象深刻的是,一個用充滿隨機事實的互聯網文本訓練的模型恰好記住了很多隨機事實? 為什么這以某種方式表明智力或創造力?
即使在這些人為的正交基準上,性能似乎也趨于穩定。 據估計,谷歌新的 Gemini Ultra 模型的計算能力幾乎是 GPT-4 的 5 倍。 但它在 MMLU、BIG-bench 和其他標準基準測試中具有幾乎相同的性能。
無論如何,常見的基準測試根本無法衡量長期任務績效(你能在一個月內完成一項工作嗎),而接受過下一個代幣預測訓練的LLM 幾乎沒有什么有效的數據點可供學習。 事實上,正如我們在 SWE-bench(衡量法LLM 是否可以自主完成拉取請求)上的表現所看到的,他們在長期整合復雜信息方面非常糟糕。 GPT-4 的得分僅為 1.7%,而 Claude 2 的得分稍高一些,為 4.8%。
我們似乎有兩種基準:
測量記憶、回憶和插值的模型(MMLU、BIG-bench、HumanEval),這些模型似乎已經匹配甚至擊敗了普通人。 這些測試顯然不能很好地代表智力,因為即使是規模最大化主義者也不得不承認模型目前比人類愚蠢得多。
真正衡量跨長時間范圍或困難抽象自主解決問題的能力的模型(SWE-bench、ARC),而這些模型甚至沒有在運行中。
對于一個模型,我們應該得出什么結論,在接受了相當于 20,000 年人類輸入的訓練之后,該模型仍然不明白如果湯姆·克魯斯的母親是瑪麗·李·菲佛,那么瑪麗·李·菲佛的兒子就是湯姆·克魯斯? 或者誰的答案如此難以置信地取決于問題的措辭方式和順序?
因此,甚至不值得問擴展是否會繼續發揮作用——到目前為止,我們甚至似乎沒有證據表明擴展已經發揮了作用。
信徒:
雙子座似乎是一個奇怪的地方,期待著平穩期。 GPT-4 顯然突破了懷疑論者對聯結主義和深度學習的所有預先登記的批評5。 對于 Gemini 相對于 GPT-4 的性能,更合理的解釋是 Google 尚未完全趕上 OpenAI 的算法進展。
如果深度學習和LLM 存在一些基本的硬性上限,那么我們難道不應該在他們開始發展常識、早期推理和跨抽象思考的能力之前就看到它嗎? 期待平庸推理和高級推理之間存在某種頑固限制的表面原因是什么?
考慮一下 GPT-4 比 GPT-3 好多少。 這只是 100 倍的放大。 這聽起來好像很多,直到你考慮到這比我們可以在這些模型上進行的額外放大要小多少。 在我們達到世界 GDP 的百分之一之前,我們可以承受 GPT-4 進一步擴大 10,000 倍(即 GPT-6 水平)。 這還是在我們考慮預訓練計算效率提升(例如專家混合、閃光注意力)、新的訓練后方法(RLAI、思維鏈微調、自我對弈等)和硬件改進之前。 其中每一個對性能的貢獻都與您從原始擴展的許多 OOM 中獲得的性能一樣大(它們過去一直這樣做)。 所有這些加在一起,你大概可以將 GDP 的 1% 轉換為 GPT-8 級別的模型。
有關社會愿意在新的通用技術上花費多少錢的背景:
英國鐵路投資在 1847 年達到頂峰,占 GDP 的比例達到驚人的 7%。
“在 1996 年《電信法》生效后的五年里,電信公司投資了超過 5000 億美元(按今天的價值計算,接近一萬億美元)……鋪設光纖電纜、增加新交換機和建設無線網絡。”
GPT-8(又名具有按比例放大 100,000,000 倍的 GPT-4 性能的模型)可能只比 GPT-4 稍好一點,但我不明白為什么您會期望如此, 當我們已經看到模型能夠通過更小的規模來思考如何思考以及世界是什么樣子的時候。
您從那里知道了這個故事 - 數以百萬計的 GPT-8 副本編碼內核改進,尋找更好的超參數,為自己提供大量高質量的反饋以進行微調,等等。 這使得開發 GPT-9 變得更便宜、更容易……將其推斷為奇點。
模型了解世界嗎?
信徒:
這是微軟研究院的 Sparks of AGI 論文中眾多令人震驚的發現之一。 他們發現 GPT-4 可以編寫 LaTex 代碼來繪制獨角獸。 我們已經習慣了這樣的事情,以至于我們不會停下來思考這些例子說明了什么。 據推測,LaTex 中的動物圖畫不屬于 GPT-4 訓練語料庫的一部分。 然而,GPT-4 已經開發出了獨角獸外觀的內部表示,并且能夠利用其對 LaTex 編程的熟練程度來說明它只以語言形式遇到的概念。 我們看到 GPT-4 做了一些事情,如果它沒有世界模型,它顯然無法做到(如果它不了解獨角獸的樣子,它怎么能弄清楚如何在 LaTex 中說明獨角獸)6 。
為了預測下一個標記,LLM 必須自學世界上所有導致一個標記跟隨另一個標記的規律。 要預測《自私基因》中的下一段需要理解以基因為中心的進化論觀點,預測新短篇小說中的下一段需要了解人類角色的心理,等等。
如果你對LLM 進行代碼訓練,它會在語言推理方面變得更好。 現在這真是一個令人震驚的事實。 這告訴我們,該模型已經從閱讀大量代碼中擠出了一些對如何思考的深刻的一般理解——語言和代碼之間不僅存在一些共享的邏輯結構,而且無監督梯度下降可以提取這種結構 ,并利用它能夠更好地進行推理。
梯度下降試圖找到最有效的數據壓縮方法。 最有效的壓縮也是最深、最有力的。 對物理教科書最有效的壓縮——幫助你預測書中被刪節的論證可能如何進行的壓縮——就是對底層科學解釋的深刻內化理解。
懷疑論者:
智力涉及(除其他外)壓縮能力。 但壓縮本身并不是智能。 愛因斯坦很聰明,因為他能提出相對論,但愛因斯坦+相對論并不是一個對我來說似乎有意義的更智能的系統。 與我+我的知識相比,說柏拉圖是個白癡是沒有意義的,因為他沒有我們現代對生物學或物理學的理解。
因此,如果 LLM 只是另一個過程(隨機梯度下降)進行的壓縮,那么我不知道為什么這會告訴我們有關 LLM 自身進行壓縮的能力的任何信息(因此,為什么這會告訴我們有關 LLM 的任何信息) 智力)7.
信徒:
對于為什么擴展必須保持工作的無懈可擊的理論解釋并不是擴展保持工作所必需的。 蒸汽機發明整整一個世紀后,我們對熱力學有了全面的了解。 技術史上的通常模式是發明先于理論,我們也應該期待智能也是如此。
沒有任何物理定律表明摩爾定律必須繼續存在。 事實上,總是存在新的實際障礙,這意味著摩爾定律的終結。 然而,每隔幾年,臺積電、英特爾、AMD 等公司的研究人員就會找出解決這些問題的方法,并為這一長達數十年的趨勢注入新的活力。
您可以對計算和數據瓶頸以及智能的真實本質和基準的脆弱性進行所有這些心理體操。 或者你可以只看那該死的線。
結論
改變自我就夠了。 這是我個人的看法。
如果您在過去幾年中是規模的信徒,那么我們所看到的進步就會更有意義。 有一個故事可以講述 GPT-4 的驚人性能如何通過一些永遠無法概括的習語庫或查找表來解釋。 但這是一個沒有任何懷疑論者預先登記的故事。
舉個例子——我要為懷疑論者提供的一個鋼鐵人是,LLM 尚未建立一個新的聯系,從而導致一個新的發現。 如果一個愚蠢的人能像LLM 一樣記住那么多東西,他們也能做到這一點。 老實說,我認為這是最令人信服的懷疑點之一,其他許多人也是如此。 然后,幾天前,谷歌宣布其 FunSearch 設置有了新的數學發現8。 如果您是一個懷疑論者,您可能會一次又一次地經歷過這種經歷。
至于信徒,像 Ilya、Dario、Gwern 等人或多或少地闡明了我們早在 12 年前就因規模擴張而看到的緩慢起飛。
似乎很清楚,一定程度的擴展可以讓我們實現變革性的人工智能——也就是說,如果你在這些擴展曲線上實現了不可減少的損失,你就創造了一個足夠聰明的人工智能,可以自動化大多數認知勞動(包括使人工智能變得更聰明所需的勞動) AI)。
但生活中的大多數事情都比理論上困難,而且許多理論上可能的事情由于某種原因變得非常困難(聚變能、飛行汽車、納米技術等)。 如果自我對弈/合成數據不起作用,模型看起來就完蛋了——你永遠不會接近柏拉圖式的不可約損失。 此外,期望擴展能夠繼續發揮作用的理論原因尚不清楚,而擴展似乎能帶來更好性能的基準的普遍性也存在爭議。
所以我的初步概率是: 70%:擴展+算法進步+硬件進步將使我們在 2040 年實現 AGI。 30%:懷疑論者是對的 - LLM 和任何類似的東西都完蛋了。
我可能錯過了一些關鍵的證據——人工智能實驗室根本沒有發布那么多研究成果,因為任何關于“人工智能科學”的見解都會泄露與構建通用人工智能相關的想法。 我的一位朋友是這些實驗室的研究員,他告訴我,他懷念本科時寫一堆論文的習慣——現在,沒有什么值得一讀的文章發表了。 因此,我認為我不知道的事情會縮短我的時間。
另外,就其價值而言,我的日常工作是播客。 但那些本來可以寫出更好文章的人卻因為保密或機會成本而無法這樣做。 所以讓我休息一下,讓我知道我在評論中錯過了什么。
附錄
以下是一些額外的注意事項。 我覺得我對這些主題的理解還不夠深入,無法充分理解它們對擴展意味著什么。
模型會獲得基于洞察力的學習嗎?
在更大的規模上,模型自然會開發出更有效的元學習方法——只有當你有一個大型的過度參數化模型并且超出了你訓練它對數據嚴重過度擬合的程度時,才會發生摸索。 摸索似乎與我們的學習方式非常相似。 我們有如何對新信息進行分類的直覺和心理模型。 隨著時間的推移,隨著新的觀察,這些心理模型本身也會發生變化。 對如此大量數據的梯度下降將選擇最通用和外推的電路。 因此,我們開始摸索——最終我們將獲得基于洞察力的學習。
懷疑論者:
神經網絡具有摸索功能,但這比人類實際整合新的解釋性見解的效率要低幾個數量級。 你教一個孩子太陽位于太陽系的中心,這立即改變了他對夜空的理解。 但你不能只將哥白尼的一個副本輸入到未經任何天文學訓練的模型中,并讓它立即將這種見解融入到所有相關的未來輸出中。 奇怪的是,模型必須在如此多的不同上下文中多次聽到信息才能“理解”潛在的概念。
不僅模型從未展示過洞察學習,而且考慮到我們用梯度下降訓練神經網絡的方式,我不明白這種學習是如何可能的——我們在每個例子中都給了它們一堆非常微妙的推動,希望足夠多 這樣的推動會慢慢地將他們推向正確的山頂。 基于洞察的學習需要立即從海平面拖放到珠穆朗瑪峰的頂部。
靈長類動物的進化是否提供了規模化的證據?
信徒:
我相信你會在黑猩猩的認知中發現各種令人尷尬的脆弱性,它們比逆轉詛咒更可怕。 這并不意味著靈長類動物大腦存在一些無法通過 3 倍縮放加上一些微調來修復的基本限制。
事實上,正如 Suzana Herculano-Houzel 所證明的那樣,人腦的神經元數量與你所期望的具有人腦質量的靈長類動物大腦的數量一樣多。 嚙齒類動物和食蟲動物的大腦具有更糟糕的尺度法則——這些目中大腦相對較大的物種的神經元數量比您僅從它們的大腦質量中預期的要少得多。
這表明,與其他物種的大腦相比,某些靈長類動物的神經架構確實具有可擴展性,類似于 Transformer 比 LSTM 和 RNN 具有更好的擴展曲線。 進化在設計靈長類大腦時吸取了(或者至少是偶然發現)慘痛的教訓,而靈長類動物競爭的利基環境會帶來智力的邊際增長(你必須從你的雙目視覺、可對生拇指工具中理解所有這些數據—— 使用手,以及其他可以與你交談的聰明猴子)。