? ? ? #模型時代# 楊紅霞AI發展史講座:OpenAI為何成功,DeepSeek的關鍵突破,大模型的未來在于“模型融合”
? ? 楊紅霞的知名度似乎就不用多做介紹了,她之前曾在阿里、字節任職,后來離開工業界到香港理工大學任教職。剛注意到前兩天她的AI講座,整理了一個文字版,她講的信息量還是相當豐富。視頻前邊是些宣傳內容,講座從20分鐘左右開始。
***
一、講座概要
香港理工大學高等研究院近日舉辦了首屆研究與創新公共論壇,邀請了杰出人工智能科學家楊紅霞教授進行主題演講。楊教授在講座中分享了關于中國AI新勢力崛起,特別是DeepSeek大模型的技術突破以及生成式人工智能的未來發展方向。
楊紅霞教授目前是香港理工大學計算機及數學科學學院副院長及電子計算學系教授。作為國內最早一批從事大模型研究的專家,她擁有超過15年的經驗,專注于大規模機器學習、數據挖掘和深度學習領域。她曾擔任阿里達摩院大模型帶頭人,是超大規模多模態預訓練模型M6的技術負責人。
二、人工智能發展歷史與生成式AI的興起
人工智能這個概念最早出現在1950年代的達特茅斯會議上,但在相當長的一段時間內并未取得顯著進展。楊教授指出,歷史上任何技術的大規模興起都需要一個重要產業的推動:"任何的一個技術大規模的興起,這么廣泛地有非常大的影響力,背后一定是要有一個非常重要的產業進行一個推動的。"
人工智能發展的第一個小高潮出現在1990年代,IBM的Deep Blue戰勝了人類棋手,Watson系統能夠回答百科全書問題。然而,真正的突破是在互聯網興起之后。2014年至2016年間,深度學習技術迅速發展,以CNN(卷積神經網絡)為核心的技術架構在搜索、推薦和廣告領域得到廣泛應用。
2017年,Google發布了Transformer架構的論文《Attention is all you need》,這成為生成式人工智能的基礎。雖然一開始沒有引起廣泛關注,但這一技術最終催生了全新的AI范式。生成式AI與傳統深度學習的關鍵區別在于,前者不僅具備表征和檢索能力,還擁有強大的生成能力,能夠創造全新的內容。
三、大模型研發的兩大流派:谷歌vs OpenAI
大模型研發主要形成了兩個截然不同的技術路線,分別以谷歌和OpenAI為代表。楊教授形象地描述:"今天誰會去寫一本生成式人工智能的歷史?如果寫了會非常有意思。你會發現當時OpenAI不管它采用的技術路線還是業務路線,你會發現它跟Google都是完全不一樣的。"
谷歌采用的是以BERT為代表的雙向(Bidirectional)模型路線。BERT模型雖然參數量較小(最大只有3400萬參數),但在表征和檢索任務上表現出色,為谷歌搜索引擎帶來了巨大提升。谷歌CEO曾宣布將搜索引擎全部替換成基于BERT的模型,這種全面升級在搜索領域是前所未有的。
相比之下,OpenAI選擇了單向的生成式模型路線,發展出了GPT系列模型。GPT-3擁有1760億參數,引入了零樣本學習(Zero-Shot)能力,不需要針對特定任務進行微調就能表現良好。楊教授強調OpenAI的成功在于其堅定的方向選擇和對Scaling Law(縮放定律)的信仰:"OpenAI特別敢篤定的走一個方向,然后把這個方向做到極致大。"
四、Scaling Law:大模型背后的哲學理念
Scaling Law(縮放定律)是大模型研發的核心理念,也是OpenAI等公司的"信仰"。楊教授指出:"暴力算法,暴力可以出奇跡。他們的思想貫穿了模型,以至他們芯片的研發。"
縮放定律揭示了模型規模、數據規模與性能之間的關系。它的美妙之處在于其數學表達的簡潔性,只關注三個參數:數據規模、模型規模和訓練推理時間。楊教授分享了一個令人驚訝的發現:"OpenAI那邊因為它簽了非常嚴格的保密協議,它很多東西是不能跟你講的。但是我在23年初的時候跟他們聊,當時有一個結論,我的朋友和我講的讓我非常的驚訝,他當時跟我講說,它的Scaling Law可以做到什么程度呢?它只用6億參數的模型,可以穩定的預測,甚至是100倍以上,比方說60個billion的model,它的performance會有什么變化。"
這種精確預測能力使得OpenAI能夠規劃和設計更大規模的模型,并確信這些投資會帶來相應的性能提升。縮放定律的成功也證明了"算力暴力出奇跡"的理念,推動了英偉達等芯片公司朝著提供更強大算力的方向發展。
五、大模型訓練的兩個關鍵階段
大模型訓練分為兩個關鍵階段:預訓練(Pre-training)和對齊(Alignment)。楊教授詳細解釋了這兩個階段的不同作用和特點。
預訓練階段是大模型訓練中最耗費資源的部分,需要消耗海量數據和計算資源。例如,訓練一個1000億參數的模型可能需要兩三千張GPU卡運行兩到三個月。預訓練的核心目標是讓模型記住世界知識:"預訓練階段,基本上它是要把world knowledge,世界的知識全部記下來的。"
隨著大模型的發展,互聯網上的高質量數據已被大量消耗。最新的DeepSeek模型已經使用了20TB的數據,這已經接近互聯網上可獲取的高質量數據的極限。
第二個階段是對齊(Alignment),包括監督微調(Supervised Fine-tuning)和強化學習(Reinforcement Learning)。對齊階段不是注入知識,而是教導模型如何使用這些知識:"這個階段到底是在干什么呢?這個階段說白了,是你要告訴大模型該怎么干、該干什么,不該怎么干。"
楊教授強調,對齊階段無法注入新知識,只能告訴模型規則。例如,DeepSeek的監督微調使用了80萬條數據,其中60萬與代碼和數學相關,20萬是通用內容。而強化學習階段使用了10萬條數據,總共90萬條規則告訴模型如何正確行動。
六、DeepSeek的關鍵技術突破
DeepSeek作為中國AI新勢力的代表,在多個技術方面取得了突破。楊教授認為,DeepSeek的兩項最重要的技術創新是低比特訓練和混合專家模型。
低比特訓練(Low bit per train)是算子精度方面的突破。楊教授解釋道:"任何的一個技術大規模的興起,這么廣泛地有非常大的影響力,背后一定是要有一個非常重要的產業進行一個推動的。"大模型本質上是一個參數量巨大的函數,每個參數都有一個算子精度。傳統的方法使用FP16(16位浮點數)表示參數,而DeepSeek實現了FP8(8位浮點數),這意味著可以用更少的存儲空間獲得相似的性能。
混合專家模型(Mixture of Experts, MOE)是另一項重要突破。與傳統的Dense Model不同,MOE是一種稀疏模型,每個輸入只會激活部分專家模型而非所有參數:"每一個Token,每一個樣本進來之后,它有一個routing的機制,你會去選擇你走哪個expert。"DeepSeek實現了320多個專家模型,而GPT-4據信只有64個專家,這是一個顯著的進步。
此外,DeepSeek在對齊階段也有創新,提出了GRPO(一種近似版本的在線強化學習)和R1兩階段對齊策略。R1策略的獨特之處在于分兩階段進行對齊:第一階段讓模型成為強大的推理者(strong reasoner),第二階段讓它成為通用模型(strong generalist)。
七、小模型與持續預訓練的潛力
一個引人注目的發現是,在特定領域中,小模型(7B-13B參數)經過適當訓練可以超越GPT-4等大模型。楊教授基于實踐經驗得出結論:"我們發現7B的就是70億參數,包括13B,130億參數的模型,對于large language model和multi-model large language model來講,我們發現在這個specific domain上面,beat掉GPT-4不是一件難的事情。"
這一結論有兩個重要前提條件:首先,必須擁有該領域核心的高質量數據;其次,必須進行持續預訓練(Continual Pre-training)。持續預訓練是關鍵,因為只有在預訓練階段才能將領域知識注入模型中,而微調階段只能告訴模型規則。
理論研究也支持這一發現。MIT和Meta的研究表明,每個參數可以存儲約2比特的信息,70億參數理論上足以存儲所有英文書籍和知識點。對于大多數專業領域來說,知識量遠小于整個英語語言的知識量,因此小模型完全有能力在特定領域表現出色。
八、當前大模型應用的兩種方式及其局限
當前企業和研究機構使用大模型主要有兩種方式:直接調用API和使用開源模型加RAG(檢索增強生成)。然而,這兩種方式都存在明顯局限。
調用API的主要問題是數據分布差異和隱私問題。楊教授解釋:"如果今天你的企業或者你這個領域的數據的分布,跟互聯網上的數據分布非常不一樣,或者是說你的數據完全從互聯網上無法獲得的話,其實你的performance,我相信其實你們的結果是不好的。"此外,調用API必然要分享數據,這對許多領域(如醫療、金融)來說存在隱私問題。
使用開源模型加RAG的方式同樣存在問題。楊教授指出現有的開源模型都是"偽開源":"你只能去做微調,監督微調。DeepSeek這波,你可以做一定的強化算法,但它理論上還是一個偽開源,你沒有辦法把你的知識灌入到大模型里,得到你這個領域的大模型。"
RAG雖然流行,但存在延遲高和非端到端優化的問題,尤其是當領域數據分布與原始訓練數據差異大時,效果往往不佳。這些局限促使研究人員探索新的解決方案。
九、模型融合:分布式人工智能的新范式
為解決當前大模型應用的局限,楊教授提出了模型融合(Model Fusion)的新范式,將人工智能從數據中心(Data-centric)轉向模型中心(Model-centric)的范式。
傳統機器學習是在數據上建立模型(model over data),需要將所有數據和計算資源集中起來。而模型融合是在模型上建立模型(model over models):"如果今天我可以把世界知識分成幾千個領域,上千個領域,每個領域就像我剛才講的,其實一個小模型就可以非常好的在領域上面形成一個目前業界最強的模型,我們要預估的,我們得到我們的foundation model的方式是什么?我直接就是從把這些model進行一個fuse,就直接得到我的foundation model,而不是turning data from scratch。"
楊教授團隊的實驗證明這一方法的可行性。他們將多個開源模型(如FIFOR、千問、MISTRO)進行融合,不僅保留了原始模型的能力,甚至在某些任務上表現更好。最重要的是,模型融合所需的計算資源遠低于從頭訓練:傳統方法需要10-16萬GPU小時,而模型融合只需要160個GPU小時。
模型融合還帶來其他優勢:允許全球研究人員更好地協作;降低硬件要求,小模型訓練不需要大規模GPU集群;支持異構計算,不同模型可以在不同硬件上訓練后融合。這為AI民主化提供了可能。
十、生成式AI的領域應用前景
楊教授指出,生成式AI的最大機會可能不在互聯網或Web2中心化產品形態,而在垂直領域的專業應用。她的團隊正在探索多個高精尖領域的應用。
醫療健康是一個有潛力的方向,特別是癌癥基礎模型(Cancer Foundation Model)。楊教授的團隊正與北京協和醫院和浙江省腫瘤醫院合作:"我們跟協和醫院去做一個特別厲害的肝膽cancer的小模型,然后跟浙江省腫瘤醫院去做一個肺部的特別牛的Cancer Foundation Model,我們是直接可以從模型層面進行一個融合,慢慢隨著癌癥的種類越來越多,我們可能會得到一個Cancer Foundation Model。"
能源領域也有廣闊前景。他們正與南方電網合作開發Energy Foundation Model,關注多模態大語言模型推理。此外,制造業和智能座艙也是重要應用方向。楊教授指出,智能座艙雖然目前主要以語言交互為主,但實際上80%以上的信息是多模態的,這與OpenAI未來關注的多模態大語言模型推理方向一致。
從能力層次看,楊教授將大模型能力分為三級:最基礎的聊天和記憶化(Chatting和Memorization,對應GPT-3.5);推理和規劃(Reasoning和Planning,對應O1和DeepSeek);以及多模態大語言模型推理(Multi-Model Large Language Modeling Reasoning,對應未來的GPT-5)。 http://t.cn/A6rZVToC