谷歌研究員說“AI有人格”,原來是大模型的鍋

姓名:李昊菲;學號:22011110007;學院:通信工程學院

素材源自?https://mp.weixin.qq.com/s/HndJxMt2NoQf5oUuPYSSTA

【嵌牛導讀】為什么這年頭,大模型可以這么火?!這不前幾天,谷歌研究員說“AI有人格”,結果震驚整個科技圈…背后其實就是大模型的鍋。這篇將和大家聊一下從規劃到部署一個大模型到底有多難,也將介紹大模型全流程使能體系。

【嵌牛鼻子】AI,大模型,華為昇騰

【嵌牛提問】看完這篇,大家對大模型的了解加深了嗎?

【嵌牛正文】

在大家的認知里,AI大模型真的很全能——能說會唱、寫詩作畫樣樣精通,甚至還能像人一樣跟你聊天。而且性能精度和泛化能力兼具~光看最近屢次出圈的AI作畫就知道了。

既然大模型這么多好處,如果應用到了產業界,這不得把企業的開發者們都給饞哭了。一直以來,大模型似乎都是大廠、高校及科研機構的專利。其他企業倒也不是不能用。且不論從規劃、開發到部署各個環節有多難,光是個中成本也不敢讓企業輕易試錯。

從規劃到部署一個大模型到底有多難?

首先從AI大模型的規劃應用上,垂直行業就很容易遇到隔行如隔山的問題。比如制造業中的檢驗環節。質檢專業人員清楚知曉零件需要達到多少精確度、流水線的運轉速度如何。但問題就在于,用什么樣的AI大模型,能配合生產線的運轉呢?

類似的場景,在電力、金融、醫藥等垂直領域中也會發生。也就是說,在開發還未開始時,困難就已經找上門了。而更大的問題,還在后面。即便垂直領域企業終于明晰了自己要開發什么樣的算法,但是居高不下的開發門檻、部署成本,依舊是“攔路虎”。

要知道,大模型是應對AI應用碎片化趨勢的一個有效解。傳統AI時代,由于模型參數量小、泛化性差,一個模型大多只能對應單個場景。動不動就從0開始、獨立調優、艱難迭代、推倒重來的模式,于企業而言實在是太勞民傷財了。

由此,垂直行業的目光自然而然放到了泛化性強、只需要微調的大模型上。但問題是,動輒千億、萬億規模的大模型,開發周期勢必會相應拉長、對開發人員的技術能力要求也更高。到部署環節中,大模型部署成本高是業內的重要難題。更別說還要考量硬件適配性、功耗、成本、性價比等問題。一個個難題到來,都意味著企業想要憑一己之力煉出大模型,實在是關山難越。

或許有人會說,垂直行業面臨的問題,似乎都是AI專業能力不夠強導致的。那AI領域為什么不能直接拿出現成可用的行業大模型?這也就看到了行業大模型難煉的B面——垂直行業的專業知識,同樣是AI技術人員的“攔路虎”。

還是從規劃部分說起。盡管面對質檢環節,AI技術人員知道可以應用CV算法,但算法要達到多快的識別速度?非行業人士很難知曉。而且算法開發的重要環節,就是海量數據訓練。

一方面,如金融、保險、醫藥等行業數據涉及隱私保護,數據集收集會變得尤為困難。另一方面,涉及到大量垂直領域專業知識的數據,AI領域技術人員將其整合為數據集的難度也進一步升高。

最后回到部署上。想要與實際生產環節緊密配合、讓AI算法實現更大價值,如果沒有對應行業內人士的意見參考,AI技術人員也是束手無策。最終可能算法性能卓越,但卻走不出實驗室。

綜上幾點不難看出,大模型在產業界落地遇到的問題,是貫穿開發應用全流程的,而且要集合AI行業和對應專業領域的智慧,共同解決這些困難。怎么做?當下產業界、AI界的目光,自然而然聚焦于此。

大模型全流程使能體系,了解一下?

AI大廠作為技術輸送方,對AI大模型的特點、容易遇到的問題和困難,自然有著更為深入的了解。剛好在華為開發者大會上,華為昇騰給出了一套生態構建方案——大模型全流程使能體系。

雖說是大模型生態構建方案,但仔細一看,無論是整體體系、還是流程開發套件,核心思想都是降低AI大模型開發、應用門檻,都是直擊企業和開發者的痛點。整個體系很清晰,直接按照流程劃分,分成規劃、開發和部署三個環節。每個環節,都有相應的支撐。

首先是規劃環節。當前大模型最前沿主要在這幾個方向,以華為云盤古CV大模型為代表的計算機視覺、以鵬程.盤古為代表的自然語言處理、還有紫東·太初為代表的多模態、語音、博弈智能、人工智能科學計算。

但對于產業界來說,具體到現實落地需要什么,就成為一個不可忽略的問題。大模型沙盤正是來規劃和牽引產業界的企業做出需要的大模型。此前,基于昇騰AI的能力,業內就已經先后推出華為云盤古系列、鵬程.盤古、鵬程.神農、紫東.太初、武漢.Luojia等有影響力的大模型。

接著就是最為關鍵的開發環節。前面提到,企業要想開發一個大模型,需要考慮基礎開發、行業適配、實際部署等問題。這一次,華為直接給出了大模型開發使能平臺,覆蓋從數據準備、基礎模型開發、行業應用適配到推理部署一整個開發流程都給安排上了。核心發布了三個套件:大模型開發套件、大模型微調套件以及大模型部署套件。

大模型開發套件,昇思MindSpore與ModelArts結合既提供了像算法開發基礎能力,還具備了像并行計算、存儲優化、斷點續訓這種特殊能力。在算法開發這塊上,昇思MindSpore提供了易用編程API,既能滿足多種需求,算法還特別簡單。百行代碼就可以實現千億參數Transformer模型開發。

至于并行計算能力,自然是昇思MindSpore的傳統藝能了,昇思提供的數據并行、模型并行、流水并行、優化器并行、子圖并行等業界領先的6維混合并行計算技術,開發者只需一行代碼就能實現模型自動切分、分布式并行計算。而存儲優化、斷點續訓則是針對日常訓練時遇到耗內存、訓練中斷等問題。使用NPU/CPU/NVMe自動存儲優化,復用多級存儲,512張卡可以跑10萬億參數模型。訓練被意外中斷時候,觸發軟硬件協同保護,讓千億級模型在2-3分鐘內無損修復。

開發完了之后,就到大模型下一個任務——行業應用適配環節。換言之,就是讓基礎模型來學習行業數據,以此來滿足相應的需求。對產業界來說,大模型內部的專業參數過于復雜,不知道如何調參,調哪些參數。昇騰MindX提供大模型微調套件,功能包括兩部分:一鍵式微調、低參數調優。

總的來說,就是通過預置典型行業任務微調模板、小樣本學習等手段,直接凍結局部參數,自動提示或者直接激活特定的參數。如此一來,減少參數調優工作量,讓下游任務靈活配置,可以快速適配到各種行業應用之中,比如現在的生物醫藥、智慧城市、遙感、電力等等。

推理部署,是制約大模型應用的一大因素。在這方面,昇騰AI在MindStudio中提供了分布式推理服務化、模型輕量化、動態加密部署三方面能力。通過多機多卡分布式推理,可以大幅提高計算吞吐量,即便1000人,甚至是1萬人都可以同時調用這個能力,不至于并發崩潰

模型輕量化是指,利用剪枝、蒸餾、量化等小型化工具,讓模型實現至少10倍級的壓縮率。動態加密部署,則是注重模型部署的安全性。為了防止黑客搬遷數據,從而反向解析模型結構。昇騰就提供了動態模型混淆,對模型增加動態密鑰,性能開銷小于5%。

最后,就是大模型的產業應用落地階段。這也是當下產業界最為困擾的問題。盡管學術界的大模型呈現井噴之勢,但是真正走到規模化產業部署的,還寥寥無幾。科研創新和實際應用之間,尚存巨大鴻溝。跨越鴻溝的關鍵,還是要凝聚各方的力量。也就是打通產學研用之間的斷點,以大模型為核心,建立產業聯盟。

產業聯盟的出現,就是為讓產業的力量聚焦在一處,從而自然加快大模型創新、應用孵化的步伐。在這方面,昇騰已經打好了兩個樣板出來。去年,圍繞武漢.LuoJia,智能遙感開源生態聯盟正式成立,匯聚企業、高校等31家成員。以紫東.太初為核心,多模態人工智能產業聯盟也相應成立,包括新華社技術局、長安汽車、中國移動等30個成員單位已經加盟。

今年,昇騰還將支撐伙伴成立AI流體力學、 AI生物醫藥以及智慧育種領域的產業聯盟。值得一提的是,在會上,華為還發布了昇騰科研創新使能計劃。國內高校和科研院所可以用上昇騰人工智能基礎軟硬件平臺,以此來展開創新大模型的開發。

從科研創新,到應用開發,再到的產業落地,如此一來形成大模型產學研用生態閉環。大模型在多行業大規模應用的節點,已然顯現。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容