要說(shuō)大語(yǔ)言模型,GPT-3絕對(duì)算得上重量級(jí)的翹楚佼佼者。鋒芒一出,無(wú)AI出其右。這貨不僅大,能力強(qiáng),而且很迷,由于種種原因,太過(guò)扭捏不夠開(kāi)放,機(jī)智客覺(jué)得GPT這貨(其實(shí)不僅是3了),可謂創(chuàng)造了一個(gè)規(guī)模和能力的制高點(diǎn),又獨(dú)領(lǐng)神秘風(fēng)騷。現(xiàn)在人工智能界都不太清楚它內(nèi)部的秘密,不過(guò)時(shí)代在發(fā)展,技術(shù)在進(jìn)步,更卓越更Open的大語(yǔ)言模型,來(lái)挑戰(zhàn)GPT-3了。
這個(gè)挑戰(zhàn),不僅要在表現(xiàn)能力上不能敗北,而且還要比GPT-3更環(huán)保更開(kāi)放。這個(gè)更優(yōu)秀的就是Meta AI復(fù)刻GPT-3的大模型OPT-175B。機(jī)智客看到相關(guān)釋義,OPT全稱Open Pre-trained Transformer Language Models,即“開(kāi)放的預(yù)訓(xùn)練Transformer語(yǔ)言模型”。沒(méi)錯(cuò),復(fù)刻你,還要打敗你。比你開(kāi)放比你高效能。
正因?yàn)闉榱烁h(huán)保更“Open”的大眾,所以O(shè)PT-175B運(yùn)行時(shí)產(chǎn)生的碳消耗連GPT-3的1/7都不到,而且性能方面,Meta AI針對(duì)OPT-175B和GPT-3,用14個(gè)NLP任務(wù)進(jìn)行了測(cè)試。無(wú)論是零樣本學(xué)習(xí)(zero-shot)還是多樣本學(xué)習(xí)(Multi-shot),OPT在這些任務(wù)上的平均精度都與GPT-3相差不大。而在在對(duì)話任務(wù)中,采用無(wú)監(jiān)督學(xué)習(xí)的方法訓(xùn)練OPT-175B,效果和監(jiān)督學(xué)習(xí)訓(xùn)練的幾類模型相近。
如果這些你沒(méi)有直觀感受的話,那么回到硬件方面,更直觀一點(diǎn)來(lái)看下,再看看訓(xùn)練硬件方面,Meta AI用了992塊英偉達(dá)A100 GPU(80GB)訓(xùn)練OPT,平均每塊GPU的計(jì)算效率最高能達(dá)到147 TFLOP/s。更有甚者,Meta AI甚至還這么表示,最低只需要16塊英偉達(dá)V100 GPU,就能訓(xùn)練并部署OPT-175B模型。
當(dāng)然如同世界上任何一個(gè)發(fā)展中的技術(shù)一樣,這個(gè)OPT-175B模型也不是沒(méi)有問(wèn)題。比如語(yǔ)言生成上的確會(huì)出現(xiàn)一些不可控的違背道德的語(yǔ)言。研究人員就是希望開(kāi)放出來(lái),有更多人參與進(jìn)來(lái)真正解決這些問(wèn)題。目前最高30B規(guī)模的預(yù)訓(xùn)練網(wǎng)絡(luò)模型已經(jīng)開(kāi)放到GitHub,更高的66B還在路上,更最頂級(jí)的則需要填表注冊(cè)申請(qǐng)。
哈,Open AI名不符其實(shí),Open AI不Open,終于有同樣優(yōu)秀的人(大語(yǔ)言模型)Open出來(lái)教他做人了,機(jī)智客個(gè)人想,這樣能開(kāi)放研究的才是真的、促進(jìn)科技發(fā)展的Open AI吧。