image.png
GPT-3.5 (text-davinci-003)、ChatGPT、Claude 和 Bing Chat 等指令遵循模型現(xiàn)在被許多用戶廣泛使用,包括用于與工作相關(guān)的任務(wù)。然而,盡管它們越來越受歡迎,但這些模型仍然存在許多需要解決的缺陷。虛假信息、社會刻板印象和有毒語言是與這些模型相關(guān)的一些問題。
為了解決這些緊迫的問題,學(xué)術(shù)界需要更積極地參與。不幸的是,由于在功能上接近閉源模型(如 OpenAI 的 text-davinci-003)的模型的可用性有限,因此在學(xué)術(shù)界研究指令遵循模型一直具有挑戰(zhàn)性。為了應(yīng)對這些挑戰(zhàn),斯坦福大學(xué)的研究人員發(fā)布了他們關(guān)于一種名為 Alpaca 的指令跟隨語言模型的發(fā)現(xiàn)。
Alpaca 從 Meta 的 LLaMA 7B 模型中進(jìn)行了微調(diào),并在使用 text-davinci-003 生成的 52K 指令跟隨演示上進(jìn)行了訓(xùn)練。研究人員指出,Alpaca 表現(xiàn)出許多類似于 OpenAI 的 text-davinci-003 的行為,但也非常小且易于重現(xiàn)。他們已經(jīng)發(fā)布了訓(xùn)練配方和數(shù)據(jù),并計(jì)劃在未來發(fā)布模型權(quán)重。