一、概念
1.1、大模型是什么
大語(yǔ)言模型(英文:Large Language Model,縮寫LLM),也稱大型語(yǔ)言模型,是一種人工智能模型,旨在理解和生成人類語(yǔ)言。
大語(yǔ)言模型 (LLM) 指包含數(shù)百億(或更多)參數(shù)的語(yǔ)言模型,這些模型在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練,例如國(guó)外的有GPT-3 、GPT-4、PaLM 、Galactica 和 LLaMA 等,國(guó)內(nèi)的有ChatGLM、文心一言、通義千問、訊飛星火等。
研究界給這些龐大的語(yǔ)言模型起了個(gè)名字,稱之為“大語(yǔ)言模型(LLM)”。而 LLM 的一個(gè)杰出應(yīng)用就是 ChatGPT。
GPT-3 擁有1750 億參數(shù), PaLM擁有 5400 億參數(shù)。
1.2、大模型的應(yīng)用
自然語(yǔ)言處理領(lǐng)域,它可以幫助計(jì)算機(jī)更好地理解和生成文本,包括寫文章、回答問題、翻譯語(yǔ)言等。
信息檢索領(lǐng)域,它可以改進(jìn)搜索引擎,讓我們更輕松地找到所需的信息。
二、發(fā)展歷程
20世紀(jì)90年代,語(yǔ)言建模的研究,最初采用了統(tǒng)計(jì)學(xué)習(xí)方法,通過前面的詞匯來預(yù)測(cè)下一個(gè)詞匯。
2003年,深度學(xué)習(xí)先驅(qū)Bengio在論文《A Neural Probabilistic Language Model》中,首次將深度學(xué)習(xí)的思想融入到語(yǔ)言模型中,使用了更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型。
2018年左右,研究人員引入了Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,通過大量文本數(shù)據(jù)訓(xùn)練這些模型,使它們能夠通過閱讀大量文本來深入理解語(yǔ)言規(guī)則和模式,就像讓計(jì)算機(jī)閱讀整個(gè)互聯(lián)網(wǎng)一樣。
隨著語(yǔ)言模型規(guī)模的擴(kuò)大(增加模型大小或使用更多數(shù)據(jù)),模型展現(xiàn)出了一些驚人的能力,通常在各種任務(wù)中表現(xiàn)顯著提升。這時(shí)我們進(jìn)入了大語(yǔ)言模型(LLM)時(shí)代。
三、大模型的能力
3.1、涌現(xiàn)能力(emergent abilities)
涌現(xiàn)能力指的是一種令人驚訝的能力,它在小型模型中不明顯,但在大型模型中顯著出現(xiàn)。可以類比到物理學(xué)中的相變現(xiàn)象,涌現(xiàn)能力的顯現(xiàn)就像是模型性能隨著規(guī)模增大而迅速提升,超過了隨機(jī)水平,也就是我們常說的量變引起了質(zhì)變。
三個(gè)典型的LLM涌現(xiàn)能力:
上下文學(xué)習(xí):上下文學(xué)習(xí)能力是由 GPT-3 首次引入的。這種能力允許語(yǔ)言模型在提供自然語(yǔ)言指令或多個(gè)任務(wù)示例的情況下,通過理解上下文并生成相應(yīng)輸出的方式來執(zhí)行任務(wù),而無(wú)需額外的訓(xùn)練或參數(shù)更新。
指令遵循:通過使用自然語(yǔ)言描述的多任務(wù)數(shù)據(jù)進(jìn)行微調(diào),也就是所謂的指令微調(diào)。LLM能夠根據(jù)任務(wù)指令執(zhí)行任務(wù),且無(wú)需事先見過具體示例,展示了強(qiáng)大的泛化能力。
逐步推理:小型語(yǔ)言模型通常難以解決涉及多個(gè)推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)問題。然而,LLM通過采用"思維鏈"推理策略,可以利用包含中間推理步驟的提示機(jī)制來解決這些任務(wù),從而得出最終答案。
3.2、作為基座模型支持多元應(yīng)用的能力
這是一種全新的AI技術(shù)范式,借助于海量無(wú)標(biāo)注數(shù)據(jù)的訓(xùn)練,獲得可以適用于大量下游任務(wù)的大模型(單模態(tài)或者多模態(tài))。多個(gè)應(yīng)用可以只依賴于一個(gè)或少數(shù)幾個(gè)大模型進(jìn)行統(tǒng)一建設(shè)。
使用統(tǒng)一的大模型可以極大地提高研發(fā)效率,相比于分散的模型開發(fā)方式,不僅可以縮短每個(gè)具體應(yīng)用的開發(fā)周期,減少所需人力投入,也可以基于大模型的推理、常識(shí)和寫作能力,獲得更好的應(yīng)用效果,是一項(xiàng)本質(zhì)上的進(jìn)步。
大模型可以成為AI應(yīng)用開發(fā)的大一統(tǒng)基座模型。
3.3、支持對(duì)話作為統(tǒng)一入口的能力
這項(xiàng)能力讓大語(yǔ)言模型真正火爆起來,例如基于對(duì)話聊天的ChatGPT。
四、大模型的特點(diǎn)
4.1、巨大的規(guī)模:
LLM通常具有巨大的參數(shù)規(guī)模,可以達(dá)到數(shù)十億甚至數(shù)千億個(gè)參數(shù)。這使得它們能夠捕捉更多的語(yǔ)言知識(shí)和復(fù)雜的語(yǔ)法結(jié)構(gòu)。
4.2、預(yù)訓(xùn)練和微調(diào):
LLM采用了預(yù)訓(xùn)練和微調(diào)的學(xué)習(xí)方法。它們首先在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練(無(wú)標(biāo)簽數(shù)據(jù)),學(xué)會(huì)了通用的語(yǔ)言表示和知識(shí),然后通過微調(diào)(有標(biāo)簽數(shù)據(jù))適應(yīng)特定任務(wù),從而在各種NLP任務(wù)中表現(xiàn)出色。
4.3、上下文感知:
LLM在處理文本時(shí)具有強(qiáng)大的上下文感知能力,能夠理解和生成依賴于前文的文本內(nèi)容。這使得它們?cè)趯?duì)話、文章生成和情境理解方面表現(xiàn)出色。
4.4、多語(yǔ)言支持:
LLM可以用于多種語(yǔ)言,不僅限于英語(yǔ)。它們的多語(yǔ)言能力使得跨文化和跨語(yǔ)言的應(yīng)用變得更加容易。
4.5、多模態(tài)支持:
一些LLM已經(jīng)擴(kuò)展到支持多模態(tài)數(shù)據(jù),包括文本、圖像和聲音。這意味著它們可以理解和生成不同媒體類型的內(nèi)容,實(shí)現(xiàn)更多樣化的應(yīng)用。
4.6、涌現(xiàn)能力:
LLM表現(xiàn)出令人驚訝的涌現(xiàn)能力,即在大規(guī)模模型中出現(xiàn)但在小型模型中不明顯的性能提升。這使得它們能夠處理更復(fù)雜的任務(wù)和問題。
4.7、多領(lǐng)域應(yīng)用:
LLM已經(jīng)被廣泛應(yīng)用于文本生成、自動(dòng)翻譯、信息檢索、摘要生成、聊天機(jī)器人、虛擬助手等多個(gè)領(lǐng)域,對(duì)人們的日常生活和工作產(chǎn)生了深遠(yuǎn)的影響。
4.8、倫理和風(fēng)險(xiǎn)問題:
盡管LLM具有出色的能力,但它們也引發(fā)了倫理和風(fēng)險(xiǎn)問題,包括生成有害內(nèi)容、隱私問題、認(rèn)知偏差等。因此,研究和應(yīng)用LLM需要謹(jǐn)慎。
五、常見大模型
大語(yǔ)言模型的發(fā)展歷程雖然只有短短不到五年的時(shí)間,但是發(fā)展速度相當(dāng)驚人,截止 2023 年 6 月,國(guó)內(nèi)外有超過百種大模型相繼發(fā)布。按照時(shí)間線給出了 2019 年至 2023 年 6 月比較有影響力并且模型參數(shù)量超過 100 億的大語(yǔ)言模型,如下圖所示:
5.1、閉源 LLM (未公開源代碼)
5.1.1、GPT系列
GPT模型:
名稱: GPT(Generative Pre-Training)
研發(fā)公司:OpenAI
時(shí)間:2018 年
特點(diǎn):生成式預(yù)訓(xùn)練語(yǔ)言模型
本質(zhì):通過語(yǔ)言建模將世界知識(shí)壓縮到僅解碼器的 Transformer 模型中,這樣它就可以恢復(fù)(或記憶)世界知識(shí)的語(yǔ)義,并充當(dāng)通用任務(wù)求解器
ChatGPT:
名稱:ChatGPT
研發(fā)公司:OpenAI
時(shí)間:2022 年 11 月
特點(diǎn):卓越的會(huì)話能力,出色的人類交流能力
本質(zhì):一個(gè) LLM 應(yīng)用,基于 GPT-3.5 和 GPT-4
ChatGPT-3
名稱:ChatGPT-3
知識(shí)截止日期: 2021 年 9 月
支持最長(zhǎng)輸入:32,000 個(gè)字符
參數(shù): 1750億
特點(diǎn):代碼編寫、數(shù)學(xué)問題求解、寫作建議,豐富的知識(shí)儲(chǔ)備,邏輯推理能力,多回合對(duì)話,上下文理解,支持插件機(jī)制。
ChatGPT-4
名稱:GPT-4 Turbo, Turbo 就相當(dāng)于是進(jìn)階版的意思
知識(shí)截止日期: 2023 年 4 月
支持最長(zhǎng)輸入:128k,相當(dāng)于 300 頁(yè)文本
參數(shù):預(yù)估1.8 萬(wàn)億參數(shù),規(guī)模是 GPT-3 的 10 倍以上
使用地址: https://chat.openai.com/
5.1.2、Claude 系列
研發(fā)公司: Anthropic 公司(OpenAI 離職人員創(chuàng)建)
時(shí)間: 2023 年 3 月 15 日 初版
2023 年 7 月 11 日,更新至 Claude-2
特點(diǎn):可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問答、編碼等任務(wù)。
參數(shù):預(yù)估 860.1 億
Claude 和 Claude-Instant 兩種模型可供選擇,其中 Claude Instant 的延遲更低,性能略差,價(jià)格比完全體的 Claude-v1 要便宜,兩個(gè)模型的上下文窗口都是 9000 個(gè)token(約 5000 個(gè)單詞,或 15 頁(yè))
使用地址: https://claude.ai/chats
5.1.3、PaLM 系列
研發(fā)公司: Google
時(shí)間:2022 年 4 月,發(fā)布初始版本
2023 年 3 月,公開了 API
2023 年 5 月 ,發(fā)布了PaLM 2
本質(zhì):PaLM 基于 Google 提出的 Pathways 機(jī)器學(xué)習(xí)系統(tǒng)搭建,訓(xùn)練數(shù)據(jù)總量達(dá) 780B 個(gè)字符,內(nèi)容涵蓋網(wǎng)頁(yè)、書籍、新聞、開源代碼等多種形式的語(yǔ)料。前 PaLM 共有 8B、62B、540B 三個(gè)不同參數(shù)量的模型版本。
參數(shù):預(yù)估 340B,訓(xùn)練數(shù)據(jù)為 PaLM 的 5 倍左右。
使用地址: https://ai.google/discover/palm2/
5.1.4 文心一言
研發(fā)公司:百度
時(shí)間:2023 年 3 月測(cè)試版, 2019 年發(fā)布 1.0 版,現(xiàn)已更新到 4.0 版本
參數(shù): 2600 億
本質(zhì):基于飛槳深度學(xué)習(xí)框架進(jìn)行訓(xùn)練
5.1.5、星火大模型
研發(fā)公司:科大訊飛
時(shí)間:2023 年 5 月 6 日 發(fā)布,8 月 15 日 升級(jí)到 V2.0 版, 2023 年 10 月 24 日 V3.0, 全面對(duì)標(biāo)ChatGPT
特點(diǎn):多模態(tài)能力,已實(shí)現(xiàn)圖像描述、圖像理解、圖像推理、識(shí)圖創(chuàng)作、文圖生成、虛擬人合成
參數(shù):1700 億
參數(shù)說明:盡管比 ChatGPT 3.5 模型 1.5 萬(wàn)億個(gè)差著數(shù)量級(jí),但 ChatGPT 覆蓋了全球主要語(yǔ)言,漢語(yǔ)不到其中 10% 的數(shù)據(jù)量。所以在現(xiàn)有數(shù)據(jù)基礎(chǔ)上,星火大模型比 ChatGPT 更懂中文。
使用地址: https://xinghuo.xfyun.cn/
5.2、開源LLM
5.2.1、LLaMA 系列
參數(shù): 7B 到 70B
特點(diǎn):大規(guī)模的數(shù)據(jù)過濾和清洗技術(shù),以提高數(shù)據(jù)質(zhì)量和多樣性,減少噪聲和偏見。LLaMA 模型還使用了高效的數(shù)據(jù)并行和流水線并行技術(shù),以加速模型的訓(xùn)練和擴(kuò)展
不需要依賴專有或不可訪問的數(shù)據(jù)集。包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。
開源地址: https://github.com/facebookresearch/llama
5.2.2、GLM系列
研發(fā)公司:清華大學(xué)和智譜 AI 等
時(shí)間:2023 年 6 月發(fā)布ChatGLM 2, 2023 年 10 月 27 日發(fā)布ChatGLM 3
參數(shù):基于 GLM的ChatGLM 具有 62 億參數(shù)
輸入支持:支持 2048 的上下文長(zhǎng)度
開源地址: https://github.com/THUDM
使用地址:https://chatglm.cn/
5.2.3、通義千問
研發(fā)公司:阿里巴巴
時(shí)間: 2023 年 4 月正式發(fā)布, 2023 年 8 月,開源了Qwen(通義千問)
參數(shù):70億(7B)Qwen-7B 和140億(14B) Qwen-14B
開源地址: https://github.com/QwenLM/Qwen/tree/main
使用地址:https://tongyi.aliyun.com/
5.2.4、Baichuan 系列
研發(fā)公司:百川智能
時(shí)間:2023 年 10 月 30 日,發(fā)布 Baichuan2-192K 大模型
參數(shù):Baichuan-7B 70 億, Baichuan-13B 130億
開源地址: https://github.com/baichuan-inc
六、什么是 LangChain
6.1、langchain簡(jiǎn)介
問題: 盡管大型語(yǔ)言模型的調(diào)用相對(duì)簡(jiǎn)單,但要?jiǎng)?chuàng)建完整的應(yīng)用程序,仍然需要大量的定制開發(fā)工作,包括API集成、互動(dòng)邏輯、數(shù)據(jù)存儲(chǔ)等等
解決: langchain幫助開發(fā)者們快速構(gòu)建基于大型語(yǔ)言模型的端到端應(yīng)用程序或工作流程。
總結(jié): LangChain 框架是一個(gè)開源工具,充分利用了大型語(yǔ)言模型的強(qiáng)大能力,以便開發(fā)各種下游應(yīng)用。它的目標(biāo)是為各種大型語(yǔ)言模型應(yīng)用提供通用接口,從而簡(jiǎn)化應(yīng)用程序的開發(fā)流程。
6.2、發(fā)展歷史
作者:Harrison Chase
時(shí)間:2022 年 10 月在 github 上開源
6.3、核心組件
LangChian 作為一個(gè)大語(yǔ)言模型開發(fā)框架,可以將 LLM 模型(對(duì)話模型、embedding模型等)、向量數(shù)據(jù)庫(kù)、交互層 Prompt、外部知識(shí)、外部代理工具整合到一起,進(jìn)而可以自由構(gòu)建 LLM 應(yīng)用。
LangChain 主要由以下 6 個(gè)核心模塊組成:
模型輸入/輸出(Model I/O):與語(yǔ)言模型交互的接口
數(shù)據(jù)連接(Data connection):與特定應(yīng)用程序的數(shù)據(jù)進(jìn)行交互的接口
鏈(Chains):將組件組合實(shí)現(xiàn)端到端應(yīng)用。
記憶(Memory):用于鏈的多次運(yùn)行之間持久化應(yīng)用程序狀態(tài);
代理(Agents):擴(kuò)展模型的推理能力。用于復(fù)雜的應(yīng)用的調(diào)用序列;
回調(diào)(Callbacks):擴(kuò)展模型的推理能力。用于復(fù)雜的應(yīng)用的調(diào)用序列;