(一)大模型簡(jiǎn)介

一、概念

1.1、大模型是什么

大語(yǔ)言模型(英文:Large Language Model,縮寫LLM),也稱大型語(yǔ)言模型,是一種人工智能模型,旨在理解和生成人類語(yǔ)言。

大語(yǔ)言模型 (LLM) 指包含數(shù)百億(或更多)參數(shù)的語(yǔ)言模型,這些模型在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練,例如國(guó)外的有GPT-3 、GPT-4、PaLM 、Galactica 和 LLaMA 等,國(guó)內(nèi)的有ChatGLM、文心一言、通義千問、訊飛星火等。

研究界給這些龐大的語(yǔ)言模型起了個(gè)名字,稱之為“大語(yǔ)言模型(LLM)”。而 LLM 的一個(gè)杰出應(yīng)用就是 ChatGPT。

GPT-3 擁有1750 億參數(shù), PaLM擁有 5400 億參數(shù)。

1.2、大模型的應(yīng)用

  • 自然語(yǔ)言處理領(lǐng)域,它可以幫助計(jì)算機(jī)更好地理解和生成文本,包括寫文章、回答問題、翻譯語(yǔ)言等。

  • 信息檢索領(lǐng)域,它可以改進(jìn)搜索引擎,讓我們更輕松地找到所需的信息。

二、發(fā)展歷程

20世紀(jì)90年代,語(yǔ)言建模的研究,最初采用了統(tǒng)計(jì)學(xué)習(xí)方法,通過前面的詞匯來預(yù)測(cè)下一個(gè)詞匯。

2003年,深度學(xué)習(xí)先驅(qū)Bengio在論文《A Neural Probabilistic Language Model》中,首次將深度學(xué)習(xí)的思想融入到語(yǔ)言模型中,使用了更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型。

2018年左右,研究人員引入了Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,通過大量文本數(shù)據(jù)訓(xùn)練這些模型,使它們能夠通過閱讀大量文本來深入理解語(yǔ)言規(guī)則和模式,就像讓計(jì)算機(jī)閱讀整個(gè)互聯(lián)網(wǎng)一樣。

隨著語(yǔ)言模型規(guī)模的擴(kuò)大(增加模型大小或使用更多數(shù)據(jù)),模型展現(xiàn)出了一些驚人的能力,通常在各種任務(wù)中表現(xiàn)顯著提升。這時(shí)我們進(jìn)入了大語(yǔ)言模型(LLM)時(shí)代。

三、大模型的能力

3.1、涌現(xiàn)能力(emergent abilities)

涌現(xiàn)能力指的是一種令人驚訝的能力,它在小型模型中不明顯,但在大型模型中顯著出現(xiàn)。可以類比到物理學(xué)中的相變現(xiàn)象,涌現(xiàn)能力的顯現(xiàn)就像是模型性能隨著規(guī)模增大而迅速提升,超過了隨機(jī)水平,也就是我們常說的量變引起了質(zhì)變。

三個(gè)典型的LLM涌現(xiàn)能力:

上下文學(xué)習(xí):上下文學(xué)習(xí)能力是由 GPT-3 首次引入的。這種能力允許語(yǔ)言模型在提供自然語(yǔ)言指令或多個(gè)任務(wù)示例的情況下,通過理解上下文并生成相應(yīng)輸出的方式來執(zhí)行任務(wù),而無(wú)需額外的訓(xùn)練或參數(shù)更新。

指令遵循:通過使用自然語(yǔ)言描述的多任務(wù)數(shù)據(jù)進(jìn)行微調(diào),也就是所謂的指令微調(diào)。LLM能夠根據(jù)任務(wù)指令執(zhí)行任務(wù),且無(wú)需事先見過具體示例,展示了強(qiáng)大的泛化能力。

逐步推理:小型語(yǔ)言模型通常難以解決涉及多個(gè)推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)問題。然而,LLM通過采用"思維鏈"推理策略,可以利用包含中間推理步驟的提示機(jī)制來解決這些任務(wù),從而得出最終答案。

3.2、作為基座模型支持多元應(yīng)用的能力

這是一種全新的AI技術(shù)范式,借助于海量無(wú)標(biāo)注數(shù)據(jù)的訓(xùn)練,獲得可以適用于大量下游任務(wù)的大模型(單模態(tài)或者多模態(tài))。多個(gè)應(yīng)用可以只依賴于一個(gè)或少數(shù)幾個(gè)大模型進(jìn)行統(tǒng)一建設(shè)。

使用統(tǒng)一的大模型可以極大地提高研發(fā)效率,相比于分散的模型開發(fā)方式,不僅可以縮短每個(gè)具體應(yīng)用的開發(fā)周期,減少所需人力投入,也可以基于大模型的推理、常識(shí)和寫作能力,獲得更好的應(yīng)用效果,是一項(xiàng)本質(zhì)上的進(jìn)步。

大模型可以成為AI應(yīng)用開發(fā)的大一統(tǒng)基座模型。

3.3、支持對(duì)話作為統(tǒng)一入口的能力

這項(xiàng)能力讓大語(yǔ)言模型真正火爆起來,例如基于對(duì)話聊天的ChatGPT。

四、大模型的特點(diǎn)

4.1、巨大的規(guī)模:

LLM通常具有巨大的參數(shù)規(guī)模,可以達(dá)到數(shù)十億甚至數(shù)千億個(gè)參數(shù)。這使得它們能夠捕捉更多的語(yǔ)言知識(shí)和復(fù)雜的語(yǔ)法結(jié)構(gòu)。

4.2、預(yù)訓(xùn)練和微調(diào):

LLM采用了預(yù)訓(xùn)練和微調(diào)的學(xué)習(xí)方法。它們首先在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練(無(wú)標(biāo)簽數(shù)據(jù)),學(xué)會(huì)了通用的語(yǔ)言表示和知識(shí),然后通過微調(diào)(有標(biāo)簽數(shù)據(jù))適應(yīng)特定任務(wù),從而在各種NLP任務(wù)中表現(xiàn)出色。

4.3、上下文感知:

LLM在處理文本時(shí)具有強(qiáng)大的上下文感知能力,能夠理解和生成依賴于前文的文本內(nèi)容。這使得它們?cè)趯?duì)話、文章生成和情境理解方面表現(xiàn)出色。

4.4、多語(yǔ)言支持:

LLM可以用于多種語(yǔ)言,不僅限于英語(yǔ)。它們的多語(yǔ)言能力使得跨文化和跨語(yǔ)言的應(yīng)用變得更加容易。

4.5、多模態(tài)支持:

一些LLM已經(jīng)擴(kuò)展到支持多模態(tài)數(shù)據(jù),包括文本、圖像和聲音。這意味著它們可以理解和生成不同媒體類型的內(nèi)容,實(shí)現(xiàn)更多樣化的應(yīng)用。

4.6、涌現(xiàn)能力:

LLM表現(xiàn)出令人驚訝的涌現(xiàn)能力,即在大規(guī)模模型中出現(xiàn)但在小型模型中不明顯的性能提升。這使得它們能夠處理更復(fù)雜的任務(wù)和問題。

4.7、多領(lǐng)域應(yīng)用:

LLM已經(jīng)被廣泛應(yīng)用于文本生成、自動(dòng)翻譯、信息檢索、摘要生成、聊天機(jī)器人、虛擬助手等多個(gè)領(lǐng)域,對(duì)人們的日常生活和工作產(chǎn)生了深遠(yuǎn)的影響。

4.8、倫理和風(fēng)險(xiǎn)問題:

盡管LLM具有出色的能力,但它們也引發(fā)了倫理和風(fēng)險(xiǎn)問題,包括生成有害內(nèi)容、隱私問題、認(rèn)知偏差等。因此,研究和應(yīng)用LLM需要謹(jǐn)慎。

五、常見大模型

大語(yǔ)言模型的發(fā)展歷程雖然只有短短不到五年的時(shí)間,但是發(fā)展速度相當(dāng)驚人,截止 2023 年 6 月,國(guó)內(nèi)外有超過百種大模型相繼發(fā)布。按照時(shí)間線給出了 2019 年至 2023 年 6 月比較有影響力并且模型參數(shù)量超過 100 億的大語(yǔ)言模型,如下圖所示:


常見大模型

5.1、閉源 LLM (未公開源代碼)

5.1.1、GPT系列

GPT模型:

名稱: GPT(Generative Pre-Training)

研發(fā)公司:OpenAI

時(shí)間:2018 年

特點(diǎn):生成式預(yù)訓(xùn)練語(yǔ)言模型

本質(zhì):通過語(yǔ)言建模將世界知識(shí)壓縮到僅解碼器的 Transformer 模型中,這樣它就可以恢復(fù)(或記憶)世界知識(shí)的語(yǔ)義,并充當(dāng)通用任務(wù)求解器

GPT

ChatGPT:

名稱:ChatGPT

研發(fā)公司:OpenAI

時(shí)間:2022 年 11 月

特點(diǎn):卓越的會(huì)話能力,出色的人類交流能力

本質(zhì):一個(gè) LLM 應(yīng)用,基于 GPT-3.5 和 GPT-4

ChatGPT-3

名稱:ChatGPT-3

知識(shí)截止日期: 2021 年 9 月

支持最長(zhǎng)輸入:32,000 個(gè)字符

參數(shù): 1750億

特點(diǎn):代碼編寫、數(shù)學(xué)問題求解、寫作建議,豐富的知識(shí)儲(chǔ)備,邏輯推理能力,多回合對(duì)話,上下文理解,支持插件機(jī)制。

ChatGPT-4

名稱:GPT-4 Turbo, Turbo 就相當(dāng)于是進(jìn)階版的意思

知識(shí)截止日期: 2023 年 4 月

支持最長(zhǎng)輸入:128k,相當(dāng)于 300 頁(yè)文本

參數(shù):預(yù)估1.8 萬(wàn)億參數(shù),規(guī)模是 GPT-3 的 10 倍以上

使用地址: https://chat.openai.com/

5.1.2、Claude 系列

研發(fā)公司: Anthropic 公司(OpenAI 離職人員創(chuàng)建)

時(shí)間: 2023 年 3 月 15 日 初版

2023 年 7 月 11 日,更新至 Claude-2

特點(diǎn):可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問答、編碼等任務(wù)。

參數(shù):預(yù)估 860.1 億

Claude 和 Claude-Instant 兩種模型可供選擇,其中 Claude Instant 的延遲更低,性能略差,價(jià)格比完全體的 Claude-v1 要便宜,兩個(gè)模型的上下文窗口都是 9000 個(gè)token(約 5000 個(gè)單詞,或 15 頁(yè))

使用地址: https://claude.ai/chats

5.1.3、PaLM 系列

研發(fā)公司: Google

時(shí)間:2022 年 4 月,發(fā)布初始版本

2023 年 3 月,公開了 API

2023 年 5 月 ,發(fā)布了PaLM 2

本質(zhì):PaLM 基于 Google 提出的 Pathways 機(jī)器學(xué)習(xí)系統(tǒng)搭建,訓(xùn)練數(shù)據(jù)總量達(dá) 780B 個(gè)字符,內(nèi)容涵蓋網(wǎng)頁(yè)、書籍、新聞、開源代碼等多種形式的語(yǔ)料。前 PaLM 共有 8B、62B、540B 三個(gè)不同參數(shù)量的模型版本。

參數(shù):預(yù)估 340B,訓(xùn)練數(shù)據(jù)為 PaLM 的 5 倍左右。

使用地址: https://ai.google/discover/palm2/

5.1.4 文心一言

研發(fā)公司:百度

時(shí)間:2023 年 3 月測(cè)試版, 2019 年發(fā)布 1.0 版,現(xiàn)已更新到 4.0 版本

參數(shù): 2600 億

本質(zhì):基于飛槳深度學(xué)習(xí)框架進(jìn)行訓(xùn)練

使用地址:https://yiyan.baidu.com/

5.1.5、星火大模型

研發(fā)公司:科大訊飛

時(shí)間:2023 年 5 月 6 日 發(fā)布,8 月 15 日 升級(jí)到 V2.0 版, 2023 年 10 月 24 日 V3.0, 全面對(duì)標(biāo)ChatGPT

特點(diǎn):多模態(tài)能力,已實(shí)現(xiàn)圖像描述、圖像理解、圖像推理、識(shí)圖創(chuàng)作、文圖生成、虛擬人合成

參數(shù):1700 億

參數(shù)說明:盡管比 ChatGPT 3.5 模型 1.5 萬(wàn)億個(gè)差著數(shù)量級(jí),但 ChatGPT 覆蓋了全球主要語(yǔ)言,漢語(yǔ)不到其中 10% 的數(shù)據(jù)量。所以在現(xiàn)有數(shù)據(jù)基礎(chǔ)上,星火大模型比 ChatGPT 更懂中文。

使用地址: https://xinghuo.xfyun.cn/

5.2、開源LLM

5.2.1、LLaMA 系列

參數(shù): 7B 到 70B

特點(diǎn):大規(guī)模的數(shù)據(jù)過濾和清洗技術(shù),以提高數(shù)據(jù)質(zhì)量和多樣性,減少噪聲和偏見。LLaMA 模型還使用了高效的數(shù)據(jù)并行和流水線并行技術(shù),以加速模型的訓(xùn)練和擴(kuò)展

不需要依賴專有或不可訪問的數(shù)據(jù)集。包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。

開源地址: https://github.com/facebookresearch/llama

5.2.2、GLM系列

研發(fā)公司:清華大學(xué)和智譜 AI 等

時(shí)間:2023 年 6 月發(fā)布ChatGLM 2, 2023 年 10 月 27 日發(fā)布ChatGLM 3

參數(shù):基于 GLM的ChatGLM 具有 62 億參數(shù)

輸入支持:支持 2048 的上下文長(zhǎng)度

開源地址: https://github.com/THUDM
使用地址:https://chatglm.cn/

5.2.3、通義千問

研發(fā)公司:阿里巴巴

時(shí)間: 2023 年 4 月正式發(fā)布, 2023 年 8 月,開源了Qwen(通義千問)

參數(shù):70億(7B)Qwen-7B 和140億(14B) Qwen-14B

開源地址: https://github.com/QwenLM/Qwen/tree/main
使用地址:https://tongyi.aliyun.com/

5.2.4、Baichuan 系列

研發(fā)公司:百川智能

時(shí)間:2023 年 10 月 30 日,發(fā)布 Baichuan2-192K 大模型

參數(shù):Baichuan-7B 70 億, Baichuan-13B 130億

開源地址: https://github.com/baichuan-inc

六、什么是 LangChain

6.1、langchain簡(jiǎn)介

問題: 盡管大型語(yǔ)言模型的調(diào)用相對(duì)簡(jiǎn)單,但要?jiǎng)?chuàng)建完整的應(yīng)用程序,仍然需要大量的定制開發(fā)工作,包括API集成、互動(dòng)邏輯、數(shù)據(jù)存儲(chǔ)等等

解決: langchain幫助開發(fā)者們快速構(gòu)建基于大型語(yǔ)言模型的端到端應(yīng)用程序或工作流程。

總結(jié): LangChain 框架是一個(gè)開源工具,充分利用了大型語(yǔ)言模型的強(qiáng)大能力,以便開發(fā)各種下游應(yīng)用。它的目標(biāo)是為各種大型語(yǔ)言模型應(yīng)用提供通用接口,從而簡(jiǎn)化應(yīng)用程序的開發(fā)流程。

6.2、發(fā)展歷史

作者:Harrison Chase

時(shí)間:2022 年 10 月在 github 上開源

發(fā)展歷史

6.3、核心組件

LangChian 作為一個(gè)大語(yǔ)言模型開發(fā)框架,可以將 LLM 模型(對(duì)話模型、embedding模型等)、向量數(shù)據(jù)庫(kù)、交互層 Prompt、外部知識(shí)、外部代理工具整合到一起,進(jìn)而可以自由構(gòu)建 LLM 應(yīng)用。

LangChain 主要由以下 6 個(gè)核心模塊組成:

模型輸入/輸出(Model I/O):與語(yǔ)言模型交互的接口
數(shù)據(jù)連接(Data connection):與特定應(yīng)用程序的數(shù)據(jù)進(jìn)行交互的接口
鏈(Chains):將組件組合實(shí)現(xiàn)端到端應(yīng)用。
記憶(Memory):用于鏈的多次運(yùn)行之間持久化應(yīng)用程序狀態(tài);
代理(Agents):擴(kuò)展模型的推理能力。用于復(fù)雜的應(yīng)用的調(diào)用序列;
回調(diào)(Callbacks):擴(kuò)展模型的推理能力。用于復(fù)雜的應(yīng)用的調(diào)用序列;

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容