一、概念

1.1、大模型是什么

大語(yǔ)言模型（英文：Large Language Model，縮寫LLM），也稱大型語(yǔ)言模型，是一種人工智能模型，旨在理解和生成人類語(yǔ)言。

大語(yǔ)言模型 (LLM) 指包含數(shù)百億（或更多）參數(shù)的語(yǔ)言模型，這些模型在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練，例如國(guó)外的有GPT-3 、GPT-4、PaLM 、Galactica 和 LLaMA 等，國(guó)內(nèi)的有ChatGLM、文心一言、通義千問、訊飛星火等。

研究界給這些龐大的語(yǔ)言模型起了個(gè)名字，稱之為“大語(yǔ)言模型（LLM）”。而 LLM 的一個(gè)杰出應(yīng)用就是 ChatGPT。

GPT-3 擁有1750 億參數(shù)， PaLM擁有 5400 億參數(shù)。

1.2、大模型的應(yīng)用

自然語(yǔ)言處理領(lǐng)域，它可以幫助計(jì)算機(jī)更好地理解和生成文本，包括寫文章、回答問題、翻譯語(yǔ)言等。
信息檢索領(lǐng)域，它可以改進(jìn)搜索引擎，讓我們更輕松地找到所需的信息。

二、發(fā)展歷程

20世紀(jì)90年代，語(yǔ)言建模的研究，最初采用了統(tǒng)計(jì)學(xué)習(xí)方法，通過前面的詞匯來預(yù)測(cè)下一個(gè)詞匯。

2003年，深度學(xué)習(xí)先驅(qū)Bengio在論文《A Neural Probabilistic Language Model》中，首次將深度學(xué)習(xí)的思想融入到語(yǔ)言模型中，使用了更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型。

2018年左右，研究人員引入了Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型，通過大量文本數(shù)據(jù)訓(xùn)練這些模型，使它們能夠通過閱讀大量文本來深入理解語(yǔ)言規(guī)則和模式，就像讓計(jì)算機(jī)閱讀整個(gè)互聯(lián)網(wǎng)一樣。

隨著語(yǔ)言模型規(guī)模的擴(kuò)大（增加模型大小或使用更多數(shù)據(jù)），模型展現(xiàn)出了一些驚人的能力，通常在各種任務(wù)中表現(xiàn)顯著提升。這時(shí)我們進(jìn)入了大語(yǔ)言模型（LLM）時(shí)代。

三、大模型的能力

3.1、涌現(xiàn)能力（emergent abilities）

涌現(xiàn)能力指的是一種令人驚訝的能力，它在小型模型中不明顯，但在大型模型中顯著出現(xiàn)。可以類比到物理學(xué)中的相變現(xiàn)象，涌現(xiàn)能力的顯現(xiàn)就像是模型性能隨著規(guī)模增大而迅速提升，超過了隨機(jī)水平，也就是我們常說的量變引起了質(zhì)變。

三個(gè)典型的LLM涌現(xiàn)能力：

上下文學(xué)習(xí)：上下文學(xué)習(xí)能力是由 GPT-3 首次引入的。這種能力允許語(yǔ)言模型在提供自然語(yǔ)言指令或多個(gè)任務(wù)示例的情況下，通過理解上下文并生成相應(yīng)輸出的方式來執(zhí)行任務(wù)，而無(wú)需額外的訓(xùn)練或參數(shù)更新。

指令遵循：通過使用自然語(yǔ)言描述的多任務(wù)數(shù)據(jù)進(jìn)行微調(diào)，也就是所謂的指令微調(diào)。LLM能夠根據(jù)任務(wù)指令執(zhí)行任務(wù)，且無(wú)需事先見過具體示例，展示了強(qiáng)大的泛化能力。

逐步推理：小型語(yǔ)言模型通常難以解決涉及多個(gè)推理步驟的復(fù)雜任務(wù)，例如數(shù)學(xué)問題。然而，LLM通過采用"思維鏈"推理策略，可以利用包含中間推理步驟的提示機(jī)制來解決這些任務(wù)，從而得出最終答案。

3.2、作為基座模型支持多元應(yīng)用的能力

這是一種全新的AI技術(shù)范式，借助于海量無(wú)標(biāo)注數(shù)據(jù)的訓(xùn)練，獲得可以適用于大量下游任務(wù)的大模型（單模態(tài)或者多模態(tài)）。多個(gè)應(yīng)用可以只依賴于一個(gè)或少數(shù)幾個(gè)大模型進(jìn)行統(tǒng)一建設(shè)。

使用統(tǒng)一的大模型可以極大地提高研發(fā)效率，相比于分散的模型開發(fā)方式，不僅可以縮短每個(gè)具體應(yīng)用的開發(fā)周期，減少所需人力投入，也可以基于大模型的推理、常識(shí)和寫作能力，獲得更好的應(yīng)用效果，是一項(xiàng)本質(zhì)上的進(jìn)步。

大模型可以成為AI應(yīng)用開發(fā)的大一統(tǒng)基座模型。

3.3、支持對(duì)話作為統(tǒng)一入口的能力

這項(xiàng)能力讓大語(yǔ)言模型真正火爆起來，例如基于對(duì)話聊天的ChatGPT。

四、大模型的特點(diǎn)

4.1、巨大的規(guī)模：

LLM通常具有巨大的參數(shù)規(guī)模，可以達(dá)到數(shù)十億甚至數(shù)千億個(gè)參數(shù)。這使得它們能夠捕捉更多的語(yǔ)言知識(shí)和復(fù)雜的語(yǔ)法結(jié)構(gòu)。

4.2、預(yù)訓(xùn)練和微調(diào)：

LLM采用了預(yù)訓(xùn)練和微調(diào)的學(xué)習(xí)方法。它們首先在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練（無(wú)標(biāo)簽數(shù)據(jù)），學(xué)會(huì)了通用的語(yǔ)言表示和知識(shí)，然后通過微調(diào)（有標(biāo)簽數(shù)據(jù)）適應(yīng)特定任務(wù)，從而在各種NLP任務(wù)中表現(xiàn)出色。

4.3、上下文感知：

LLM在處理文本時(shí)具有強(qiáng)大的上下文感知能力，能夠理解和生成依賴于前文的文本內(nèi)容。這使得它們?cè)趯?duì)話、文章生成和情境理解方面表現(xiàn)出色。

4.4、多語(yǔ)言支持：

LLM可以用于多種語(yǔ)言，不僅限于英語(yǔ)。它們的多語(yǔ)言能力使得跨文化和跨語(yǔ)言的應(yīng)用變得更加容易。

4.5、多模態(tài)支持：

一些LLM已經(jīng)擴(kuò)展到支持多模態(tài)數(shù)據(jù)，包括文本、圖像和聲音。這意味著它們可以理解和生成不同媒體類型的內(nèi)容，實(shí)現(xiàn)更多樣化的應(yīng)用。

4.6、涌現(xiàn)能力：

LLM表現(xiàn)出令人驚訝的涌現(xiàn)能力，即在大規(guī)模模型中出現(xiàn)但在小型模型中不明顯的性能提升。這使得它們能夠處理更復(fù)雜的任務(wù)和問題。

4.7、多領(lǐng)域應(yīng)用：

LLM已經(jīng)被廣泛應(yīng)用于文本生成、自動(dòng)翻譯、信息檢索、摘要生成、聊天機(jī)器人、虛擬助手等多個(gè)領(lǐng)域，對(duì)人們的日常生活和工作產(chǎn)生了深遠(yuǎn)的影響。

4.8、倫理和風(fēng)險(xiǎn)問題：

盡管LLM具有出色的能力，但它們也引發(fā)了倫理和風(fēng)險(xiǎn)問題，包括生成有害內(nèi)容、隱私問題、認(rèn)知偏差等。因此，研究和應(yīng)用LLM需要謹(jǐn)慎。

五、常見大模型

大語(yǔ)言模型的發(fā)展歷程雖然只有短短不到五年的時(shí)間，但是發(fā)展速度相當(dāng)驚人，截止 2023 年 6 月，國(guó)內(nèi)外有超過百種大模型相繼發(fā)布。按照時(shí)間線給出了 2019 年至 2023 年 6 月比較有影響力并且模型參數(shù)量超過 100 億的大語(yǔ)言模型，如下圖所示：

常見大模型

5.1、閉源 LLM (未公開源代碼)

5.1.1、GPT系列

GPT模型：

名稱： GPT（Generative Pre-Training）

研發(fā)公司：OpenAI

時(shí)間：2018 年

特點(diǎn)：生成式預(yù)訓(xùn)練語(yǔ)言模型

本質(zhì)：通過語(yǔ)言建模將世界知識(shí)壓縮到僅解碼器的 Transformer 模型中，這樣它就可以恢復(fù)(或記憶)世界知識(shí)的語(yǔ)義，并充當(dāng)通用任務(wù)求解器

GPT

ChatGPT：

名稱：ChatGPT

研發(fā)公司：OpenAI

時(shí)間：2022 年 11 月

特點(diǎn)：卓越的會(huì)話能力，出色的人類交流能力

本質(zhì)：一個(gè) LLM 應(yīng)用，基于 GPT-3.5 和 GPT-4

ChatGPT-3

名稱：ChatGPT-3

知識(shí)截止日期： 2021 年 9 月

支持最長(zhǎng)輸入：32,000 個(gè)字符

參數(shù)： 1750億

特點(diǎn)：代碼編寫、數(shù)學(xué)問題求解、寫作建議，豐富的知識(shí)儲(chǔ)備，邏輯推理能力，多回合對(duì)話，上下文理解，支持插件機(jī)制。

ChatGPT-4

名稱：GPT-4 Turbo， Turbo 就相當(dāng)于是進(jìn)階版的意思

知識(shí)截止日期： 2023 年 4 月

支持最長(zhǎng)輸入：128k，相當(dāng)于 300 頁(yè)文本

參數(shù)：預(yù)估1.8 萬(wàn)億參數(shù)，規(guī)模是 GPT-3 的 10 倍以上

使用地址： https://chat.openai.com/

5.1.2、Claude 系列

研發(fā)公司： Anthropic 公司（OpenAI 離職人員創(chuàng)建）

時(shí)間： 2023 年 3 月 15 日初版

2023 年 7 月 11 日，更新至 Claude-2

特點(diǎn)：可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問答、編碼等任務(wù)。

參數(shù)：預(yù)估 860.1 億

Claude 和 Claude-Instant 兩種模型可供選擇，其中 Claude Instant 的延遲更低，性能略差，價(jià)格比完全體的 Claude-v1 要便宜，兩個(gè)模型的上下文窗口都是 9000 個(gè)token（約 5000 個(gè)單詞，或 15 頁(yè)）

使用地址： https://claude.ai/chats

5.1.3、PaLM 系列

研發(fā)公司： Google

時(shí)間：2022 年 4 月，發(fā)布初始版本

2023 年 3 月，公開了 API

2023 年 5 月，發(fā)布了PaLM 2

本質(zhì)：PaLM 基于 Google 提出的 Pathways 機(jī)器學(xué)習(xí)系統(tǒng)搭建，訓(xùn)練數(shù)據(jù)總量達(dá) 780B 個(gè)字符，內(nèi)容涵蓋網(wǎng)頁(yè)、書籍、新聞、開源代碼等多種形式的語(yǔ)料。前 PaLM 共有 8B、62B、540B 三個(gè)不同參數(shù)量的模型版本。

參數(shù)：預(yù)估 340B，訓(xùn)練數(shù)據(jù)為 PaLM 的 5 倍左右。

使用地址： https://ai.google/discover/palm2/

5.1.4 文心一言

研發(fā)公司：百度

時(shí)間：2023 年 3 月測(cè)試版， 2019 年發(fā)布 1.0 版，現(xiàn)已更新到 4.0 版本

參數(shù)： 2600 億

本質(zhì)：基于飛槳深度學(xué)習(xí)框架進(jìn)行訓(xùn)練

使用地址：https://yiyan.baidu.com/

5.1.5、星火大模型

研發(fā)公司：科大訊飛

時(shí)間：2023 年 5 月 6 日發(fā)布，8 月 15 日升級(jí)到 V2.0 版， 2023 年 10 月 24 日 V3.0，全面對(duì)標(biāo)ChatGPT

特點(diǎn)：多模態(tài)能力，已實(shí)現(xiàn)圖像描述、圖像理解、圖像推理、識(shí)圖創(chuàng)作、文圖生成、虛擬人合成

參數(shù)：1700 億

參數(shù)說明：盡管比 ChatGPT 3.5 模型 1.5 萬(wàn)億個(gè)差著數(shù)量級(jí)，但 ChatGPT 覆蓋了全球主要語(yǔ)言，漢語(yǔ)不到其中 10% 的數(shù)據(jù)量。所以在現(xiàn)有數(shù)據(jù)基礎(chǔ)上，星火大模型比 ChatGPT 更懂中文。

使用地址： https://xinghuo.xfyun.cn/

5.2、開源LLM

5.2.1、LLaMA 系列

參數(shù)： 7B 到 70B

特點(diǎn)：大規(guī)模的數(shù)據(jù)過濾和清洗技術(shù)，以提高數(shù)據(jù)質(zhì)量和多樣性，減少噪聲和偏見。LLaMA 模型還使用了高效的數(shù)據(jù)并行和流水線并行技術(shù)，以加速模型的訓(xùn)練和擴(kuò)展

不需要依賴專有或不可訪問的數(shù)據(jù)集。包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。

開源地址： https://github.com/facebookresearch/llama

5.2.2、GLM系列

研發(fā)公司：清華大學(xué)和智譜 AI 等

時(shí)間：2023 年 6 月發(fā)布ChatGLM 2， 2023 年 10 月 27 日發(fā)布ChatGLM 3

參數(shù)：基于 GLM的ChatGLM 具有 62 億參數(shù)

輸入支持：支持 2048 的上下文長(zhǎng)度

開源地址： https://github.com/THUDM
使用地址：https://chatglm.cn/

5.2.3、通義千問

研發(fā)公司：阿里巴巴

時(shí)間： 2023 年 4 月正式發(fā)布， 2023 年 8 月，開源了Qwen（通義千問）

參數(shù)：70億（7B）Qwen-7B 和140億（14B） Qwen-14B

開源地址： https://github.com/QwenLM/Qwen/tree/main
使用地址：https://tongyi.aliyun.com/

5.2.4、Baichuan 系列

研發(fā)公司：百川智能

時(shí)間：2023 年 10 月 30 日，發(fā)布 Baichuan2-192K 大模型

參數(shù)：Baichuan-7B 70 億， Baichuan-13B 130億

開源地址： https://github.com/baichuan-inc

六、什么是 LangChain

6.1、langchain簡(jiǎn)介

問題： 盡管大型語(yǔ)言模型的調(diào)用相對(duì)簡(jiǎn)單，但要?jiǎng)?chuàng)建完整的應(yīng)用程序，仍然需要大量的定制開發(fā)工作，包括API集成、互動(dòng)邏輯、數(shù)據(jù)存儲(chǔ)等等

解決： langchain幫助開發(fā)者們快速構(gòu)建基于大型語(yǔ)言模型的端到端應(yīng)用程序或工作流程。

總結(jié)： LangChain 框架是一個(gè)開源工具，充分利用了大型語(yǔ)言模型的強(qiáng)大能力，以便開發(fā)各種下游應(yīng)用。它的目標(biāo)是為各種大型語(yǔ)言模型應(yīng)用提供通用接口，從而簡(jiǎn)化應(yīng)用程序的開發(fā)流程。

6.2、發(fā)展歷史

作者：Harrison Chase

時(shí)間：2022 年 10 月在 github 上開源

發(fā)展歷史

6.3、核心組件

LangChian 作為一個(gè)大語(yǔ)言模型開發(fā)框架，可以將 LLM 模型（對(duì)話模型、embedding模型等）、向量數(shù)據(jù)庫(kù)、交互層 Prompt、外部知識(shí)、外部代理工具整合到一起，進(jìn)而可以自由構(gòu)建 LLM 應(yīng)用。

LangChain 主要由以下 6 個(gè)核心模塊組成:

模型輸入/輸出（Model I/O）：與語(yǔ)言模型交互的接口
數(shù)據(jù)連接（Data connection）：與特定應(yīng)用程序的數(shù)據(jù)進(jìn)行交互的接口
鏈（Chains）：將組件組合實(shí)現(xiàn)端到端應(yīng)用。
記憶（Memory）：用于鏈的多次運(yùn)行之間持久化應(yīng)用程序狀態(tài)；
代理（Agents）：擴(kuò)展模型的推理能力。用于復(fù)雜的應(yīng)用的調(diào)用序列；
回調(diào)（Callbacks）：擴(kuò)展模型的推理能力。用于復(fù)雜的應(yīng)用的調(diào)用序列；

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

（一）大模型簡(jiǎn)介

（一）大模型簡(jiǎn)介

一、概念

1.1、大模型是什么

1.2、大模型的應(yīng)用

二、發(fā)展歷程

三、大模型的能力

3.1、涌現(xiàn)能力（emergent abilities）

3.2、作為基座模型支持多元應(yīng)用的能力

3.3、支持對(duì)話作為統(tǒng)一入口的能力

四、大模型的特點(diǎn)

4.1、巨大的規(guī)模：

4.2、預(yù)訓(xùn)練和微調(diào)：

4.3、上下文感知：

4.4、多語(yǔ)言支持：

4.5、多模態(tài)支持：

4.6、涌現(xiàn)能力：

4.7、多領(lǐng)域應(yīng)用：

4.8、倫理和風(fēng)險(xiǎn)問題：

五、常見大模型

5.1、閉源 LLM (未公開源代碼)

5.1.1、GPT系列

5.1.2、Claude 系列

5.1.3、PaLM 系列

5.1.4 文心一言

5.1.5、星火大模型

5.2、開源LLM

5.2.1、LLaMA 系列

5.2.2、GLM系列

5.2.3、通義千問

5.2.4、Baichuan 系列

六、什么是 LangChain

6.1、langchain簡(jiǎn)介

6.2、發(fā)展歷史

6.3、核心組件

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

（一）大模型簡(jiǎn)介

一、概念

1.1、大模型是什么

1.2、大模型的應(yīng)用

二、發(fā)展歷程

三、大模型的能力

3.1、涌現(xiàn)能力（emergent abilities）

3.2、作為基座模型支持多元應(yīng)用的能力

3.3、支持對(duì)話作為統(tǒng)一入口的能力

四、大模型的特點(diǎn)

4.1、巨大的規(guī)模：

4.2、預(yù)訓(xùn)練和微調(diào)：

4.3、上下文感知：

4.4、多語(yǔ)言支持：

4.5、多模態(tài)支持：

4.6、涌現(xiàn)能力：

4.7、多領(lǐng)域應(yīng)用：

4.8、倫理和風(fēng)險(xiǎn)問題：

五、常見大模型

5.1、閉源 LLM (未公開源代碼)

5.1.1、GPT系列

5.1.2、Claude 系列

5.1.3、PaLM 系列

5.1.4 文心一言

5.1.5、星火大模型

5.2、開源LLM

5.2.1、LLaMA 系列

5.2.2、GLM系列

5.2.3、通義千問

5.2.4、Baichuan 系列

六、什么是 LangChain

6.1、langchain簡(jiǎn)介

6.2、發(fā)展歷史

6.3、核心組件

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频