RAG 簡介

Retrieval Augmented Generation

檢索增強生成

RAG 首次在 2020 發表的一篇名為 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks paper 中提出, 作者是 Patrick Lewis 和 meta AI 團隊, 但是在 ChatGPT 發布后, RAG 才得到了廣泛關注

時間線

Transformer 2017.06

RAG 2020.05

ChatGPT 2022.11.30

LLM 局限性

對于實時的,非公開的或離線的數據是無法獲取到的
hallucination
數據安全

RAG 是什么

一種通過 LLM 訓練之外的數據來輔助 LLM 更準確回答的技術, 工程主導的技術

對大型語言模型輸出進行優化, 使其能夠在生成響應之前引用訓練數據來源之外的權威知識庫 -- aws

一種使用來自私有或專有數據源的信息來輔助文本生成的技術 -- elastic search

一種面向大語言模型的生成式 AI 方法, 通過將大語言模型鏈接到外部資源使生成式 AI 應用輸出更準確的回答 -- redhat

Prompt

LLM 提示詞, 是用于指導LLM生成文本的輸入, 這些提示可以是問題,陳述,指令或任何形式的文本, 目的是讓模型生成相關,連貫和有用的響應

{% for message in messages %}
    {% if loop.first and messages[0]['role'] != 'system' %}
        {{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}
    {% endif %}
    {{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}
{% endfor %}
{% if add_generation_prompt %}
     {{ '<|im_start|>assistant\n' }}
{% endif %}"

RAG 流程

RAG 的工作流程主要包括兩個核心步驟: 數據準備和應用執行, 通過從自有數據庫檢索相關信息, 并將這些信息融入到提示中, 引導 LLM 生成高質量的回答

https://learn.deeplearning.ai/courses/building-evaluating-advanced-rag/lesson/2/advanced-rag-pipeline

https://arxiv.org/abs/2312.10997

數據準備

數據準備階段是RAG（檢索增強生成）應用流程中的首個關鍵步驟，它負責將原始數據轉換為可用于檢索和生成的結構化形式。這一階段的目的是確保模型能夠有效地訪問和理解私有或定制化的數據集

數據提取

數據加載

從不同的源獲取數據，這可能包括數據庫、文檔、網頁、表格等多種格式。數據加載過程需要處理不同格式的兼容性，確保所有數據都能被統一處理

數據處理

對加載的數據進行清洗，包括去除無關信息（如HTML標簽、無效字符）、數據去重、錯誤修正等，以提升數據質量

元數據獲取

提取有助于理解和分類數據的關鍵信息，如文檔標題、作者、創建日期等，這些元數據對于索引和檢索非常有用

文本分割(Chunking)

粒度選擇

根據應用場景和LLM的輸入限制，決定文本的分割方式。常見的做法是按句子或固定長度的token（如256或512個tokens）分割，同時要確保分割后的塊能保持語義完整性

策略應用

可以采用基于句子的分割，保持每個句意的獨立性，或者采用固定長度分割，但需注意避免信息斷層，可以通過在切分點前后添加冗余信息來緩解語義斷裂問題

向量化(embedding)

模型選擇

根據應用場景選擇合適的嵌入模型，例如ChatGPT-Embedding、ERNIE-Embedding V1、M3E、BGE等，這些模型各有優劣，且部分模型支持微調以適應特定領域

向量生成

將分割好的文本塊送入選定的嵌入模型，將其轉化為高維向量。這一步驟至關重要，因為向量的質量直接影響后續的檢索效率和精度

持久化

構建索引

將生成的向量存儲到高效的向量數據庫中，如FAISS、Chromadb、Milvus等。這些數據庫通常支持快速的近似最近鄰搜索

優化存儲

考慮存儲方案的優化，如是否需要存儲元數據、如何組織索引以加速檢索等。某些數據庫還支持元數據過濾，允許按時間、來源等維度檢索

應用執行

應用執行階段是RAG（檢索增強生成）工作流程的第二部分，主要負責接收用戶輸入、執行檢索操作、整合信息并生成最終的回答

用戶提問

接收輸入

接收用戶通過聊天界面、API調用或其他形式提交的問題或指令

數據檢索(召回)

相似性檢索

利用之前構建的向量索引，計算用戶提問向量與數據庫中所有向量的相似度，通常采用余弦相似性、歐氏距離等方法。返回最相關的幾個結果TopK

全文檢索

在某些情況下，也可能采用關鍵詞匹配的方式，通過倒排索引快速定位相關文檔

混合或融合搜索

結合語義搜索與關鍵詞匹配，以獲得更全面的檢索結果

重排(reranking) 和過濾

優化檢索結果

根據元數據、相似性分數、關鍵字等因素對檢索結果進行重排，過濾掉不符合要求的條目，確保返回的信息最貼合用戶需求

注入 Prompt

整合上下文

將檢索到的相關信息整合到Prompt（提示詞）中，形成一個包含了任務描述、背景知識和用戶具體問題的綜合輸入

查詢轉換

在某些場景下，可能還會利用大語言模型（LLM）對原始用戶提問進行改寫或分解，生成更具體或更適合檢索的子查詢

在應用階段，我們根據用戶的提問，通過高效的檢索方法，召回與提問最相關的知識，并融入Prompt；

大模型參考當前提問和相關知識，生成相應的答案。關鍵環節包括：數據檢索、注入Prompt等。

LLM 生成答案

生成輸出

將構造好的Prompt輸入到大模型中，模型依據提供的上下文信息生成回答。這個過程融合了檢索到的知識和模型自身的生成能力，以期提供精確、全面的答案

多輪對話管理

在聊天場景中，還需要考慮對話的連貫性，通過查詢壓縮技術和上下文管理機制，確保模型能夠理解對話歷史，生成符合上下文邏輯的回答

智能決策與路由

查詢路由

對于復雜查詢，系統可能需要通過LLM驅動的決策步驟，判斷下一步行動，如是否需要進一步檢索、調用特定功能或直接生成答案

智能體集成

在一些高級應用中，智能體（Agent）會參與到流程中，利用自身的推理能力執行特定任務，如執行代碼、調用API或與其他智能體協作，以更動態、靈活的方式處理請求

Reference

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Retrieval-Augmented Generation for Large Language Models: A Survey

最后編輯于：2024.06.16 21:41:02

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,739評論 6贊 534
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,634評論 3贊 419
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,653評論 0贊 377
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,063評論 1贊 314
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,835評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,235評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,315評論 3贊 442
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,459評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,000評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,819評論 3贊 355
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,004評論 1贊 370
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,560評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,257評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,676評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,937評論 1贊 288
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,717評論 3贊 393
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,003評論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

RAG 簡介

RAG 簡介

Retrieval Augmented Generation

時間線

LLM 局限性

RAG 是什么

Prompt

RAG 流程

數據準備

數據提取

文本分割(Chunking)

向量化(embedding)

持久化

應用執行

用戶提問

數據檢索(召回)

重排(reranking) 和過濾

注入 Prompt

LLM 生成答案

智能決策與路由

Reference

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

RAG 簡介

Retrieval Augmented Generation

時間線

LLM 局限性

RAG 是什么

Prompt

RAG 流程

數據準備

數據提取

文本分割(Chunking)

向量化(embedding)

持久化

應用執行

用戶提問

數據檢索(召回)

重排(reranking) 和過濾

注入 Prompt

LLM 生成答案

智能決策與路由

Reference

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频