Retrieval Augmented Generation
檢索增強生成
RAG 首次在 2020 發表的一篇名為 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks paper 中提出, 作者是 Patrick Lewis 和 meta AI 團隊, 但是在 ChatGPT 發布后, RAG 才得到了廣泛關注
時間線
- Transformer 2017.06
- RAG 2020.05
- ChatGPT 2022.11.30
LLM 局限性
對于實時的,非公開的或離線的數據是無法獲取到的
hallucination
數據安全
RAG 是什么
一種通過 LLM 訓練之外的數據來輔助 LLM 更準確回答的技術, 工程主導的技術
對大型語言模型輸出進行優化, 使其能夠在生成響應之前引用訓練數據來源之外的權威知識庫 -- aws
一種使用來自私有或專有數據源的信息來輔助文本生成的技術 -- elastic search
一種面向大語言模型的生成式 AI 方法, 通過將大語言模型鏈接到外部資源使生成式 AI 應用輸出更準確的回答 -- redhat
Prompt
LLM 提示詞, 是用于指導LLM生成文本的輸入, 這些提示可以是問題,陳述,指令或任何形式的文本, 目的是讓模型生成相關,連貫和有用的響應
{% for message in messages %}
{% if loop.first and messages[0]['role'] != 'system' %}
{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}
{% endif %}
{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}
{% endfor %}
{% if add_generation_prompt %}
{{ '<|im_start|>assistant\n' }}
{% endif %}"
RAG 流程
RAG 的工作流程主要包括兩個核心步驟: 數據準備和應用執行, 通過從自有數據庫檢索相關信息, 并將這些信息融入到提示中, 引導 LLM 生成高質量的回答
-
數據準備
數據準備階段是RAG(檢索增強生成)應用流程中的首個關鍵步驟,它負責將原始數據轉換為可用于檢索和生成的結構化形式。這一階段的目的是確保模型能夠有效地訪問和理解私有或定制化的數據集
-
數據提取
- 數據加載
從不同的源獲取數據,這可能包括數據庫、文檔、網頁、表格等多種格式。數據加載過程需要處理不同格式的兼容性,確保所有數據都能被統一處理
- 數據處理
對加載的數據進行清洗,包括去除無關信息(如HTML標簽、無效字符)、數據去重、錯誤修正等,以提升數據質量
- 元數據獲取
提取有助于理解和分類數據的關鍵信息,如文檔標題、作者、創建日期等,這些元數據對于索引和檢索非常有用
-
文本分割(Chunking)
- 粒度選擇
根據應用場景和LLM的輸入限制,決定文本的分割方式。常見的做法是按句子或固定長度的token(如256或512個tokens)分割,同時要確保分割后的塊能保持語義完整性
- 策略應用
可以采用基于句子的分割,保持每個句意的獨立性,或者采用固定長度分割,但需注意避免信息斷層,可以通過在切分點前后添加冗余信息來緩解語義斷裂問題
-
向量化(embedding)
- 模型選擇
根據應用場景選擇合適的嵌入模型,例如ChatGPT-Embedding、ERNIE-Embedding V1、M3E、BGE等,這些模型各有優劣,且部分模型支持微調以適應特定領域
- 向量生成
將分割好的文本塊送入選定的嵌入模型,將其轉化為高維向量。這一步驟至關重要,因為向量的質量直接影響后續的檢索效率和精度
-
持久化
- 構建索引
將生成的向量存儲到高效的向量數據庫中,如FAISS、Chromadb、Milvus等。這些數據庫通常支持快速的近似最近鄰搜索
- 優化存儲
考慮存儲方案的優化,如是否需要存儲元數據、如何組織索引以加速檢索等。某些數據庫還支持元數據過濾,允許按時間、來源等維度檢索
-
應用執行
應用執行階段是RAG(檢索增強生成)工作流程的第二部分,主要負責接收用戶輸入、執行檢索操作、整合信息并生成最終的回答
-
用戶提問
- 接收輸入
接收用戶通過聊天界面、API調用或其他形式提交的問題或指令
-
數據檢索(召回)
- 相似性檢索
利用之前構建的向量索引,計算用戶提問向量與數據庫中所有向量的相似度,通常采用余弦相似性、歐氏距離等方法。返回最相關的幾個結果TopK
- 全文檢索
在某些情況下,也可能采用關鍵詞匹配的方式,通過倒排索引快速定位相關文檔
- 混合或融合搜索
結合語義搜索與關鍵詞匹配,以獲得更全面的檢索結果
-
重排(reranking) 和過濾
- 優化檢索結果
根據元數據、相似性分數、關鍵字等因素對檢索結果進行重排,過濾掉不符合要求的條目,確保返回的信息最貼合用戶需求
-
注入 Prompt
- 整合上下文
將檢索到的相關信息整合到Prompt(提示詞)中,形成一個包含了任務描述、背景知識和用戶具體問題的綜合輸入
- 查詢轉換
在某些場景下,可能還會利用大語言模型(LLM)對原始用戶提問進行改寫或分解,生成更具體或更適合檢索的子查詢
在應用階段,我們根據用戶的提問,通過高效的檢索方法,召回與提問最相關的知識,并融入Prompt;
大模型參考當前提問和相關知識,生成相應的答案。關鍵環節包括:數據檢索、注入Prompt等。
-
LLM 生成答案
- 生成輸出
將構造好的Prompt輸入到大模型中,模型依據提供的上下文信息生成回答。這個過程融合了檢索到的知識和模型自身的生成能力,以期提供精確、全面的答案
- 多輪對話管理
在聊天場景中,還需要考慮對話的連貫性,通過查詢壓縮技術和上下文管理機制,確保模型能夠理解對話歷史,生成符合上下文邏輯的回答
-
智能決策與路由
- 查詢路由
對于復雜查詢,系統可能需要通過LLM驅動的決策步驟,判斷下一步行動,如是否需要進一步檢索、調用特定功能或直接生成答案
- 智能體集成
在一些高級應用中,智能體(Agent)會參與到流程中,利用自身的推理能力執行特定任務,如執行代碼、調用API或與其他智能體協作,以更動態、靈活的方式處理請求