LangChain組件(二) - RAG

Documents

LangChain中的Document對象，還是非常重要的，因為在RAG的時候，我們需要從自己的知識庫中檢索。文檔對象一般也是和Embedding、Retrievers結合在一起使用。

Document object有兩個attributes：

page_content: str：內容是string類型
metadata: dict：對于這個document的描述，一般有document id，file name等

Document loaders

這里面包含了一系列的classes，LangChain集成了各種數據源，用于load數據。
每個DocumentLoader，都有具體的parameters，不過都需要通過.load方法進行加載。

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
    ...  # <-- Integration specific parameters here
)
data = loader.load()

輸出類似：

[Document(page_content='\ufeff所屬小區: 海爾公館\n戶型: 3室2廳\n面積: 88.0\n樓層: 28.0\n建造年限: 2016.0\n總價: 115.0\n單價: 13068.0\n房屋朝向: 南北\n裝修程度: 精裝修\n配套電梯: 有\n容積率: 2.5\n綠化率: 0.4\n物業費: 1.4\n距垃圾站距離（km）: 1.8\n周圍公交線路(0.5km): 4.0\n周圍學校數量(1km): 5.0\n距地鐵站距離(km): 0.7\n距商圈距離(km): 6.6\n距公園距離(km): 1.1\n中介對房子安全性打分: 5.0\n中介對房子舒適性打分: 3.5\n中介對房子性價比打分: 5.0\n中介對房子地段打分: 4.0\n中介對房子未來增值打分: 5.0\n中介對房子環境打分: 5.0\n中介對房子物業服務打分: 5.0', metadata={'source': '/Users/matrix/Downloads/house_price_predict.csv', 'row': 1366}),
Document(page_content='\ufeff所屬小區: 海洲景秀世家(三期)\n戶型: 4室2廳\n面積: 141.0\n樓層: 11.0\n建造年限: 2013.0\n總價: 166.0\n單價: 11719.0\n房屋朝向: 南北\n裝修程度: 毛坯\n配套電梯: 有\n容積率: 1.38\n綠化率: 0.38\n物業費: 1.0\n距垃圾站距離（km）: 2.4\n周圍公交線路(0.5km): 6.0\n周圍學校數量(1km): 5.0\n距地鐵站距離(km): 1.3\n距商圈距離(km): 6.6\n距公園距離(km): 0.65\n中介對房子安全性打分: 2.67\n中介對房子舒適性打分: 2.0\n中介對房子性價比打分: 3.0\n中介對房子地段打分: 2.5\n中介對房子未來增值打分: 3.0\n中介對房子環境打分: 4.0\n中介對房子物業服務打分: 3.25', metadata={'source': '/Users/matrix/Downloads/house_price_predict.csv', 'row': 1490})]

后面還會涉及到 PDF、Word 等文檔的加載。

Text splitters

文檔加載后，需要將long document，切成小的chunks。為什么要切割呢？這是因為檢索的時候，模型一方面不能處理太長的文本；另外一方面，文本太長檢索效果會變差，對于后處理的要求會更高。

LangChain建議一些內置的文檔轉換器，用于做split、combine、filter，還包括了其它一些操作文檔的功能。

text splitter，一般會分為三步：

將text切分為小的，語義相關的small chunks（通常按照sentences）
將上面步驟中的這些small chunks進行合并，形成larger chunk（當達到某個size會停止merge）
當達到了這個size，構建的chunk就作為獨立的一個text了，繼續創建一些新的chunk（具有上下兩個chunk的context），也就是說有overlap

有些參數控制這個text splitter：

text 如何切分
chunk size如何衡量

Embedding models

Embeddings class，用于對text進行embedding，LangChain里面封裝了很多的接口（OpenAI，Hugging Face等）。

Embeddings將text表示為向量空間，這樣利于我們進行semantic search。

Embeddings class提供了兩個方法：

embedding documents：接受多個texts
embedding query：接受單個text

看到會很奇怪，為什么不用一個方法（method）解決，這是因為他們可能用不同的embedding方式。

Vector stores

vector store會將embedded的數據進行存儲，并且也會提供vector search。

Retrievers

它主要是進行檢索，接受string query作為input，返回Documents作為輸出。

最后編輯于：2024.06.06 09:39:31

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,501評論 6贊 544
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,673評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,610評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,939評論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,668評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,004評論 1贊 329
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,001評論 3贊 449
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,173評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,705評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,426評論 3贊 359
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,656評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,139評論 5贊 364
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,833評論 3贊 350
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,247評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,580評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,371評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,621評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

LangChain組件(二) - RAG

LangChain組件(二) - RAG

Documents

Document loaders

Text splitters

Embedding models

Vector stores

Retrievers

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

LangChain組件(二) - RAG

Documents

Document loaders

Text splitters

Embedding models

Vector stores

Retrievers

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频