經(jīng)典檢索算法：BM25原理

image.png

bm25 是什么？

bm25 是一種用來評價搜索詞和文檔之間相關(guān)性的算法，它是一種基于概率檢索模型提出的算法，再用簡單的話來描述下bm25算法：我們有一個query和一批文檔Ds，現(xiàn)在要計算query和每篇文檔D之間的相關(guān)性分數(shù)，我們的做法是，先對query進行切分，得到單詞$q_i$，然后單詞的分數(shù)由3部分組成：

單詞$q_i$和D之間的相關(guān)性
單詞$q_i$和D之間的相關(guān)性
每個單詞的權(quán)重

最后對于每個單詞的分數(shù)我們做一個求和，就得到了query和文檔之間的分數(shù)。

bm25 解釋

講bm25之前，我們要先介紹一些概念。

二值獨立模型 BIM

BIM(binary independence model)是為了對文檔和query相關(guān)性評價而提出的算法，BIM為了計算$P(R|d,q)$，引入了兩個基本假設(shè)：

假設(shè)1
一篇文章在由特征表示的時候，只考慮詞出現(xiàn)或者不出現(xiàn)，具體來說就是文檔d在表示為向量$\vec x=(x_1,x_2,...,x_n)$，其中當(dāng)詞$t$出現(xiàn)在文檔d時，$x_t=1$，否在$x_t=0$。
假設(shè)2
文檔中詞的出現(xiàn)與否是彼此獨立的，數(shù)學(xué)上描述就是$P(D)=\sum_{i=0}^n P(x_i)$
有了這兩個假設(shè)，我們來對文檔和query相關(guān)性建模：

其中

分別表示當(dāng)返回一篇相關(guān)或不相關(guān)文檔時文檔表示為x的概率。

接著因為我們最終得到的是一個排序，所以，我們通過計算文檔和query相關(guān)和不相關(guān)的比率，也可得文檔的排序，有下面的公式：

其中

是常數(shù)，我們可以不考慮，再根據(jù)之前的假設(shè)2：一個詞的出現(xiàn) 與否與任意一個其他詞的出現(xiàn)與否是互相獨立的，我們可以化簡上面的式子：

由于每個 xt 的取值要么為 0 要么為 1，所以，我們可得到：

我們接著引入一些記號：

：詞出現(xiàn)在相關(guān)文檔的概率

：詞出現(xiàn)在不相關(guān)文檔的概率

于是我們就可得到：

我們接著做下面的等價變換：

此時，公式中

根據(jù)出現(xiàn)在文檔中的詞計算，

則是所有詞做計算，不需要考慮，此時我們定義RSV （retrieval status value），檢索狀態(tài)值：

定義單個詞的ct

下一步我們要解決的就是怎么去估計pt和ut，看下表：

其中dft是包含詞t的文檔總數(shù)，于是

，
此時詞t的ct值是：

為了做平滑處理，我們都加上1/2，得到：

在實際中，我們很難知道t的相關(guān)文檔有多少，所以假設(shè)S=s=0，所以：

其中N是總的文檔數(shù)，dft是包含t的文檔數(shù)。

以上就是BIM的主要思想，后來人們發(fā)現(xiàn)應(yīng)該講BIM中沒有考慮到的詞頻和文檔長度等因素都考慮進來，就有了后面的BM25算法，下面按照

單詞t和D之間的相關(guān)性
單詞t和D之間的相關(guān)性
每個單詞的權(quán)重

3個部分來介紹bm25算法。

單詞權(quán)重

單詞的權(quán)重最簡單的就是用idf值，即

，也就是有多少文檔包含某個單詞信息進行變換。如果在這里使用 IDF 的話，那么整個 BM25 就可以看作是一個某種意義下的 TF-IDF，只不過 TF 的部分是一個復(fù)雜的基于文檔和查詢關(guān)鍵字、有兩個部分的詞頻函數(shù)，還有一個就是用上面得到的ct值。

單詞和文檔的相關(guān)性

tf-idf中，這個信息直接就用“詞頻”，如果出現(xiàn)的次數(shù)比較多，一般就認為更相關(guān)。但是BM25洞察到：詞頻和相關(guān)性之間的關(guān)系是非線性的，具體來說，每一個詞對于文檔相關(guān)性的分數(shù)不會超過一個特定的閾值，當(dāng)詞出現(xiàn)的次數(shù)達到一個閾值后，其影響不再線性增長，而這個閾值會跟文檔本身有關(guān)。

在具體操作上，我們對于詞頻做了”標(biāo)準化處理“，具體公式如下：

其中，tftd 是詞項 t 在文檔 d 中的權(quán)重，Ld 和 Lave 分別是文檔 d 的長度及整個文檔集中文檔的平均長度。k1是一個取正值的調(diào)優(yōu)參數(shù)，用于對文檔中的詞項頻率進行縮放控制。如果 k 1 取 0，則相當(dāng)于不考慮詞頻，如果 k 1取較大的值，那么對應(yīng)于使用原始詞項頻率。b 是另外一個調(diào)節(jié)參數(shù) （0≤ b≤ 1），決定文檔長度的縮放程度：b = 1 表示基于文檔長度對詞項權(quán)重進行完全的縮放，b = 0 表示歸一化時不考慮文檔長度因素。

單詞和查詢的相關(guān)性

如果查詢很長，那么對于查詢詞項也可以采用類似的權(quán)重計算方法。

其中，tftq是詞項t在查詢q中的權(quán)重。這里k3 是另一個取正值的調(diào)優(yōu)參數(shù)，用于對查詢中的詞項tq 頻率進行縮放控制。

于是最后的公式是：

bm25 gensim中的實現(xiàn)

gensim在實現(xiàn)bm25的時候idf值是通過BIM公式計算得到的：

然后也沒有考慮單詞和query的相關(guān)性。

其中幾個關(guān)鍵參數(shù)取值：

PARAM_K1 = 1.5
PARAM_B = 0.75
EPSILON = 0.25

此處EPSILON是用來表示出現(xiàn)負值的時候怎么獲取idf值的。

總結(jié)下本文的內(nèi)容：BM25是檢索領(lǐng)域里最基本的一個技術(shù)，BM25 由三個核心的概念組成，包括詞在文檔中相關(guān)度、詞在查詢關(guān)鍵字中的相關(guān)度以及詞的權(quán)重。BM25里的一些參數(shù)是經(jīng)驗總結(jié)得到的，后面我會繼續(xù)介紹BM25的變種以及和其他文檔信息（非文字）結(jié)合起來的應(yīng)用。

參考

BM25 算法淺析

搜索之 BM25 和 BM25F 模型

經(jīng)典搜索核心算法：BM25 及其變種

信息檢索導(dǎo)論

最后編輯于：2017.12.06 15:04:06

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,247評論 6贊 543
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,520評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,362評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,805評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點故事閱讀 72,541評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,896評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,887評論 3贊 447
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 43,062評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,608評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 41,356評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,555評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,077評論 5贊 364
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,769評論 3贊 349
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,175評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,489評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,289評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 48,516評論 2贊 379

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

經(jīng)典檢索算法：BM25原理

經(jīng)典檢索算法：BM25原理

bm25 是什么？

bm25 解釋

二值獨立模型 BIM

單詞權(quán)重

單詞和文檔的相關(guān)性

單詞和查詢的相關(guān)性

bm25 gensim中的實現(xiàn)

參考

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

經(jīng)典檢索算法：BM25原理

bm25 是什么？

bm25 解釋

二值獨立模型 BIM

單詞權(quán)重

單詞和文檔的相關(guān)性

單詞和查詢的相關(guān)性

bm25 gensim中的實現(xiàn)

參考

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频