經(jīng)典檢索算法:BM25原理

image.png

本文cmd地址:經(jīng)典檢索算法:BM25原理

bm25 是什么?

bm25 是一種用來評價搜索詞和文檔之間相關(guān)性的算法,它是一種基于概率檢索模型提出的算法,再用簡單的話來描述下bm25算法:我們有一個query和一批文檔Ds,現(xiàn)在要計算query和每篇文檔D之間的相關(guān)性分數(shù),我們的做法是,先對query進行切分,得到單詞$q_i$,然后單詞的分數(shù)由3部分組成:

  • 單詞$q_i$和D之間的相關(guān)性
  • 單詞$q_i$和D之間的相關(guān)性
  • 每個單詞的權(quán)重

最后對于每個單詞的分數(shù)我們做一個求和,就得到了query和文檔之間的分數(shù)。

bm25 解釋

講bm25之前,我們要先介紹一些概念。

二值獨立模型 BIM

BIM(binary independence model)是為了對文檔和query相關(guān)性評價而提出的算法,BIM為了計算$P(R|d,q)$,引入了兩個基本假設(shè):

假設(shè)1
一篇文章在由特征表示的時候,只考慮詞出現(xiàn)或者不出現(xiàn),具體來說就是文檔d在表示為向量$\vec x=(x_1,x_2,...,x_n)$,其中當(dāng)詞$t$出現(xiàn)在文檔d時,$x_t=1$,否在$x_t=0$。
假設(shè)2
文檔中詞的出現(xiàn)與否是彼此獨立的,數(shù)學(xué)上描述就是$P(D)=\sum_{i=0}^n P(x_i)$
有了這兩個假設(shè),我們來對文檔和query相關(guān)性建模:


其中
分別表示當(dāng)返回一篇相關(guān)或不相關(guān)文檔時文檔表示為x的概率。

接著因為我們最終得到的是一個排序,所以,我們通過計算文檔和query相關(guān)和不相關(guān)的比率,也可得文檔的排序,有下面的公式:



其中
是常數(shù),我們可以不考慮,再根據(jù)之前的假設(shè)2:一個詞的出現(xiàn) 與否與任意一個其他詞的出現(xiàn)與否是互相獨立的,我們可以化簡上面的式子:

由于每個 xt 的取值要么為 0 要么為 1,所以,我們可得到:



我們接著引入一些記號:
:詞出現(xiàn)在相關(guān)文檔的概率
:詞出現(xiàn)在不相關(guān)文檔的概率

于是我們就可得到:


我們接著做下面的等價變換:




此時,公式中
根據(jù)出現(xiàn)在文檔中的詞計算,
則是所有詞做計算,不需要考慮,此時我們定義RSV (retrieval status value),檢索狀態(tài)值:

定義單個詞的ct

下一步我們要解決的就是怎么去估計pt和ut,看下表:

其中dft是包含詞t的文檔總數(shù),于是

此時詞t的ct值是:

為了做平滑處理,我們都加上1/2,得到:

在實際中,我們很難知道t的相關(guān)文檔有多少,所以假設(shè)S=s=0,所以:

其中N是總的文檔數(shù),dft是包含t的文檔數(shù)。

以上就是BIM的主要思想,后來人們發(fā)現(xiàn)應(yīng)該講BIM中沒有考慮到的詞頻和文檔長度等因素都考慮進來,就有了后面的BM25算法,下面按照

  • 單詞t和D之間的相關(guān)性
  • 單詞t和D之間的相關(guān)性
  • 每個單詞的權(quán)重

3個部分來介紹bm25算法。

單詞權(quán)重

單詞的權(quán)重最簡單的就是用idf值,即

,也就是有多少文檔包含某個單詞信息進行變換。如果在這里使用 IDF 的話,那么整個 BM25 就可以看作是一個某種意義下的 TF-IDF,只不過 TF 的部分是一個復(fù)雜的基于文檔和查詢關(guān)鍵字、有兩個部分的詞頻函數(shù),還有一個就是用上面得到的ct值。

單詞和文檔的相關(guān)性

tf-idf中,這個信息直接就用“詞頻”,如果出現(xiàn)的次數(shù)比較多,一般就認為更相關(guān)。但是BM25洞察到:詞頻和相關(guān)性之間的關(guān)系是非線性的,具體來說,每一個詞對于文檔相關(guān)性的分數(shù)不會超過一個特定的閾值,當(dāng)詞出現(xiàn)的次數(shù)達到一個閾值后,其影響不再線性增長,而這個閾值會跟文檔本身有關(guān)。

在具體操作上,我們對于詞頻做了”標(biāo)準化處理“,具體公式如下:



其中,tftd 是詞項 t 在文檔 d 中的權(quán)重,Ld 和 Lave 分別是文檔 d 的長度及整個文檔集中文檔的平均長度。k1是一個取正值的調(diào)優(yōu)參數(shù),用于對文檔中的詞項頻率進行縮放控制。如果 k 1 取 0,則相當(dāng)于不考慮詞頻,如果 k 1取較大的值,那么對應(yīng)于使用原始詞項頻率。b 是另外一個調(diào)節(jié)參數(shù) (0≤ b≤ 1),決定文檔長度的縮放程度:b = 1 表示基于文檔長度對詞項權(quán)重進行完全的縮放,b = 0 表示歸一化時不考慮文檔長度因素。

單詞和查詢的相關(guān)性

如果查詢很長,那么對于查詢詞項也可以采用類似的權(quán)重計算方法。



其中,tftq是詞項t在查詢q中的權(quán)重。這里k3 是另一個取正值的調(diào)優(yōu)參數(shù),用于對查詢中的詞項tq 頻率進行縮放控制。

于是最后的公式是:


bm25 gensim中的實現(xiàn)

gensim在實現(xiàn)bm25的時候idf值是通過BIM公式計算得到的:



然后也沒有考慮單詞和query的相關(guān)性。



其中幾個關(guān)鍵參數(shù)取值:
PARAM_K1 = 1.5
PARAM_B = 0.75
EPSILON = 0.25

此處EPSILON是用來表示出現(xiàn)負值的時候怎么獲取idf值的。

總結(jié)下本文的內(nèi)容:BM25是檢索領(lǐng)域里最基本的一個技術(shù),BM25 由三個核心的概念組成,包括詞在文檔中相關(guān)度、詞在查詢關(guān)鍵字中的相關(guān)度以及詞的權(quán)重。BM25里的一些參數(shù)是經(jīng)驗總結(jié)得到的,后面我會繼續(xù)介紹BM25的變種以及和其他文檔信息(非文字)結(jié)合起來的應(yīng)用。

參考

BM25 算法淺析

搜索之 BM25 和 BM25F 模型

經(jīng)典搜索核心算法:BM25 及其變種

信息檢索導(dǎo)論

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,247評論 6 543
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,520評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,362評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,805評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 72,541評論 6 412
  • 開封第一講書人閱讀 55,896評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,887評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,062評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,608評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,356評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,555評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,077評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,769評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,175評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,489評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,289評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 48,516評論 2 379

推薦閱讀更多精彩內(nèi)容