[第001號]
寶石迷陣游戲.jpg
摘要
網絡搜索評估指標的設計與如何建模用戶交互過程密切相關,不同的行為模型產生不同的指標去評估搜索的性能。最重要的一個要考慮的因素是用戶何時結束一段時間的搜索, 因為這與收益和付出的評估密切相關。現存的模型通常采用一些簡化的指標去決定停止的時間點。主要有以下兩種:1. 收益上限(RR,AP);2. 付出上限(Precision@N,DCG@N)。但是在實際的搜索過程中用戶的停止指標要復雜的多,通過對一段時間的真實用戶的搜索的收益和付出的分析,我們發現結束指標與
收益和付出都相關。受到寶石迷陣游戲的啟發,我們提出了寶石迷陣玩家模型(BPM)來模擬用戶的交互過程。在BPM中,玩家通常結束在發現了充足的有用信息或者已經失去了繼續玩的耐心。基于這種假設,我們提出了一種新的框架,該框架基于收益上限和付出上限。我們會展示如何基于該框架去推導出傳統的指標像貼現累計收益(DCG),預期收益排序(ERR),評價效用(AP)。我們也會與現有的指標比較來展示該框架的有效性。
研究過程
1. 介紹
兩種評估網絡搜索的方法:
面向系統的測試
面向用戶的學習
真實用戶的行為在一段時間的交互檢索過程中。
收益與付出、現有評估指標、收益上限、付出上限、寶石迷陣游戲及啟發等介紹
研究內容:
- 介紹使用BPM模型模擬用戶搜索交互過程,解釋一段時間搜索的結束指標
- 基于BPM模型,提出一個新的統一的框架去評估網絡搜索和實例了如何從框架中導出現存的指標
- 基于收集到的數據集,對比現有的指標,展示了框架的有效性。
2. 評估框架
該評價框架主要有以下幾個組件組成:交互、收益和付出、預期收益和可忍耐付出、指標函數。
2.1 交互
2.2 收益和付出
2.3 預期收益和可忍耐付出
2.4 指標函數
只是指出是收益和付出的函數,不探討具體形式
3. 指標
3.1 基于BPM的指標
收益與付出.png
預期收益與可忍耐付出.png
第K步概率.png
image.png
指標函數.png
3.2 現有指標
示例如何從框架推導出現有的指標,以Discount Cumulative Gain(DCG——貼現累計收益)為例。
3.3 收益和付出的上限
image.png
image.png
image.png
image.png
3.3 動態預期收益(E_Benefit)和可忍耐付出(T_Cost)
image.png
image.png
image.png
image.png
image.png
4. 實驗
4.1 測試數據收集
把數據分為兩類:
- informational queries(信息性的搜索)
- navigational queries(導航性的搜索)
4.2 測試結果
5. 相關研究
6. 結論和展望
- 重申3條結論
- 當前的一些限制和展望
2.1 對于靜態和動態BPM指標,做了簡單的假設,以后會探索更復雜的情況。
2.2 測試數據基于實驗性的用戶學習,未來使用真實的用戶日志數據分析。
2.3 只分析了框架與用戶滿意度相關的有效性,用戶的不滿意度也是信息檢索的一個方面。
學習心得
心得體會