協同過濾——推薦系統算法原理

0.前言

沃爾瑪超市的員工發現,到超市買紙尿褲的男人會順手買啤酒。這就是經典的【紙尿褲和啤酒】的故事,也是推薦系統比較簡潔明了的解釋。

在探討推薦算法原理之前,先說一個概念:協同過濾(Collaborative Filtering)。

協同過濾一般是在海量的用戶中發掘出一小部分和你品位比較類似的,在協同過濾中,這些用戶成為鄰居,然后根據他們喜歡的其他東西組織成一個排序的目錄作為推薦給你。

為了方便了解,舉個簡單的例子。最近新上映了10部電影,你不知道看哪一部,問你周圍的人,身邊的人中你覺得有少數幾個人跟你的觀影品味一致,然后你會傾向于選擇觀看和你觀影品味一致的人所推薦的電影,這個和你觀影品味一致的人,就成了你的“鄰居”。這就是協同過濾的核心思想。協同過濾要考慮到以下兩點:

其一,如何確定一個用戶是不是和你有相似的品位?

其二,如何將“鄰居們”的喜好組織成一個排序的目錄?

1.收集用戶偏好

在經濟學研究中,會涉及到“經濟個體偏好和效用”,經濟個體的偏好差異會影響個人資源的分配,以求達到最優效用,但對經濟個體的偏好如何收集卻沒有給出明確的答案。同理,在一個系統中,需要收集用戶的偏好,然后根據用戶的偏好計算相似度。一般可通用戶行為來判斷用戶偏好,下面是幾種常見的用戶行為:

評分:通過用戶對物品的評分,可以精確的得到用戶的偏好,如傳統的星級評分制。

投票:通過用戶對物品的投票,可以精確的得到用戶的偏好。

轉發:通過用戶對內容的轉發,可以精確的得到用戶的偏好。

評論:通過分析用戶的評論,可以得到用戶的情感:喜歡還是討厭。

點擊:用戶的點擊一定程度上反映了用戶的注意力,所以它也可以從一定程度上反映用戶的喜好。

購買:用戶的購買是很明確的說明這個項目它感興趣。

以上都是比較通用的用戶行為,我們可以給每個行為賦值,經過數據處理后,得出用戶對物品的偏好。由于對用戶行為的數據分析過程較為復雜,這里不展開討論。

2.計算相似度

當我們已經知道用戶的偏好后,可以根據用戶的喜好計算相似用戶和物品,然后基于相似用戶或物品進行推薦,計算相似度的公式很多,這里選取其中一種介紹,Cosine 相似度(Cosine Similarity):

使用五分制,小琴和小華對abcd這四種物品進行打分,小琴對abcd物品的評分為1、2、2、3,可以用向量表示:x(1,2,2,3);小華對abcd物品的評分為1、0、2、0,用向量表示:y(1,0,2,0)。把這兩個數據代入到公式中去,可得到小華和小琴的相似度為:

T(x,y)=(1*1+2*0+2*2+3*0)/9=0.56,即兩者的相似度為0.56。值越大,兩者的相似度越高。

3.推薦機制

以上知道了相似度的計算方式,就可以基于相似度為用戶進行推薦了,目前的推薦機制有兩種方式:基于用戶的CF(User CF)和基于物品的CF(Item CF):

基于用戶的CF

基于用戶的協同過濾,通過用戶對不同內容(物品)的行為,來評測用戶之間的相似性,找到“鄰居”,基于這種相似性做出推薦。這種推薦的本質是,給相似的用戶推薦其他用戶喜歡的內容,這就是我們經常看到的:和你類似的人還喜歡如下內容。下面這個列子可以說明:

需要給用戶A推薦游戲,根據用戶B和用戶C對游戲的偏好行為,給A推薦游戲,從下表可以知道,基于對游戲的偏好來講,用戶A跟用戶C的相似度比用戶跟用戶B的相似度要大,所以,系統會給用戶A推薦爐石傳說。

當然,舉的這個例子十分簡單,實際上,還需要考慮的是每個用戶物品的偏好程度,雖然用戶A和用戶C都玩過英雄聯盟,但是用戶A和用戶C對英雄聯盟的偏好程度可能不一樣,在真正的計算過程中,需要對這種偏好的程度設定一個參數,參數的大小表明用戶對物品的偏好程度的大小。根據設置或調整參數的大小,得出最后的值給用戶推薦商品,這樣的推薦計算結果會更加嚴謹。

基于物品的CF

基于物品的CF的原理和基于用戶的CF類似,只是在計算鄰居時采用物品本身,而不是從用戶的角度,即基于用戶對物品的偏好找到相似的物品,然后根據用戶的歷史偏好,推薦相似的物品給用戶。從計算的角度來看,就是將所有用戶對某個物品的偏好作為一個向量來計算物品之間的相似度,得到物品的相似物品后,根據用戶歷史的偏好預測當前用戶還沒有表示偏好的物品,計算得到一個排序的物品列表作為推薦。就是我們常見的:購買該商品的用戶還購買了如下商品,等等

就是文章開頭前的啤酒和紙尿褲的故事,因為超市的人員發現很多男人買紙尿褲的時候會買啤酒,根據這一用戶行為,紙尿褲和啤酒的相似度較高,那么在用戶購買紙尿褲的時候推薦啤酒,增加啤酒的銷量。也用相同的例子來說明:

可以從下表看出,用戶B和用戶C有一個共同的特征,即選擇了英雄聯盟也會選爐石傳說,說明這兩個游戲之間相似度會比較高,那么會當用戶A選擇了英雄聯盟,系統會把爐石傳說也推薦給他。但是同時要注意的一點,這種情況也是屬于比較理想化的一種,物品和物品之間的相似度可能不一樣,也需要調整參數,這里不進行深入的探討了。

4.User CF vs. ?Item CF

目前這兩種不同的推薦機制適用于不同的場景。不同的業務形態選擇的推薦機制肯定不一樣。對于大型電商網站來說,用戶的數量級遠遠大于spu的數量,物品相對穩定,計算物品之間的相似度并不復雜,使用Item CF會比較合適。同時從邏輯上來講,比如我在購物網站上買了一本書,不能因為我跟其他用戶相似而跟我推薦他買過或看過的,這說不過去,推薦與這本書相似度高的會比較好。

當然,在帶有社交屬性的系統中,User CF 的推薦機制會更加有效,我關注的PO主他們的行為會和我的行為(品味)相似度較高,所以基于用戶的推薦會更加有效。

這篇大致介紹了推薦機制的原理。原理搞清楚了,有關推薦系統的設計就會更加有據可依,而不是單純的一句:做一下商品的推薦機制!然后就沒有然后了。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,345評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,494評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,283評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,953評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,714評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,186評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,410評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,940評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,776評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,976評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,210評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,654評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,958評論 2 373

推薦閱讀更多精彩內容