0.前言
沃爾瑪超市的員工發現,到超市買紙尿褲的男人會順手買啤酒。這就是經典的【紙尿褲和啤酒】的故事,也是推薦系統比較簡潔明了的解釋。
在探討推薦算法原理之前,先說一個概念:協同過濾(Collaborative Filtering)。
協同過濾一般是在海量的用戶中發掘出一小部分和你品位比較類似的,在協同過濾中,這些用戶成為鄰居,然后根據他們喜歡的其他東西組織成一個排序的目錄作為推薦給你。
為了方便了解,舉個簡單的例子。最近新上映了10部電影,你不知道看哪一部,問你周圍的人,身邊的人中你覺得有少數幾個人跟你的觀影品味一致,然后你會傾向于選擇觀看和你觀影品味一致的人所推薦的電影,這個和你觀影品味一致的人,就成了你的“鄰居”。這就是協同過濾的核心思想。協同過濾要考慮到以下兩點:
其一,如何確定一個用戶是不是和你有相似的品位?
其二,如何將“鄰居們”的喜好組織成一個排序的目錄?
1.收集用戶偏好
在經濟學研究中,會涉及到“經濟個體偏好和效用”,經濟個體的偏好差異會影響個人資源的分配,以求達到最優效用,但對經濟個體的偏好如何收集卻沒有給出明確的答案。同理,在一個系統中,需要收集用戶的偏好,然后根據用戶的偏好計算相似度。一般可通用戶行為來判斷用戶偏好,下面是幾種常見的用戶行為:
評分:通過用戶對物品的評分,可以精確的得到用戶的偏好,如傳統的星級評分制。
投票:通過用戶對物品的投票,可以精確的得到用戶的偏好。
轉發:通過用戶對內容的轉發,可以精確的得到用戶的偏好。
評論:通過分析用戶的評論,可以得到用戶的情感:喜歡還是討厭。
點擊:用戶的點擊一定程度上反映了用戶的注意力,所以它也可以從一定程度上反映用戶的喜好。
購買:用戶的購買是很明確的說明這個項目它感興趣。
以上都是比較通用的用戶行為,我們可以給每個行為賦值,經過數據處理后,得出用戶對物品的偏好。由于對用戶行為的數據分析過程較為復雜,這里不展開討論。
2.計算相似度
當我們已經知道用戶的偏好后,可以根據用戶的喜好計算相似用戶和物品,然后基于相似用戶或物品進行推薦,計算相似度的公式很多,這里選取其中一種介紹,Cosine 相似度(Cosine Similarity):
使用五分制,小琴和小華對abcd這四種物品進行打分,小琴對abcd物品的評分為1、2、2、3,可以用向量表示:x(1,2,2,3);小華對abcd物品的評分為1、0、2、0,用向量表示:y(1,0,2,0)。把這兩個數據代入到公式中去,可得到小華和小琴的相似度為:
T(x,y)=(1*1+2*0+2*2+3*0)/9=0.56,即兩者的相似度為0.56。值越大,兩者的相似度越高。
3.推薦機制
以上知道了相似度的計算方式,就可以基于相似度為用戶進行推薦了,目前的推薦機制有兩種方式:基于用戶的CF(User CF)和基于物品的CF(Item CF):
基于用戶的CF
基于用戶的協同過濾,通過用戶對不同內容(物品)的行為,來評測用戶之間的相似性,找到“鄰居”,基于這種相似性做出推薦。這種推薦的本質是,給相似的用戶推薦其他用戶喜歡的內容,這就是我們經常看到的:和你類似的人還喜歡如下內容。下面這個列子可以說明:
需要給用戶A推薦游戲,根據用戶B和用戶C對游戲的偏好行為,給A推薦游戲,從下表可以知道,基于對游戲的偏好來講,用戶A跟用戶C的相似度比用戶跟用戶B的相似度要大,所以,系統會給用戶A推薦爐石傳說。
當然,舉的這個例子十分簡單,實際上,還需要考慮的是每個用戶物品的偏好程度,雖然用戶A和用戶C都玩過英雄聯盟,但是用戶A和用戶C對英雄聯盟的偏好程度可能不一樣,在真正的計算過程中,需要對這種偏好的程度設定一個參數,參數的大小表明用戶對物品的偏好程度的大小。根據設置或調整參數的大小,得出最后的值給用戶推薦商品,這樣的推薦計算結果會更加嚴謹。
基于物品的CF
基于物品的CF的原理和基于用戶的CF類似,只是在計算鄰居時采用物品本身,而不是從用戶的角度,即基于用戶對物品的偏好找到相似的物品,然后根據用戶的歷史偏好,推薦相似的物品給用戶。從計算的角度來看,就是將所有用戶對某個物品的偏好作為一個向量來計算物品之間的相似度,得到物品的相似物品后,根據用戶歷史的偏好預測當前用戶還沒有表示偏好的物品,計算得到一個排序的物品列表作為推薦。就是我們常見的:購買該商品的用戶還購買了如下商品,等等
就是文章開頭前的啤酒和紙尿褲的故事,因為超市的人員發現很多男人買紙尿褲的時候會買啤酒,根據這一用戶行為,紙尿褲和啤酒的相似度較高,那么在用戶購買紙尿褲的時候推薦啤酒,增加啤酒的銷量。也用相同的例子來說明:
可以從下表看出,用戶B和用戶C有一個共同的特征,即選擇了英雄聯盟也會選爐石傳說,說明這兩個游戲之間相似度會比較高,那么會當用戶A選擇了英雄聯盟,系統會把爐石傳說也推薦給他。但是同時要注意的一點,這種情況也是屬于比較理想化的一種,物品和物品之間的相似度可能不一樣,也需要調整參數,這里不進行深入的探討了。
4.User CF vs. ?Item CF
目前這兩種不同的推薦機制適用于不同的場景。不同的業務形態選擇的推薦機制肯定不一樣。對于大型電商網站來說,用戶的數量級遠遠大于spu的數量,物品相對穩定,計算物品之間的相似度并不復雜,使用Item CF會比較合適。同時從邏輯上來講,比如我在購物網站上買了一本書,不能因為我跟其他用戶相似而跟我推薦他買過或看過的,這說不過去,推薦與這本書相似度高的會比較好。
當然,在帶有社交屬性的系統中,User CF 的推薦機制會更加有效,我關注的PO主他們的行為會和我的行為(品味)相似度較高,所以基于用戶的推薦會更加有效。
這篇大致介紹了推薦機制的原理。原理搞清楚了,有關推薦系統的設計就會更加有據可依,而不是單純的一句:做一下商品的推薦機制!然后就沒有然后了。