本篇的思維導圖如下:
1、用戶行為數據
用戶行為數據在網站上最簡單的存在形式就是日志,比如用戶在電子商務網站中的網頁瀏覽、購買、點擊、評分和評論等活動。
用戶行為在個性化推薦系統中一般分兩種——顯性反饋行為(explicit feedback)和隱性反饋 行為(implicit feedback)。顯性反饋行為包括用戶明確表示對物品喜好的行為。網站中收集顯性反饋的主要方式就是評分和喜歡/不喜歡。隱性反饋行為指的是那些不能明確反應用戶喜好 的行為。最具代表性的隱性反饋行為就是頁面瀏覽行為。
按照反饋的明確性分,用戶行為數據可以分為顯性反饋和隱性反饋,但按照反饋的方向分, 又可以分為正反饋和負反饋。正反饋指用戶的行為傾向于指用戶喜歡該物品,而負反饋指用戶的 行為傾向于指用戶不喜歡該物品。在顯性反饋中,很容易區分一個用戶行為是正反饋還是負反饋, 而在隱性反饋行為中,就相對比較難以確定。
2、用戶行為分析
在利用用戶行為數據設計推薦算法之前,研究人員首先需要對用戶行為數據進行分析,了解 數據中蘊含的一般規律,這樣才能對算法的設計起到指導作用。
2.1 用戶活躍度和物品流行度
很多關于互聯網數據的研究發現,互聯網上的很多數據分布都滿足一種稱為Power Law3的分布,這個分布在互聯網領域也稱長尾分布。
如果定義物品的流行度K為被K個用戶產生過行為,而用戶的活躍度K定義為對K個物品產生過行為,那么二者的分布大概如下圖所示(橫軸代表物品的流行度/用戶的活躍度,縱軸代表物品數/用戶數):
可以看到,不管是物品的流行度還是用戶的活躍度,都近似于長尾分布。
2.2 用戶活躍度和物品流行度的關系
一般認為,新用戶傾向于瀏覽熱門的物品,因為他 們對網站還不熟悉,只能點擊首頁的熱門物品,而老用戶會逐漸開始瀏覽冷門的物品。如果用橫坐標表示用戶活躍度,縱坐標表示具有某個活躍度的所有用戶評過分的物品的平均流行度。圖中曲線呈明顯下 降的趨勢,這表明用戶越活躍,越傾向于瀏覽冷門的物品。
僅僅基于用戶行為數據設計的推薦算法一般稱為協同過濾算法。學術界對協同過濾算法進行了深入研究,提出了很多方法,比如基于鄰域的方法(neighborhood-based)、隱語義模型 (latent factor model)、基于圖的隨機游走算法(random walk on graph)等。在這些方法中, 最著名的、在業界得到最廣泛應用的算法是基于鄰域的方法,而基于鄰域的方法主要包含下
面兩種算法。
1、基于用戶的協同過濾算法:這種算法給用戶推薦和他興趣相似的其他用戶喜歡的物品。
2、? 基于物品的協同過濾算法: 這種算法給用戶推薦和他之前喜歡的物品相似的物品。
3、基于鄰域的算法
基于鄰域的算法是推薦系統中最基本的算法,該算法不僅在學術界得到了深入研究,而且在 業界得到了廣泛應用。基于鄰域的算法分為兩大類,一類是基于用戶的協同過濾算法,另一類是 基于物品的協同過濾算法。現在我們所說的協同過濾,基本上就就是指基于用戶或者是基于物品的協同過濾算法,因此,我們可以說基于鄰域的算法即是我們常說的協同過濾算法。
3.1 基于用戶的協同過濾算法(UserCF)
基于用戶的協同過濾算法的基本思想是:在一個在線個性化推薦系統中,當一個用戶A需要個性化推薦 時,可以先找到和他有相似興趣的其他用戶,然后把那些用戶喜歡的、而用戶A沒有聽說過的物品推薦給A。
從上面的描述中可以看到,基于用戶的協同過濾算法主要包括兩個步驟。
(1) 找到和目標用戶興趣相似的用戶集合。
(2) 找到這個集合中的用戶喜歡的,且目標用戶沒有聽說過的物品推薦給目標用戶。
這里,步驟1的關鍵是計算兩個用戶的興趣相似度,協同過濾算法主要利用行為的相似度計算興趣的相似度。給定用戶u和用戶v,令N(u)表示用戶u曾經有過正反饋的物品集合,令N(v) 為用戶v曾經有過正反饋的物品集合。那么我們可以通過以下兩種方法計算用戶的相似度:
余弦相似度為什么是上面這種寫法呢,因為這里,我們并不是用的用戶對物品的評分,而是用的0-1表示,所以對兩個集合做交集,相當于進行了點乘。如果我們的矩陣是用戶對物品的評分,那么計算余弦相似度的時候可以利用用戶的具體評分而不是0-1值。
如果簡單的基于余弦相似度,顯得過于粗糙,以圖書為例,如果兩個用戶都曾經買過《新華字典》,這絲毫不能說明他們興趣相似, 因為絕大多數中國人小時候都買過《新華字典》。但如果兩個用戶都買過《數據挖掘導論》,那可 以認為他們的興趣比較相似,因為只有研究數據挖掘的人才會買這本書。換句話說,兩個用戶對冷門物品采取過同樣的行為更能說明他們興趣的相似度,因此,我們可以基于物品的流行度對熱門物品進行一定的懲罰:
得到用戶之間的興趣相似度后,UserCF算法會給用戶推薦和他興趣最相似的K個用戶喜歡的 物品。如下的公式度量了UserCF算法中用戶u對物品i的感興趣程度:
其中,S(u, K)包含和用戶u興趣最接近的K個用戶,N(i)是對物品i有過行為的用戶集合,wuv 是用戶u和用戶v的興趣相似度,rvi代表用戶v對物品i的興趣.
3.2 基于物品的協同過濾算法(ItemCF)
UserCF在一些網站(如Digg)中得到了應用,但該算法有一些缺點。首先, 隨著網站的用戶數目越來越大,計算用戶興趣相似度矩陣將越來越困難,其運算時間復雜度和空間復雜度的增長和用戶數的增長近似于平方關系。其次,基于用戶的協同過濾很難對推薦結果作出解釋。因此,著名的電子商務公司亞馬遜提出了另一個算法——基于物品的協同過濾算法。
基于物品的協同過濾算法(簡稱ItemCF)給用戶推薦那些和他們之前喜歡的物品相似的物品。 比如,該算法會因為你購買過《數據挖掘導論》而給你推薦《機器學習》。不過,ItemCF算法并不利用物品的內容屬性計算物品之間的相似度,它主要通過分析用戶的行為記錄計算物品之間的相似度。該算法認為,物品A和物品B具有很大的相似度是因為喜歡物品A的用戶大都也喜歡物品 B。
基于物品的協同過濾算法主要分為兩步。
(1) 計算物品之間的相似度。
(2) 根據物品的相似度和用戶的歷史行為給用戶生成推薦列表。
ItemCF的第一步是計算物品之間的相似度,在網站中,我們經常看到這么一句話:Customers Who Bought This Item Also Bought,那么從這句話的定義出發,我們可以用下面的公式定義物品相似度:
這里,分母|N(i)|是喜歡物品i的用戶數,而分子 N(i)?N(j) 是同時喜歡物品i和物品j的用戶 數。因此,上述公式可以理解為喜歡物品i的用戶中有多少比例的用戶也喜歡物品j。但是卻存在一個問題。如果物品j很熱門,很多人都喜歡,
那么Wij就會很大,接近1。因此,該公式會造成任何物品都會和熱門的物品有很大的相似度,這 對于致力于挖掘長尾信息的推薦系統來說顯然不是一個好的特性。為了避免推薦出熱門的物品,可以用下面的公式:
這里由于還是0-1的原因,我們的余弦相似度可以寫成上面的形式。但是,是不是每個用戶的貢獻都相同呢? 假設有這么一個用戶,他是開書店的,并且買了當當網上80%的書準備用來自己賣。那么, 他的購物車里包含當當網80%的書。假設當當網有100萬本書,也就是說他買了80萬本。從前面 對ItemCF的討論可以看到,這意味著因為存在這么一個用戶,有80萬本書兩兩之間就產生了相似度。這個用戶雖然活躍,但是買這些書并非都是出于自身的興趣,而且這些書覆 蓋了當當網圖書的很多領域,所以這個用戶對于他所購買書的兩兩相似度的貢獻應該遠遠小于一個只買了十幾本自己喜歡的書的文學青年。因此,我們要對這樣的用戶進行一定的懲罰,John S. Breese在論文1中提出了一個稱為IUF(Inverse User Frequence),即用戶活躍度對數的 倒數的參數,他也認為活躍用戶對物品相似度的貢獻應該小于不活躍的用戶,他提出應該增加IUF參數來修正物品相似度的計算公式:
在得到物品之間的相似度后,ItemCF通過如下公式計算用戶u對一個物品j的興趣:
這里N(u)是用戶喜歡的物品的集合,S(j,K)是和物品j最相似的K個物品的集合,wji是物品j和i 的相似度,rui是用戶u對物品i的興趣。
3.3 UserCF和ItemCF的比較
首先我們提出一個問題,為什么新聞網站一般使用UserCF,而圖書、電商網站一般使用ItemCF呢?
首先回顧一下UserCF算法和ItemCF算法的推薦原理。UserCF給用戶推薦那些和他有共同興 趣愛好的用戶喜歡的物品,而ItemCF給用戶推薦那些和他之前喜歡的物品類似的物品。從這個算 法的原理可以看到,UserCF的推薦結果著重于反映和用戶興趣相似的小群體的熱點,而ItemCF 的推薦結果著重于維系用戶的歷史興趣。換句話說,UserCF的推薦更社會化,反映了用戶所在的小型興趣群體中物品的熱門程度,而ItemCF的推薦更加個性化,反映了用戶自己的興趣傳承。
在新聞網站中,用戶的興趣不是特別細化,絕大多數用戶都喜歡看熱門的新聞。個性化新聞推薦更加強調抓住 新聞熱點,熱門程度和時效性是個性化新聞推薦的重點,而個性化相對于這兩點略顯次要。因 此,UserCF可以給用戶推薦和他有相似愛好的一群其他用戶今天都在看的新聞,這樣在抓住熱 點和時效性的同時,保證了一定程度的個性化。同時,在新聞網站中,物品的更新速度遠遠快于新用戶的加入速度,而且 對于新用戶,完全可以給他推薦最熱門的新聞,因此UserCF顯然是利大于弊。
但是,在圖書、電子商務和電影網站,比如亞馬遜、豆瓣、Netflix中,ItemCF則能極大地發 揮優勢。首先,在這些網站中,用戶的興趣是比較固定和持久的。一個技術人員可能都是在購買 技術方面的書,而且他們對書的熱門程度并不是那么敏感,事實上越是資深的技術人員,他們看 的書就越可能不熱門。此外,這些系統中的用戶大都不太需要流行度來輔助他們判斷一個物品的 好壞,而是可以通過自己熟悉領域的知識自己判斷物品的質量。因此,這些網站中個性化推薦的 任務是幫助用戶發現和他研究領域相關的物品。因此,ItemCF算法成為了這些網站的首選算法。 此外,這些網站的物品更新速度不會特別快,一天一次更新物品相似度矩陣對它們來說不會造成 太大的損失,是可以接受的。同時,從技術上考慮,UserCF需要維護一個用戶相似度的矩陣,而ItemCF需要維護一個物品 相似度矩陣。從存儲的角度說,如果用戶很多,那么維護用戶興趣相似度矩陣需要很大的空間, 同理,如果物品很多,那么維護物品相似度矩陣代價較大。
下表是對二者的一個全面的比較:
4、隱語義模型
隱語義模型是最近幾年推薦系統領域最為熱門的研究話題,它的核心思想是通過隱含特征 (latent factor)聯系用戶興趣和物品。
使用隱語義模型的基本思路是:對于某個用戶,首先得到他的興趣分類,然后從分類中挑選他可能喜歡的物品。那么這個方法大概需要解決三個問題:
1、? 如何給物品進行分類?
2、? 如何確定用戶對哪些類的物品感興趣,以及感興趣的程度?
3、? 對于一個給定的類,選擇哪些屬于這個類的物品推薦給用戶,以及如何確定這些物品在一個類中的權重?
隱含語義分析技術從誕生到今天產生了很多著名的模型和方法,其中和該技術相關且耳熟能 詳的名詞有pLSA、LDA、隱含類別模型(latent class model)、隱含主題模型(latent topic model)、 矩陣分解(matrix factorization)。這些技術和方法在本質上是相通的,其中很多方法都可以用于 個性化推薦系統。我們將以LFM為例介紹隱含語義分析技術在推薦系統中的應用。
LFM通過如下公式計算用戶u對物品i的興趣:
這個公式中 pu,k 和 qi,k 是模型的參數,其中 pu,k 度量了用戶u的興趣和第k個隱類的關系,而 qi,k 度量了第k個隱類和物品i之間的關系。那么,下面的問題就是如何計算這兩個參數。
對最優化理論或者機器學習有所了解的讀者,可能對如何計算這兩個參數都比較清楚。這兩 個參數是從數據集中計算出來的。要計算這兩個參數,需要一個訓練集,對于每個用戶u,訓練 集里都包含了用戶u喜歡的物品和不感興趣的物品,通過學習這個數據集,就可以獲得上面的模型參數。我們可以通過最小化下面的損失函數來得到最合適的p和q:
上面的式子中,后面的兩項是為了防止過擬合的正則化項,求解上面的式子可以使用隨機梯度下降來得到,這里就不再贅述。
LFM模型在實際使用中有一個困難,那就是它很難實現實時的推薦。經典的LFM模型 每次訓練時都需要掃描所有的用戶行為記錄,這樣才能計算出用戶隱類向量(pu)和物品隱類向 量(qi)。而且LFM的訓練需要在用戶行為記錄上反復迭代才能獲得比較好的性能。
5、基于圖的模型
用戶行為很容易用二分圖表示,因此很多圖的算法都可以用到推薦系統中。
令G(V,E)表示用戶物品二分圖,其中V ?VU ?VI 由用戶頂點集合VU 和物品頂點集合VI 組成。對于數據集中每一個二元組(u, i),圖中都有一套對應的邊 e(vu ,vi ) ,其中 vu∈?VU 是用戶u 對應的頂點∈vi ?VI 是物品i對應的頂點。下圖是一個簡單的用戶物品二分圖模型,其中圓形節 3 點代表用戶,方形節點代表物品,圓形節點和方形節點之間的邊代表用戶對物品的行為。比如圖 中用戶節點A和物品節點a、b、d相連,說明用戶A對物品a、b、d產生過行為。
在得到二分圖之后,推薦的任務就變為度量用戶頂點 vu和與vu沒有邊直接相連的物品節點在圖上的相關性,相關性越高的物品在推薦列表中的權重就越高。圖中兩個頂點的相關性主要取決于下面三個因素:
1、? 兩個頂點之間的路徑數;
2、 兩個頂點之間路徑的長度;
3、? 兩個頂點之間的路徑經過的頂點。
而相關性高的一對頂點一般具有如下特征:
1、? 兩個頂點之間有很多路徑相連;
2、? 連接兩個頂點之間的路徑長度都比較短;
3、? 連接兩個頂點之間的路徑不會經過出度比較大的頂點。
基于上面3個主要因素,本節介紹的是一種基于隨機游走的PersonalRank算法:假設要給用戶u進行個性化推薦,可以從用戶u對應的節點vu開始在用戶物品二分圖上進行隨 機游走。游走到任何一個節點時,首先按照概率α決定是繼續游走,還是停止這次游走并從vu節 點開始重新游走。如果決定繼續游走,那么就從當前節點指向的節點中按照均勻分布隨機選擇一 個節點作為游走下次經過的節點。這樣,經過很多次隨機游走后,每個物品節點被訪問到的概率 會收斂到一個數。最終的推薦列表中物品的權重就是物品節點的訪問概率。如果將上面的描述表示成公式,可以得到如下公式: