1、用戶行為數據

用戶行為數據在網站上最簡單的存在形式就是日志，比如用戶在電子商務網站中的網頁瀏覽、購買、點擊、評分和評論等活動。
用戶行為在個性化推薦系統中一般分兩種——顯性反饋行為(explicit feedback)和隱性反饋行為(implicit feedback)。顯性反饋行為包括用戶明確表示對物品喜好的行為。網站中收集顯性反饋的主要方式就是評分和喜歡/不喜歡。隱性反饋行為指的是那些不能明確反應用戶喜好的行為。最具代表性的隱性反饋行為就是頁面瀏覽行為。
按照反饋的明確性分，用戶行為數據可以分為顯性反饋和隱性反饋，但按照反饋的方向分，又可以分為正反饋和負反饋。正反饋指用戶的行為傾向于指用戶喜歡該物品，而負反饋指用戶的行為傾向于指用戶不喜歡該物品。在顯性反饋中，很容易區分一個用戶行為是正反饋還是負反饋，而在隱性反饋行為中，就相對比較難以確定。

2、用戶行為分析

在利用用戶行為數據設計推薦算法之前，研究人員首先需要對用戶行為數據進行分析，了解數據中蘊含的一般規律，這樣才能對算法的設計起到指導作用。

2.1 用戶活躍度和物品流行度

很多關于互聯網數據的研究發現，互聯網上的很多數據分布都滿足一種稱為Power Law3的分布，這個分布在互聯網領域也稱長尾分布。

如果定義物品的流行度K為被K個用戶產生過行為，而用戶的活躍度K定義為對K個物品產生過行為，那么二者的分布大概如下圖所示(橫軸代表物品的流行度／用戶的活躍度，縱軸代表物品數／用戶數）：

物品流行度長尾分布

用戶活躍度長尾分布

可以看到，不管是物品的流行度還是用戶的活躍度，都近似于長尾分布。

2.2 用戶活躍度和物品流行度的關系

一般認為，新用戶傾向于瀏覽熱門的物品，因為他們對網站還不熟悉，只能點擊首頁的熱門物品，而老用戶會逐漸開始瀏覽冷門的物品。如果用橫坐標表示用戶活躍度，縱坐標表示具有某個活躍度的所有用戶評過分的物品的平均流行度。圖中曲線呈明顯下降的趨勢，這表明用戶越活躍，越傾向于瀏覽冷門的物品。

僅僅基于用戶行為數據設計的推薦算法一般稱為協同過濾算法。學術界對協同過濾算法進行了深入研究，提出了很多方法，比如基于鄰域的方法(neighborhood-based)、隱語義模型 (latent factor model)、基于圖的隨機游走算法(random walk on graph)等。在這些方法中，最著名的、在業界得到最廣泛應用的算法是基于鄰域的方法，而基于鄰域的方法主要包含下
面兩種算法。
1、基于用戶的協同過濾算法：這種算法給用戶推薦和他興趣相似的其他用戶喜歡的物品。
2、? 基于物品的協同過濾算法：這種算法給用戶推薦和他之前喜歡的物品相似的物品。

3、基于鄰域的算法

基于鄰域的算法是推薦系統中最基本的算法，該算法不僅在學術界得到了深入研究，而且在業界得到了廣泛應用。基于鄰域的算法分為兩大類，一類是基于用戶的協同過濾算法，另一類是基于物品的協同過濾算法。現在我們所說的協同過濾，基本上就就是指基于用戶或者是基于物品的協同過濾算法，因此，我們可以說基于鄰域的算法即是我們常說的協同過濾算法。

3.1 基于用戶的協同過濾算法(UserCF)

基于用戶的協同過濾算法的基本思想是：在一個在線個性化推薦系統中，當一個用戶A需要個性化推薦時，可以先找到和他有相似興趣的其他用戶，然后把那些用戶喜歡的、而用戶A沒有聽說過的物品推薦給A。

從上面的描述中可以看到，基于用戶的協同過濾算法主要包括兩個步驟。
(1) 找到和目標用戶興趣相似的用戶集合。
(2) 找到這個集合中的用戶喜歡的，且目標用戶沒有聽說過的物品推薦給目標用戶。

這里，步驟1的關鍵是計算兩個用戶的興趣相似度，協同過濾算法主要利用行為的相似度計算興趣的相似度。給定用戶u和用戶v，令N(u)表示用戶u曾經有過正反饋的物品集合，令N(v) 為用戶v曾經有過正反饋的物品集合。那么我們可以通過以下兩種方法計算用戶的相似度：

基于Jaccard公式

基于余弦相似度

余弦相似度為什么是上面這種寫法呢，因為這里，我們并不是用的用戶對物品的評分，而是用的0-1表示，所以對兩個集合做交集，相當于進行了點乘。如果我們的矩陣是用戶對物品的評分，那么計算余弦相似度的時候可以利用用戶的具體評分而不是0-1值。

如果簡單的基于余弦相似度，顯得過于粗糙，以圖書為例，如果兩個用戶都曾經買過《新華字典》，這絲毫不能說明他們興趣相似，因為絕大多數中國人小時候都買過《新華字典》。但如果兩個用戶都買過《數據挖掘導論》，那可以認為他們的興趣比較相似，因為只有研究數據挖掘的人才會買這本書。換句話說，兩個用戶對冷門物品采取過同樣的行為更能說明他們興趣的相似度，因此，我們可以基于物品的流行度對熱門物品進行一定的懲罰：

得到用戶之間的興趣相似度后，UserCF算法會給用戶推薦和他興趣最相似的K個用戶喜歡的物品。如下的公式度量了UserCF算法中用戶u對物品i的感興趣程度:

其中，S(u, K)包含和用戶u興趣最接近的K個用戶，N(i)是對物品i有過行為的用戶集合，wuv 是用戶u和用戶v的興趣相似度，rvi代表用戶v對物品i的興趣.

3.2 基于物品的協同過濾算法（ItemCF）

UserCF在一些網站(如Digg)中得到了應用，但該算法有一些缺點。首先，隨著網站的用戶數目越來越大，計算用戶興趣相似度矩陣將越來越困難，其運算時間復雜度和空間復雜度的增長和用戶數的增長近似于平方關系。其次，基于用戶的協同過濾很難對推薦結果作出解釋。因此，著名的電子商務公司亞馬遜提出了另一個算法——基于物品的協同過濾算法。
基于物品的協同過濾算法(簡稱ItemCF)給用戶推薦那些和他們之前喜歡的物品相似的物品。比如，該算法會因為你購買過《數據挖掘導論》而給你推薦《機器學習》。不過，ItemCF算法并不利用物品的內容屬性計算物品之間的相似度，它主要通過分析用戶的行為記錄計算物品之間的相似度。該算法認為，物品A和物品B具有很大的相似度是因為喜歡物品A的用戶大都也喜歡物品 B。

基于物品的協同過濾算法主要分為兩步。
(1) 計算物品之間的相似度。
(2) 根據物品的相似度和用戶的歷史行為給用戶生成推薦列表。

ItemCF的第一步是計算物品之間的相似度，在網站中，我們經常看到這么一句話：Customers Who Bought This Item Also Bought，那么從這句話的定義出發，我們可以用下面的公式定義物品相似度：

這里，分母|N(i)|是喜歡物品i的用戶數，而分子 N(i)?N(j) 是同時喜歡物品i和物品j的用戶數。因此，上述公式可以理解為喜歡物品i的用戶中有多少比例的用戶也喜歡物品j。但是卻存在一個問題。如果物品j很熱門，很多人都喜歡，
那么Wij就會很大，接近1。因此，該公式會造成任何物品都會和熱門的物品有很大的相似度，這對于致力于挖掘長尾信息的推薦系統來說顯然不是一個好的特性。為了避免推薦出熱門的物品，可以用下面的公式:

這里由于還是0-1的原因，我們的余弦相似度可以寫成上面的形式。但是，是不是每個用戶的貢獻都相同呢? 假設有這么一個用戶，他是開書店的，并且買了當當網上80%的書準備用來自己賣。那么，他的購物車里包含當當網80%的書。假設當當網有100萬本書，也就是說他買了80萬本。從前面對ItemCF的討論可以看到，這意味著因為存在這么一個用戶，有80萬本書兩兩之間就產生了相似度。這個用戶雖然活躍，但是買這些書并非都是出于自身的興趣，而且這些書覆蓋了當當網圖書的很多領域，所以這個用戶對于他所購買書的兩兩相似度的貢獻應該遠遠小于一個只買了十幾本自己喜歡的書的文學青年。因此，我們要對這樣的用戶進行一定的懲罰，John S. Breese在論文1中提出了一個稱為IUF(Inverse User Frequence)，即用戶活躍度對數的倒數的參數，他也認為活躍用戶對物品相似度的貢獻應該小于不活躍的用戶，他提出應該增加IUF參數來修正物品相似度的計算公式:

在得到物品之間的相似度后，ItemCF通過如下公式計算用戶u對一個物品j的興趣:

這里N(u)是用戶喜歡的物品的集合，S(j,K)是和物品j最相似的K個物品的集合，wji是物品j和i 的相似度，rui是用戶u對物品i的興趣。

3.3 UserCF和ItemCF的比較

首先我們提出一個問題，為什么新聞網站一般使用UserCF，而圖書、電商網站一般使用ItemCF呢？
首先回顧一下UserCF算法和ItemCF算法的推薦原理。UserCF給用戶推薦那些和他有共同興趣愛好的用戶喜歡的物品，而ItemCF給用戶推薦那些和他之前喜歡的物品類似的物品。從這個算法的原理可以看到，UserCF的推薦結果著重于反映和用戶興趣相似的小群體的熱點，而ItemCF 的推薦結果著重于維系用戶的歷史興趣。換句話說，UserCF的推薦更社會化，反映了用戶所在的小型興趣群體中物品的熱門程度，而ItemCF的推薦更加個性化，反映了用戶自己的興趣傳承。
在新聞網站中，用戶的興趣不是特別細化，絕大多數用戶都喜歡看熱門的新聞。個性化新聞推薦更加強調抓住新聞熱點，熱門程度和時效性是個性化新聞推薦的重點，而個性化相對于這兩點略顯次要。因此，UserCF可以給用戶推薦和他有相似愛好的一群其他用戶今天都在看的新聞，這樣在抓住熱點和時效性的同時，保證了一定程度的個性化。同時，在新聞網站中，物品的更新速度遠遠快于新用戶的加入速度，而且對于新用戶，完全可以給他推薦最熱門的新聞，因此UserCF顯然是利大于弊。

但是，在圖書、電子商務和電影網站，比如亞馬遜、豆瓣、Netflix中，ItemCF則能極大地發揮優勢。首先，在這些網站中，用戶的興趣是比較固定和持久的。一個技術人員可能都是在購買技術方面的書，而且他們對書的熱門程度并不是那么敏感，事實上越是資深的技術人員，他們看的書就越可能不熱門。此外，這些系統中的用戶大都不太需要流行度來輔助他們判斷一個物品的好壞，而是可以通過自己熟悉領域的知識自己判斷物品的質量。因此，這些網站中個性化推薦的任務是幫助用戶發現和他研究領域相關的物品。因此，ItemCF算法成為了這些網站的首選算法。此外，這些網站的物品更新速度不會特別快，一天一次更新物品相似度矩陣對它們來說不會造成太大的損失，是可以接受的。同時，從技術上考慮，UserCF需要維護一個用戶相似度的矩陣，而ItemCF需要維護一個物品相似度矩陣。從存儲的角度說，如果用戶很多，那么維護用戶興趣相似度矩陣需要很大的空間，同理，如果物品很多，那么維護物品相似度矩陣代價較大。

下表是對二者的一個全面的比較：

4、隱語義模型

隱語義模型是最近幾年推薦系統領域最為熱門的研究話題，它的核心思想是通過隱含特征 (latent factor)聯系用戶興趣和物品。
使用隱語義模型的基本思路是：對于某個用戶，首先得到他的興趣分類，然后從分類中挑選他可能喜歡的物品。那么這個方法大概需要解決三個問題：
1、? 如何給物品進行分類?
2、? 如何確定用戶對哪些類的物品感興趣，以及感興趣的程度?
3、? 對于一個給定的類，選擇哪些屬于這個類的物品推薦給用戶，以及如何確定這些物品在一個類中的權重?

隱含語義分析技術從誕生到今天產生了很多著名的模型和方法，其中和該技術相關且耳熟能詳的名詞有pLSA、LDA、隱含類別模型(latent class model)、隱含主題模型(latent topic model)、矩陣分解(matrix factorization)。這些技術和方法在本質上是相通的，其中很多方法都可以用于個性化推薦系統。我們將以LFM為例介紹隱含語義分析技術在推薦系統中的應用。
LFM通過如下公式計算用戶u對物品i的興趣:

這個公式中 pu,k 和 qi,k 是模型的參數，其中 pu,k 度量了用戶u的興趣和第k個隱類的關系，而 qi,k 度量了第k個隱類和物品i之間的關系。那么，下面的問題就是如何計算這兩個參數。
對最優化理論或者機器學習有所了解的讀者，可能對如何計算這兩個參數都比較清楚。這兩個參數是從數據集中計算出來的。要計算這兩個參數，需要一個訓練集，對于每個用戶u，訓練集里都包含了用戶u喜歡的物品和不感興趣的物品，通過學習這個數據集，就可以獲得上面的模型參數。我們可以通過最小化下面的損失函數來得到最合適的p和q：

上面的式子中，后面的兩項是為了防止過擬合的正則化項，求解上面的式子可以使用隨機梯度下降來得到，這里就不再贅述。

LFM模型在實際使用中有一個困難，那就是它很難實現實時的推薦。經典的LFM模型每次訓練時都需要掃描所有的用戶行為記錄，這樣才能計算出用戶隱類向量(pu)和物品隱類向量(qi)。而且LFM的訓練需要在用戶行為記錄上反復迭代才能獲得比較好的性能。

5、基于圖的模型

用戶行為很容易用二分圖表示，因此很多圖的算法都可以用到推薦系統中。
令G(V，E)表示用戶物品二分圖，其中V ?VU ?VI 由用戶頂點集合VU 和物品頂點集合VI 組成。對于數據集中每一個二元組(u, i)，圖中都有一套對應的邊 e(vu ,vi ) ，其中 vu∈?VU 是用戶u 對應的頂點∈vi ?VI 是物品i對應的頂點。下圖是一個簡單的用戶物品二分圖模型，其中圓形節 3 點代表用戶，方形節點代表物品，圓形節點和方形節點之間的邊代表用戶對物品的行為。比如圖中用戶節點A和物品節點a、b、d相連，說明用戶A對物品a、b、d產生過行為。

在得到二分圖之后，推薦的任務就變為度量用戶頂點 vu和與vu沒有邊直接相連的物品節點在圖上的相關性，相關性越高的物品在推薦列表中的權重就越高。圖中兩個頂點的相關性主要取決于下面三個因素：
1、? 兩個頂點之間的路徑數;
2、兩個頂點之間路徑的長度;
3、? 兩個頂點之間的路徑經過的頂點。

而相關性高的一對頂點一般具有如下特征:
1、? 兩個頂點之間有很多路徑相連;
2、? 連接兩個頂點之間的路徑長度都比較短;
3、? 連接兩個頂點之間的路徑不會經過出度比較大的頂點。

基于上面3個主要因素，本節介紹的是一種基于隨機游走的PersonalRank算法：假設要給用戶u進行個性化推薦，可以從用戶u對應的節點vu開始在用戶物品二分圖上進行隨機游走。游走到任何一個節點時，首先按照概率α決定是繼續游走，還是停止這次游走并從vu節點開始重新游走。如果決定繼續游走，那么就從當前節點指向的節點中按照均勻分布隨機選擇一個節點作為游走下次經過的節點。這樣，經過很多次隨機游走后，每個物品節點被訪問到的概率會收斂到一個數。最終的推薦列表中物品的權重就是物品節點的訪問概率。如果將上面的描述表示成公式，可以得到如下公式:

最后編輯于：2018.01.28 23:25:28

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,698評論 6贊 539
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,202評論 3贊 426
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,742評論 0贊 382
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,580評論 1贊 316
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,297評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,688評論 1贊 327
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,693評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,875評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,438評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,183評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,384評論 1贊 372
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,931評論 5贊 363
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,612評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,022評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,297評論 1贊 292
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,093評論 3贊 397
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,330評論 2贊 377

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

推薦系統理論(二) -- 利用用戶行為數據進行推薦(協同過濾)

推薦系統理論(二) -- 利用用戶行為數據進行推薦(協同過濾)

1、用戶行為數據

2、用戶行為分析

2.1 用戶活躍度和物品流行度

2.2 用戶活躍度和物品流行度的關系

3、基于鄰域的算法

3.1 基于用戶的協同過濾算法(UserCF)

3.2 基于物品的協同過濾算法（ItemCF）

3.3 UserCF和ItemCF的比較

4、隱語義模型

5、基于圖的模型

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

推薦系統理論(二) -- 利用用戶行為數據進行推薦(協同過濾)

1、用戶行為數據

2、用戶行為分析

2.1 用戶活躍度和物品流行度

2.2 用戶活躍度和物品流行度的關系

3、基于鄰域的算法

3.1 基于用戶的協同過濾算法(UserCF)

3.2 基于物品的協同過濾算法（ItemCF）

3.3 UserCF和ItemCF的比較

4、隱語義模型

5、基于圖的模型

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频