你可能感興趣的人——大數據推薦系統理論與實戰

什么是推薦系統

金角大王將寶葫蘆倒置,喊聲:孫行者。悟空應了一聲,嗖的一聲便被吸了進去。金角大王查看時,里面除了孫悟空,還有行者武松、蒼井空、孫權、六耳獼猴、金剛等一干人。金角大王驚訝道:只喊孫行者,怎來了這許多。寶葫蘆開口言到:這都是你“可能感興趣的人”。

在大家平時生活中一定也遇到過不少類似的事情,最常見的當然就是在大家網上購物時的了,當你搜索一個物品或者點贊一個抖音之后,系統便會給你推薦相關物品或者同類型的抖音短視頻,也就是“可能感興趣的物品和視頻”,通過推薦系統的計算,顧客不需要花費大量的時間才能找到自己想買的商品,商家也可以用更低的成本將自己的產品更精準的推送到用戶面前。推薦系統在電商網站、新聞網站、電影和視頻、音樂、社交網絡、廣告等領域已經得到了廣泛的應用,其作用越來越受到重視。

724693112


推薦系統常用算法

推薦算法過程

在講東西推薦給用戶之前,推薦系統首先要做的是分析用戶。這時我們就需要大量的用戶數據了,用戶的數據越多越詳細推薦就會越精準。在物品和用戶分析方面,一些關鍵字和用戶的基本信息比如用戶年齡、性別、購物偏好、評分以及查看過哪些物品甚至地區等因素來進行分析,通過推薦引擎將不同的物品推薦到不同的用戶面前讓他們看到。

在推薦中,又分為大眾化推薦、差異化推薦、個性化推薦;大眾化推薦,顧名思義是對大眾進行推薦的,其主要是推薦一些熱銷產品,精品等;而差異化推薦則會通過用戶的瀏覽記錄、購買記錄這些來進行推薦;個性化推薦,就會根據用戶的個人偏好了。

協同過濾算法

協同過濾推薦算法是誕生最早,并且較為著名的推薦算法。主要的功能是預測和推薦。算法通過對用戶歷史行為數據的挖掘發現用戶的偏好,基于不同的偏好對用戶進行群組劃分并推薦品味相似的商品。協同過濾推薦算法分為兩類,分別是基于用戶的協同過濾算法(user-based collaboratIve filtering),和基于物品的協同過濾算法(item-based collaborative filtering)。簡單的說就是:人以類聚,物以群分。下面我們將分別說明這兩類推薦算法的原理和實現方法。

于用戶的協同過濾算法是通過用戶的歷史行為數據發現用戶對商品或內容的喜歡(如商品購買,收藏,內容評論或分享),并對這些喜好進行度量和打分。根據不同用戶對相同商品或內容的態度和偏好程度計算用戶之間的關系。在有相同喜好的用戶間進行商品推薦。簡單的說就是如果A,B兩個用戶都購買了x,y,z三本圖書,并且給出了5星的好評。那么A和B就屬于同一類用戶。可以將A看過的圖書w也推薦給用戶B。計算用戶之間的相似度,根據相似度排序選擇n個用戶,將這些用戶喜歡的物品集合中的目標用戶還沒有產生行為的物品推薦給目標用戶

724693112


相似度計算有幾種經典的算法:杰卡德系數、歐氏距離、杰卡德系數 、歐氏距離、余弦相似度 、皮爾遜相似度都是比較常見的

在這里不多做介紹了,如果大家有興趣可以加圖片下方的群去了解一下,關于推薦系統的理論和實戰會像實時交易監控系統那樣錄制成視頻免費分享給大家。

大多數情況下,幾種方式計算的結果是一致的

杰卡德系數關心的是樣本間共同具有的特征,只能處理符號或布爾值類型的維度數據

歐氏距離能夠體現個體數值特征的絕對差異,所以更多的用于需要從維度的數值大小中體現差異的分析

余弦相似度更多的是從方向上區分差異,而對絕對的數值不敏感,更多的用于使用用戶對內容評分來區分興趣的相似度和差異

皮爾遜相似度相當于中心化后再計算余弦相似度,當維度取值范圍不一致時可以得到更精確的結果

基于物品的協同過濾

協同過濾的選擇

基于用戶:

推薦跟用戶相似的用戶喜歡的物品

需計算用戶兩兩之間的相似度,有新的用戶或者用戶有新的行為需要重新計算

新用戶行為較少時不能立即進行基于用戶的推薦;

新的物品上線后,只要有用戶產生過行為,就可以將其推薦給相似的用戶

基于相似用戶的喜好,可以提供更好的多樣性;傾向于推薦熱門物品,不擅長推薦長尾物品適合社會化場景以及物品變化較頻繁的場景的推薦,如新聞、博客等內容網站

基于物品:

推薦跟用戶之前喜歡的物品相似的物品

需計算物品兩兩之間的相似度,有新的物品需要重新計算

新用戶對某個物品產生行為,就可以推薦相關的物品;新的物品需要經過離線計算與其他物品的相似度后才能被推薦

基于用戶歷史相關的物品,物品種類可能比較單一;按照物品相似性推薦,能更好的挖掘長尾物品

適合電商網站等用戶的數量往往大大超過物品的數量,同時物品的數據相對穩定的場景的推薦

關于大數據推薦系統的理論與實戰的詳細講解,我分成兩期錄制了視頻,如果大家對推薦系統感興趣和想學習大數據的同學可以加群:724693112免費領取視頻學習,群里還有其它大數據相關的學習資料可以領取。

推薦系統架構

推薦流程

海量Item、召回、候選集合、排序、排序列表、規則、topN、展示、結果頁面。

各大企業推薦系統架構

下面我們看看亞馬遜、優酷、攜程、陸金所等知名企業的推薦系統架構是怎樣的

亞馬遜推薦系統架構

攜程推薦系統架構

優酷推薦系統架構

陸金所推薦系統架構

通用架構

電影推薦系統

最后和大家一起看看電影推薦系統的一個架構

推薦數據源:

第一類:視頻數據流,視頻元數據(標題,描述等)

第二類:用戶活動數據,主要分為兩種。

1 -> 直接活動:對電影評分,對電影點贊,訂閱一個上傳

2 -> 間接活動:用戶觀看電影的時長

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容