基于大數(shù)據(jù)的個性化推薦系統(tǒng)

版權聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 by-sa 版權協(xié)議,轉(zhuǎn)載請附上原文出處鏈接和本聲明。

本文鏈接:https://blog.csdn.net/dsdaasaaa/article/details/94763439

隨著互聯(lián)網(wǎng)時代的發(fā)展和大數(shù)據(jù)時代的到來,人們逐漸從信息匱乏的時代走入了信息過載的時代。為了讓用戶從海量信息中高效地獲取自己所需的信息,推薦系統(tǒng)應運而生。

推薦系統(tǒng)的主要任務就是聯(lián)系用戶和信息,它一方面幫助用戶發(fā)現(xiàn)對自己有價值的信息,另一方面讓信息能夠展現(xiàn)在對它感興趣的用戶面前,從而實現(xiàn)信息消費者和信息生產(chǎn)者的雙贏。基于大數(shù)據(jù)的推薦系統(tǒng)通過分析用戶的歷史記錄了解用戶的喜好,從而主動為用戶推薦其感興趣的信息,滿足用戶的個性化推薦需求。

推薦系統(tǒng)概述

推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具,它通過研究用戶的興趣愛好,來進行個性化推薦。以 Google 和百度為代表的搜索引擎可以讓用戶通過輸入關鍵詞精確找到自己需要的相關信息。但是,搜索引擎需要用戶提供能夠準確描述自己的需求的關鍵詞,否則搜索引擎就無能為力了。

與搜索引擎不同的是,推薦系統(tǒng)不需要用戶提供明確的需求,而是通過分析用戶的歷史行為來對用戶的興趣進行建模,從而主動給用戶推薦可滿足他們興趣和需求的信息。每個用戶所得到的推薦信息都是與自己的行為特征和興趣有關的,而不是籠統(tǒng)的大眾化信息。

隨著推薦引擎的出現(xiàn),用戶獲取信息的方式從簡單的目標明確的數(shù)據(jù)搜索轉(zhuǎn)換到更高級更符合人們使用習慣的信息發(fā)現(xiàn)。隨著推薦技術的不斷發(fā)展,推薦引擎已經(jīng)在電子商務(如 Amazon.當當網(wǎng))和一些基于社會的化站點(包括音樂、電影和圖書分享,如豆瓣等)中都取得很大的成功。

圖 1 展示了推薦引擎的工作原理,它接收的輸入是推薦的數(shù)據(jù)源,一般情況下,推薦引擎所需要的數(shù)據(jù)源包括以下幾點。

要推薦物品或內(nèi)容的元數(shù)據(jù),如關鍵字、基因描述等。

系統(tǒng)用戶的基本信息,如性別、年齡等。

用戶對物品或者信息的偏好,根據(jù)應用本身的不同,可能包括用戶對物品的評分,用戶查看物品的記錄,用戶的購買記錄等。

用戶的偏好信息可以分為顯式用戶反饋和隱式用戶反饋兩大類。

顯式用戶反饋是用戶在網(wǎng)站上自然瀏覽或者使用網(wǎng)站以外,顯式地提供的反饋信息,如用戶對物品的評分,或者對物品的評論等。

隱式用戶反饋是用戶在使用網(wǎng)站時產(chǎn)生的數(shù)據(jù),隱式地反映了用戶對物品的喜好,如用戶購買了某物品,用戶查看了某物品的信息等。

圖 1??推薦引擎的工作原理

顯式用戶反饋能準確地反映用戶對物品的真實喜好,但需要用戶付出額外的勞動,而隱式用戶行為,通過一些分析和處理,也能反映用戶的喜好,只是數(shù)據(jù)不是很精確,有些行為的分析存在較大的噪聲。但只要選擇正確的行為特征,隱式用戶反饋也能得到很好的效果。例如,在電子商務的網(wǎng)站上,購買行為其實就是一個能很好表現(xiàn)用戶喜好的隱式用戶反饋。

推薦引擎根據(jù)不同的推薦機制可能用到數(shù)據(jù)源中的不同部分,然后根據(jù)這些數(shù)據(jù),分析出一定的規(guī)則或者直接對用戶對其他物品的喜好進行預測計算。這樣,推薦引擎就可以在用戶進入的時候給他推薦他可能感興趣的物品。

推薦機制

大部分推薦引擎的工作原理是基于物品或者用戶的相似集進行推薦,所以可以對推薦機制進行以下分類。

基于人口統(tǒng)計學的推薦:根據(jù)系統(tǒng)用戶的基本信息發(fā)現(xiàn)用戶的相關程度。

基于內(nèi)容的推薦:根據(jù)推薦物品或內(nèi)容的元數(shù)據(jù),發(fā)現(xiàn)物品或者內(nèi)容的相關性。

基于協(xié)同過濾的推薦:根據(jù)用戶對物品或者信息的偏好,發(fā)現(xiàn)物品或者內(nèi)容本身的相關性,或者是發(fā)現(xiàn)用戶的相關性。

1)基于人口統(tǒng)計學的推薦

基于人口統(tǒng)計學的推薦機制可根據(jù)用戶的基本信息發(fā)現(xiàn)用戶的相關程度,然后將相似用戶喜愛的其他物品推薦給當前用戶,圖 2 描述了這種推薦機制的工作原理。

從圖 2 中可以很清楚地看出,首先,系統(tǒng)對每個用戶都有一個用戶基本信息的模型,其中包括用戶的年齡、性別等,然后,系統(tǒng)會根據(jù)用戶的基本信息計算用戶的相似度,可以看到用戶 A 的基本信息和用戶 C 一樣,所以系統(tǒng)會認為用戶 A 和用戶 C 是相似用戶,在推薦引擎中,可以稱他們是“鄰居”,最后,基于“鄰居”用戶群的喜好推薦給當前用戶一些物品,圖 2 所示為將用戶 A 喜歡的物品 A 推薦給用戶 C。

基于人口統(tǒng)計學的推薦機制的主要優(yōu)勢是對于新用戶來講沒有“冷啟動”的問題,這是因為該機制不使用當前用戶對物品的喜好歷史數(shù)據(jù)。該機制的另一個優(yōu)勢是它是領域獨立的,不依賴于物品本身的數(shù)據(jù),所以可以在不同的物品領域都得到使用。

圖 2??基于人口統(tǒng)計學的推薦機制的工作原理

基于人口統(tǒng)計學的推薦機制的主要問題是基于用戶的基本信息對用戶進行分類的方法過于粗糙,尤其是對品味要求較高的領域,如圖書、電影和音樂等領域,無法得到很好的推薦效果。另外,該機制可能涉及一些與需要查找的信息本身無關卻比較敏感的信息,如用戶的年齡等,這些信息涉及了用戶的隱私。

2)基于內(nèi)容的推薦

基于內(nèi)容的推薦是在推薦引擎出現(xiàn)之初應用最為廣泛的推薦機制,它的核心思想是根據(jù)推薦物品或內(nèi)容的元數(shù)據(jù),發(fā)現(xiàn)物品或內(nèi)容的相關性,然后基于用戶以往的喜好記錄,推薦給用戶相似的物品。圖 3 描述了基于內(nèi)容推薦的基本原理。

圖 3 中給出了基于內(nèi)容推薦的一個典型的例子,即電影推薦系統(tǒng)。首先,需要對電影的元數(shù)據(jù)進行建模,這里只簡單地描述了電影的類型。然后,通過電影的元數(shù)據(jù)發(fā)現(xiàn)電影間的相似度,由于電影 A 和 C 的類型都是“愛情、浪漫”,所以它們會被認為是相似的電影。最后,實現(xiàn)推薦,由于用戶 A 喜歡看電影 A,那么系統(tǒng)就可以給他推薦類似的電影 C。

圖 3??基于內(nèi)容推薦機制的工作原理

基于內(nèi)容的推薦機制的好處在于它能基于用戶的口味建模,能提供更加精確的推薦。但它也存在以下幾個問題。

需要對物品進行分析和建模,推薦的質(zhì)量依賴于物品模型的完整和全面程度。

物品相似度的分析僅僅依賴于物品本身的特征,而沒有考慮人對物品的態(tài)度。

因為是基于用戶以往的歷史做出推薦,所以對于新用戶有“冷啟動”的問題。

雖然基于內(nèi)容的推薦機制有很多不足和問題,但它還是成功地應用在一些電影、音樂、圖書的社交站點。有些站點還請專業(yè)的人員對物品進行基因編碼,例如,在潘多拉的推薦引擎中,每首歌有超過 100 個元數(shù)據(jù)特征,包括歌曲的風格、年份、演唱者等。

3)基于協(xié)同過濾的推薦

隨著互聯(lián)網(wǎng)時代的發(fā)展,Web 站點更加提倡用戶參與和用戶貢獻,因此基于協(xié)同過濾的推薦機制應運而生。它的原理就是根據(jù)用戶對物品或者信息的偏好,發(fā)現(xiàn)物品或者內(nèi)容本身的相關性,或者發(fā)現(xiàn)用戶的相關性,然后再基于這些相關性進行推薦。

基于協(xié)同過濾的推薦可以分為 3 個子類:基于用戶的協(xié)同過濾推薦,基于項目的協(xié)同過濾推薦和基于模型的協(xié)同過濾推薦。

① 基于用戶的協(xié)同過濾推薦

基于用戶的協(xié)同過濾推薦的基本原理是根據(jù)所有用戶對物品或者信息的偏好,發(fā)現(xiàn)與當前用戶口味和偏好相似的“鄰居”用戶群。一般的應用是采用計算“k-鄰居”的算法,然后基于這 k 個鄰居的歷史偏好信息,為當前用戶進行推薦的。圖 4 描述了基于用戶的協(xié)同過濾推薦機制的基本原理。

如圖 4 所示,假設用戶 A 喜歡物品 A 和物品 C,用戶 B 喜歡物品 B,用戶 C 喜歡物品 A、物品 C 和物品 D。從這些用戶的歷史喜好信息中可以發(fā)現(xiàn),用戶 A 和用戶 C 的口味和偏好是比較類似的,同時用戶 C 還喜歡物品 D ,那么系統(tǒng)可以推斷用戶 A 很可能也喜歡物品 D,因此可以將物品 D 推薦給用戶 A。

圖 4??基于用戶的協(xié)同過濾推薦機制的基本原理

基于用戶的協(xié)同過濾推薦機制和基于人口統(tǒng)計學的推薦機制都是計算用戶的相似度,并基于“鄰居”用戶群計算推薦的,它們的不同之處在于如何計算用戶的相似度?;谌丝诮y(tǒng)計學的機制只考慮用戶本身的特征,而基于用戶的協(xié)同過濾機制是在用戶的歷史偏好的數(shù)據(jù)上計算用戶的相似度,它的基本假設是,喜歡類似物品的用戶可能有相同或者相似的口味和偏好。

② 基于項目的協(xié)同過濾推薦

基于項目的協(xié)同過濾推薦的基本原理是使用所有用戶對物品或者信息的偏好,發(fā)現(xiàn)物品和物品之間的相似度,然后根據(jù)用戶的歷史偏好信息,將類似的物品推薦給用戶,圖 5 描述了它的基本原理。

圖 5??基于項目的協(xié)同過濾推薦機制的基本原理

假設用戶 A 喜歡物品 A 和物品 C,用戶 B 喜歡物品 A、物品 B 和物品 C,用戶 C 喜歡物品A。從這些用戶的歷史喜好可以分析出物品 A 和物品 C 是比較類似的,因為喜歡物品 A 的人都喜歡物品 C?;谶@個數(shù)據(jù)可以推斷用戶 C 很有可能也喜歡物品 C,所以系統(tǒng)會將物品 C 推薦給用戶 C。

基于項目的協(xié)同過濾推薦和基于內(nèi)容的協(xié)同過濾推薦其實都是基于物品相似度的預測推薦,只是相似度計算的方法不一樣,前者是從用戶歷史的偏好進行推斷的,而后者是基于物品本身的屬性特征信息進行推斷的。

③?基于模型的協(xié)同過濾推薦

基于模型的協(xié)同過濾推薦就是指基于樣本的用戶喜好信息,采用機器學習的方法訓練一個推薦模型,然后根據(jù)實時的用戶喜好的信息進行預測,從而計算推薦。

這種方法使用離線的歷史數(shù)據(jù)進行模型訓練和評估,需要耗費較長的時間,依賴于實際的數(shù)據(jù)集規(guī)模、機器學習算法計算復雜度。

基于協(xié)同過濾的推薦機制是目前應用最為廣泛的推薦機制,它具有以下兩個優(yōu)點。

它不需要對物品或者用戶進行嚴格的建模,而且不要求物品的描述是機器可理解的,所以這種方法也是領域無關的。

這種方法計算岀來的推薦是開放的,可以共用他人的經(jīng)驗,能夠很好地支持用戶發(fā)現(xiàn)潛在的興趣偏好。

基于協(xié)同過濾的推薦機制也存在以下幾個問題。

方法的核心是基于歷史數(shù)據(jù),所以對新物品和新用戶都有“冷啟動”的問題。

推薦的效果依賴于用戶歷史偏好數(shù)據(jù)的多少和準確性。

對于一些特殊品味的用戶不能給予很好的推薦。

由于以歷史數(shù)據(jù)為基礎,抓取和建模用戶的偏好后,很難修改或者根據(jù)用戶的使用進行演變,從而導致這個方法不夠靈活。

4)混合推薦機制

在現(xiàn)行的 Web 站點上的推薦往往不是只采用了某一種推薦機制和策略的,而是將多個方法混合在一起,從而達到更好的推薦效果。有以下幾種比較流行的組合推薦機制的方法。

加權的混合:用線性公式將幾種不同的推薦按照一定權重組合起來,具體權重的值需要在測試數(shù)據(jù)集上反復實驗,從而達到最好的推薦效果。

切換的混合:對于不同的情況(如數(shù)據(jù)量,系統(tǒng)運行狀況,用戶和物品的數(shù)目等),選擇最為合適的推薦機制計算推薦。

分區(qū)的混合:采用多種推薦機制,并將不同的推薦結果分不同的區(qū)顯示給用戶。

分層的混合:采用多種推薦機制,并將一個推薦機制的結果作為另一個的輸入,從而綜合各個推薦機制的優(yōu)缺點,得到更加準確的推薦。

推薦系統(tǒng)的應用

目前,在電子商務、社交網(wǎng)絡、在線音樂和在線視頻等各類網(wǎng)站和應用中,推薦系統(tǒng)都起著很重要的作用。下面將簡要分析兩個有代表性的推薦系統(tǒng)(Amazon 作為電子商務的代表,豆 瓣作為社交網(wǎng)絡的代表)。

1)推薦在電子商務中的應用:Amazon

Amazon 作為推薦系統(tǒng)的鼻祖,已經(jīng)將推薦的思想滲透在應用的各個角落。Amazon 推薦的核心是,通過數(shù)據(jù)挖掘算法和用戶與其他用戶的消費偏好的對比,來預測用戶可能感興趣的商品。 Amazon 采用的是分區(qū)的混合的機制,即將不同的推薦結果分不同的區(qū)顯示給用戶。圖 6 展示了用戶在 Amazon 首頁上能得到的推薦。

圖 6??Amazon 推薦機制:首頁

Amazon 利用了可以記錄的所有用戶在站點上的行為,并根據(jù)不同數(shù)據(jù)的特點對它們進行處理,從而分成不同區(qū)為用戶推送推薦。

猜你喜歡:通常是根據(jù)用戶的近期的歷史購買或者查看記錄給出一個推薦。

熱銷商品:采用了基于內(nèi)容的推薦機制,將一些熱銷的商品推薦給用戶。

圖 7 展示了用戶在 Amazon 瀏覽物品的頁面上能得到的推薦。

圖 7??Amazon 推薦機制:瀏覽物品

當用戶瀏覽物品時,Amazon 會根據(jù)當前瀏覽的物品對所有用戶在站點上的行為進行處理,然后在不同區(qū)為用戶推送推薦。

經(jīng)常一起購買的商品:采用數(shù)據(jù)挖掘技術對用戶的購買行為進行分析,找到經(jīng)常被一起或同一個人購買的物品集,然后進行捆綁銷售,這是一種典型的基于項目的協(xié)同過濾推薦機制;

購買此商品的顧客也同時購買:這也是一個典型的基于項目的協(xié)同過濾推薦的應用,用戶能更快更方便地找到自己感興趣的物品。

2)推薦在社交網(wǎng)站中的應用:豆瓣

豆瓣是國內(nèi)做得比較成功的社交網(wǎng)站,它以圖書、電影、音樂和同城活動為中心,形成了一個多元化的社交網(wǎng)絡平臺,下面來介紹豆瓣是如何進行推薦的。

當用戶在豆瓣電影中將一些看過的或是感興趣的電影加入到看過和想看的列表里,并為它們做相應的評分后,豆瓣的推薦引擎就已經(jīng)拿到了用戶的一些偏好信息?;谶@些信息,豆瓣將會給用戶展示圖 8 所示的電影推薦。

圖 8??豆瓣的推薦機制:基于用戶品味的推薦

豆瓣的推薦是根據(jù)用戶的收藏和評價自動得出的,每個人的推薦清單都是不同的,每天推薦的內(nèi)容也可能會有變化。收藏和評價越多,豆瓣給用戶的推薦就會越準確和豐富。

豆瓣是基于社會化的協(xié)同過濾的推薦,用戶越多,用戶的反饋越多,則推薦的效果越準確。相對于Amazon的用戶行為模型,豆瓣電影的模型更加簡單,就是“看過”和“想看”,這也讓他們的推薦更加專注于用戶的品位,畢竟買東西和看電影的動機還是有很大不同的。

另外,豆瓣也有基于物品本身的推薦,當用戶查看一些電影的詳細信息時,它會給用戶推薦出“喜歡這個電影的人也喜歡的電影”,這是一個基于協(xié)同過濾的推薦的應用。

————————————————

版權聲明:本文為CSDN博主「QYUooYUQ」的原創(chuàng)文章,遵循CC 4.0 by-sa版權協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。

原文鏈接:https://blog.csdn.net/dsdaasaaa/article/details/94763439

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,182評論 6 543
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,489評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,290評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,776評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,510評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,866評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,860評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,036評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,585評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,331評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,536評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,058評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,754評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,154評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,469評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,273評論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,505評論 2 379

推薦閱讀更多精彩內(nèi)容