一、書籍介紹
《推薦系統實踐》項亮編著,陳義、王益審校,人民郵電出版社。
本篇讀書筆記主要針對該書的第三章內容。
二、結構概覽
三、主要內容
大量的用戶行為數據是推薦系統的重要組成部分和先決條件。
1.冷啟動問題簡介
(1)用戶冷啟動:給新用戶做個性化推薦
(2)物品冷啟動:將新物品推薦給感興趣的人
(3)系統冷啟動:新開發的系統(沒有用戶)
2.利用用戶注冊信息——解決用戶冷啟動問題
(1)如利用用戶注冊時填寫的年齡、性別等數據,主要包含以下三種:
a)人口統計學信息
b)用戶興趣描述-讓用戶描述他們的興趣
c)從其他網站導入的用戶站外行為數據:比如用新浪微博等賬號登錄,可以在得到用戶同意的情況下獲取用戶的一些行為數據和社交網絡數據。
基于注冊信息的個性化推薦流程基本如下:
a)獲取用戶的注冊信息;b)根據用戶的注冊信息對用戶分類;c)給用戶推薦他所屬分類中用戶喜歡的物品。
(2)算法:
核心問題在于計算每種特征的用戶喜歡的物品。
3.選擇合適的物品啟動用戶的興趣——解決用戶冷啟動的問題
給用戶提供一些物品,讓用戶反饋他們對這些物品的興趣。
用來啟動用戶興趣的物品需要具有的特點:
a)比較熱門;b)具有代表性和區分性;c)啟動物品集合需要多樣性
4.利用物品的內容信息——解決物品冷啟動問題
利用向量空間模型,將物品表示成一個關鍵詞向量,計算物品內容的相似度。
可以采用余弦相似度公式計算相似度,但這種算法時間復雜度很高,在實際應用中,可以通過建立關鍵詞-物品到排表加速這一計算過程。
使用內容相似度的內容過濾算法,由于這種算法忽略了用戶行為,從而也忽視了物品的流行度以及用戶行為中所包含的規律,所以準確率和召回率較低,但結果的新穎度比較高。但這也不是絕對的,如果用戶的行為強烈受某一內容屬性的影響,那么內容過濾算法也可以在精度上超過協同過濾算法?!绻苋诤蟽热葸^濾算法和協同過濾算法,效果更好。
5.發揮專家的作用——解決系統冷啟動問題
專家對各個維度進行標注。
除以上方法外,也可以提供先提供非個性化的方案,如熱門排行榜,等到用戶數據收集到一定的時候,再切換為個性化推薦。
往期推薦:利用用戶數據——《推薦系統實踐》第二章