-
Scikit Flow介紹和源碼分析
-
EM算法原理和應(yīng)用
-
商品搜索引擎---推薦系統(tǒng)設(shè)計(jì)
-
模式識(shí)別筆記
-
博客-論文,caffe
-
語(yǔ)義分析方法
推薦系統(tǒng)讀書筆記
協(xié)同過(guò)濾推薦
1. 基于用戶的最近鄰?fù)扑]
輸入:用戶-物品的評(píng)分矩陣,待預(yù)測(cè)用戶
思路:
- 找到與目標(biāo)用戶過(guò)去有相似偏好的用戶組,作為近鄰用戶。
- 對(duì)每一個(gè)目標(biāo)用戶沒(méi)有打分的物品,利用鄰近用戶的打分做預(yù)測(cè)
前提假設(shè):
- 用戶過(guò)去偏好相似,這用戶將來(lái)偏好相似
- 用戶偏好不隨時(shí)間改變
例子
Pearson方法計(jì)算用戶相似度
通過(guò)最近鄰用戶預(yù)測(cè)物品評(píng)分
小結(jié)
- Pearson相關(guān)系數(shù)取值是-1~1的,1代表強(qiáng)正相關(guān),-1代表強(qiáng)負(fù)相關(guān)。
- Pearson考慮了不同用戶不同的評(píng)分范圍,因?yàn)槊看斡?jì)算的都是與平均數(shù)的差值。
- 沒(méi)有考慮到,用戶間對(duì)于冷門物品的共同偏好,相比于熱門物品來(lái)說(shuō),價(jià)值更大,但是目前沒(méi)有考慮到
- 還有其他衡量用戶相似度的方法:改進(jìn)余弦相似度,Spearman秩相關(guān)系數(shù),均方差
- 近鄰用戶選擇,上文為方便說(shuō)明只選了1個(gè),可以選擇K個(gè)最近鄰,實(shí)踐中20~50的效果不錯(cuò)
2. 基于物品的最近鄰?fù)扑]
輸入:用戶-物品的評(píng)分矩陣,待預(yù)測(cè)用戶
思路:
- 找到目標(biāo)用戶對(duì)于待預(yù)測(cè)物品的相似物品的評(píng)分。
- 根據(jù)相似物品的評(píng)分按照權(quán)重計(jì)算得到的平均值進(jìn)行計(jì)算
余弦?jiàn)A角計(jì)算相似度
改進(jìn)的余弦?jiàn)A角
協(xié)同過(guò)濾的其它話題
- 評(píng)分
- 顯式評(píng)分需要用戶額外付出,用戶會(huì)因?yàn)榈貌坏饺魏魏锰幎艞壴u(píng)價(jià),因此需要收集隱式評(píng)分,例如買了一個(gè)商品,在某商品詳情頁(yè)停留很久,都可以作為正向意圖
- 推薦系統(tǒng)冷啟動(dòng),可以利用用戶附加信息對(duì)用戶進(jìn)行分類,例如年齡,性別,教育程度等。
- 數(shù)據(jù)稀疏問(wèn)題,利用假設(shè)用戶偏向有傳遞性,由此增強(qiáng)額外信息矩陣。例如User1 -> Item1 -> User2 -> Item2推薦路徑長(zhǎng)度是3,可以拓展為5或其他更長(zhǎng)情況
- 基于模型的推薦
- 推薦系統(tǒng)使用矩陣因子分解的方法,從評(píng)分模式中抽取一組潛在的因子,通過(guò)這些因子向量來(lái)描述用戶和物品
- SVD將高度相關(guān)且一起出現(xiàn)的詞語(yǔ)作為單獨(dú)因子,把大的矩陣向量差分成更小階的近似矩陣
- PCA主成分分析對(duì)評(píng)分?jǐn)?shù)據(jù)預(yù)處理,過(guò)濾出數(shù)據(jù)中最重要的方面來(lái)解釋大多數(shù)變量,經(jīng)過(guò)PCA處理后的數(shù)據(jù),原始評(píng)分?jǐn)?shù)據(jù)被投射到最相關(guān)的主特征向量上
- 關(guān)聯(lián)規(guī)則挖掘
- 關(guān)聯(lián)規(guī)則應(yīng)用到推薦就是自動(dòng)發(fā)現(xiàn)規(guī)則。
- 關(guān)聯(lián)規(guī)則的衡量標(biāo)準(zhǔn)是支持度和可信度
- 所有的正向評(píng)分都記做一次購(gòu)買行為
- 得到的規(guī)則是:喜歡物品1的同時(shí)喜歡物品5