個(gè)性化推薦典型任務(wù)與傳統(tǒng)算法

典型任務(wù)和算法（模型）

1.相似匹配（基于內(nèi)容）

1.1 標(biāo)簽匹配

1.2 LDA主題模型

2.評(píng)分預(yù)測(cè)

2.1.large scale 問(wèn)題。為什么不直接進(jìn)行回歸預(yù)測(cè)呢？

2.2.user or item based 協(xié)同過(guò)濾

以u(píng)ser-based協(xié)同過(guò)濾為例：找出與當(dāng)前User i最相似的N個(gè)User，并根據(jù)N個(gè)User對(duì)Item的打分估計(jì) i 對(duì)該Item的打分。相似度采用jaccard similarity 或 Cosine Similarity：

$\qquad sim(x,y) = \frac {r_x \cap r_y}{r_x \cup r_y}$

$\qquad sim(x,y) = 1- cosine(x,y) = 1 - \frac{ A \cdot B}{\mid\mid A\mid\mid \ \mid\mid B\mid\mid}$

2.3.矩陣分解(model-based 協(xié)同過(guò)濾)：

矩陣分解相當(dāng)于：表示學(xué)習(xí)（用戶、物品）+相似匹配

2.3.1.SVD(PCA):

奇異值分解，通過(guò)降維的方法來(lái)補(bǔ)全用戶-物品評(píng)分矩陣，對(duì)矩陣中沒(méi)有出現(xiàn)的值進(jìn)行估計(jì)。缺點(diǎn)是分解前需補(bǔ)全R矩陣的缺失值（比如用全局平均值或用戶、物品平均值進(jìn)行補(bǔ)全），耗費(fèi)存儲(chǔ)大；計(jì)算復(fù)雜度高。

$\qquad R' = U_{m\times m}S_{m\times n}V_{n \times n}^T$

svd.png

2.3.2.ALS:

交替最小二乘梯度下降

als算法.png

$\qquad R' = X_{m \times k}Y_{n \times k}^T$
$\qquad L_{exp} = \sum\limits_{u,i \in S}(r_{ui} - \textbf{x}_{u}^{\intercal} \cdot{} \textbf{y}_{i})^{2} + \lambda_{x} \sum\limits_{u} \left\Vert \textbf{x}_{u} \right\Vert^{2} + \lambda_{y} \sum\limits_{u} \left\Vert \textbf{y}_{i} \right\Vert^{2}$

求解方式固定X求Y，固定Y求X

$\qquad x_u=(Y^TY+\lambda I)^{?1}Y^Tr(u)$
$\qquad y_i=(X^TX+\lambda I)^{?1}X^Tr(i)$

支持隱反饋數(shù)據(jù)（0,1）（加權(quán)的正則化矩陣分解）[1]

$\qquad L_{WRMF} = \sum\limits_{u,i}c_{ui} \big( p_{ui} - \textbf{x}_{u}^{\intercal} \cdot{} \textbf{y}_{i} \big) ^{2} + \lambda_{x} \sum\limits_{u} \left\Vert \textbf{x}_{u} \right\Vert^{2} + \lambda_{y} \sum\limits_{u} \left\Vert \textbf{y}_{i} \right\Vert^{2}$
$\qquad c_{ui} = 1 + \alpha d_{ui}$
$\qquad x_{u} = (Y^{T}C^{u}Y + \lambda I )^{ - 1 }Y^{T}C^{u}r(u)$
$\qquad y_{i} = (X^{T}C^{i}X + \lambda I )^{ - 1 }X^{T}C^{i}r(i)$

2.3.3.PMF

Probabilistic Matrix Factorization概率矩陣分解[2]

傳統(tǒng)的協(xié)同過(guò)濾方法既不能處理大數(shù)據(jù)量的推薦，也不能處理只有很少評(píng)分的用戶。這篇論文提出了著名的概率矩陣分解的方法來(lái)解決這個(gè)問(wèn)題。概率矩陣分解的思想是以中線性因子模型，它使用與用戶相關(guān)的系數(shù)，將用戶的偏好建模成一個(gè)一系列向量的線性組合。

博文

2.3.4.BPMF

Bayesian Probabilistic Matrix Factorization貝葉斯概率矩陣分解[3]

本論文的模型和前文類似，但在求解時(shí)，是從貝葉斯角度而不是傳統(tǒng)概率角度出發(fā)：不再把系統(tǒng)參數(shù)當(dāng)做一個(gè)固定值估計(jì)，而是作為一個(gè)服從某種分布的隨機(jī)變量，轉(zhuǎn)而估計(jì)該分布的參數(shù)。

2.4.基于特征+矩陣分解：

物品特征、用戶特征、用戶行為特征
2.4.1.SVD++（加入用戶偏執(zhí)的SVD）
$\qquad R' = B_i + B_u + X_{m \times k}Y_{n \times k}^T$

2.4.2.SVDFeature[4]

SVDFeature是由Apex Data & Knowledge Management Lab在KDD CUP11競(jìng)賽中開(kāi)發(fā)出來(lái)的工具包。它的目的是有效地解決基于特征的矩陣分解

三種激活函數(shù)（預(yù)測(cè)值的轉(zhuǎn)換）與損失函數(shù)，可應(yīng)用于回歸與二分類。 TODO
$\qquad R' = \mu + (\sum_{j}b_j^{(g)} \gamma_j + \sum_{j}b_j^{(u)} \alpha_j + \sum_{j}b_j^{(i)} \beta_j) + (\sum_j p_j)^T (\sum_j q_j\beta _j), \qquad \alpha表示用戶特征，\beta表示商品特征，\gamma表示全局特征$

2.4.3.FM

Factorization Machine 因子分解機(jī)[5]，解決稀疏數(shù)據(jù)下的特征組合問(wèn)題，多種激活函數(shù)與損失函數(shù)可以應(yīng)用于比如回歸、分類、排序。 TODO
$\qquad R' = w_0 + \sum_{i=1}^{n}w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^n<V_i,V_j>x_i x_j$

2.4.4.FFM[6]

在FM模型中，每一個(gè)特征會(huì)對(duì)應(yīng)一個(gè)隱變量，但在FFM模型中，認(rèn)為應(yīng)該將特征分為多個(gè)field，每個(gè)特征對(duì)應(yīng)每個(gè)field分別有一個(gè)隱變量。也就是說(shuō)，“Day=26/11/15”這個(gè)特征與“Country”特征和“Ad_type"特征進(jìn)行關(guān)聯(lián)的時(shí)候使用不同的隱向量，這與“Country”和“Ad_type”的內(nèi)在差異相符，也是FFM中“field-aware”的由來(lái)。
$\qquad R' = w_0 + \sum_{i=1}^{n}w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^n<V_{i,f_j},V_{j,f_i}>x_i x_j$

2.4.5 DPMF[7]

依賴輔助特征的矩陣分解Dependent Probabilistic Matrix Factorization

與PMF類似，加入了一些經(jīng)過(guò)高斯處理的特征信息

2.4.6.Collaborative Topic Modeling（LDA+協(xié)同）（內(nèi)容+行為）[8]

基于協(xié)同的推薦只會(huì)推薦舊的物品，不能泛化到新物品。因此該模型結(jié)合內(nèi)容與行為提高模型的泛化能力。

在[8]中，作者通過(guò)引入隱含變量將主題模型與矩陣分解（PMF）相結(jié)合，將item的隱變量替換成了item主題向量 $\theta_j$ 與隱向量 $\xi_j$ 的加和 $v_j = \theta_j + \xi_j$ ，其中隱向量決定了推薦對(duì)新舊物品的偏執(zhí)

3.排序

3.1.評(píng)估：CTR（點(diǎn)擊率）、CVR（轉(zhuǎn)化率）、停留時(shí)長(zhǎng)、Rank、...

3.2.模型：

LR、GBDT、GBDT+LR、xgboost、LGBM、FM / FFM ...

4.序列預(yù)測(cè)

上述皆是基于用戶與物品的點(diǎn)對(duì)推薦模式，并沒(méi)有充分考慮物品的時(shí)序關(guān)系

4.1.基于session的特征：

短期偏好、意圖識(shí)別,

4.2.基于session的模型（可作召回或端到端推薦）：

馬爾科夫決策過(guò)程[9]、隱馬爾科夫、條件隨機(jī)場(chǎng)

[1] Hu Y, Koren Y, Volinsky C. Collaborative filtering for implicit feedback datasets[C] Mining, 2008. ICDM'08. Eighth IEEE International Conference on. Ieee, 2008: 263-272.

[2] R. Salakhutdinov and A. Mnih. Probabilistic matrix factorization. Advances in Neural Information Processing Systems, 20:1257–1264, 2008.

[3] Salakhutdinov R, Mnih A. Bayesian probabilistic matrix factorization using Markov chain Monte Carlo[C]/Proceedings of the 25th international conference on Machine learning. ACM, 2008: 880-887.

[4] Chen T, Zhang W, Lu Q, et al. SVDFeature: a toolkit for feature-based collaborative filtering[J]. Journal of Machine Learning Research, 2012, 13(Dec): 3619-3622.

[5] Rendle S. Factorization machines with libfm[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2012, 3(3): 57.

[6] Juan Y, Zhuang Y, Chin W S, et al. Field-aware factorization machines for CTR prediction[C]/Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016: 43-50.

[7] Adams, Ryan Prescott, George E. Dahl, and Iain Murray. “Incorporating
side information in probabilistic matrix factorization with gaussian
processes.” arXiv preprint arXiv:1003.4944 (2010).

[8] Wang C, Blei D M. Collaborative topic modeling for recommending scientific articles[C]/Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011: 448-456.

[9] Markov decision Processes （MDPs）（Shani et al., 2002）

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書(shū)系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,527評(píng)論 6贊 544
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,687評(píng)論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 178,640評(píng)論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 63,957評(píng)論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,682評(píng)論 6贊 413
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 56,011評(píng)論 1贊 329
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,009評(píng)論 3贊 449
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 43,183評(píng)論 0贊 290
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,714評(píng)論 1贊 336
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 41,435評(píng)論 3贊 359
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,665評(píng)論 1贊 374
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,148評(píng)論 5贊 365
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,838評(píng)論 3贊 350
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 35,251評(píng)論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 36,588評(píng)論 1贊 295
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 52,379評(píng)論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,627評(píng)論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

個(gè)性化推薦典型任務(wù)與傳統(tǒng)算法

個(gè)性化推薦典型任務(wù)與傳統(tǒng)算法

典型任務(wù)和算法（模型）

1.相似匹配（基于內(nèi)容）

2.評(píng)分預(yù)測(cè)

2.1.large scale 問(wèn)題。為什么不直接進(jìn)行回歸預(yù)測(cè)呢？

2.2.user or item based 協(xié)同過(guò)濾

2.3.矩陣分解(model-based 協(xié)同過(guò)濾)：

2.4.基于特征+矩陣分解：

3.排序

3.1.評(píng)估：CTR（點(diǎn)擊率）、CVR（轉(zhuǎn)化率）、停留時(shí)長(zhǎng)、Rank、...

3.2.模型：

4.序列預(yù)測(cè)

4.1.基于session的特征：

4.2.基于session的模型（可作召回或端到端推薦）：

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

個(gè)性化推薦典型任務(wù)與傳統(tǒng)算法

典型任務(wù)和算法（模型）

1.相似匹配（基于內(nèi)容）

2.評(píng)分預(yù)測(cè)

2.1.large scale 問(wèn)題。為什么不直接進(jìn)行回歸預(yù)測(cè)呢？

2.2.user or item based 協(xié)同過(guò)濾

2.3.矩陣分解(model-based 協(xié)同過(guò)濾)：

2.4.基于特征+矩陣分解：

3.排序

3.1.評(píng)估：CTR（點(diǎn)擊率）、CVR（轉(zhuǎn)化率）、停留時(shí)長(zhǎng)、Rank、...

3.2.模型：

4.序列預(yù)測(cè)

4.1.基于session的特征：

4.2.基于session的模型（可作召回或端到端推薦）：

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频