個(gè)性化推薦典型任務(wù)與傳統(tǒng)算法

典型任務(wù)和算法(模型)

1.相似匹配(基于內(nèi)容)

1.1 標(biāo)簽匹配

1.2 LDA主題模型

2.評(píng)分預(yù)測(cè)

2.1.large scale 問(wèn)題。為什么不直接進(jìn)行回歸預(yù)測(cè)呢?

2.2.user or item based 協(xié)同過(guò)濾

以u(píng)ser-based協(xié)同過(guò)濾為例:找出與當(dāng)前User i最相似的N個(gè)User,并根據(jù)N個(gè)User對(duì)Item的打分估計(jì) i 對(duì)該Item的打分。相似度采用jaccard similarity 或 Cosine Similarity:

\qquad sim(x,y) = \frac {r_x \cap r_y}{r_x \cup r_y}

\qquad sim(x,y) = 1- cosine(x,y) = 1 - \frac{ A \cdot B}{\mid\mid A\mid\mid \ \mid\mid B\mid\mid}

2.3.矩陣分解(model-based 協(xié)同過(guò)濾):

矩陣分解相當(dāng)于:表示學(xué)習(xí)(用戶、物品)+相似匹配

2.3.1.SVD(PCA):

奇異值分解,通過(guò)降維的方法來(lái)補(bǔ)全用戶-物品評(píng)分矩陣,對(duì)矩陣中沒(méi)有出現(xiàn)的值進(jìn)行估計(jì)。缺點(diǎn)是分解前需補(bǔ)全R矩陣的缺失值(比如用全局平均值或用戶、物品平均值進(jìn)行補(bǔ)全),耗費(fèi)存儲(chǔ)大;計(jì)算復(fù)雜度高。

\qquad R' = U_{m\times m}S_{m\times n}V_{n \times n}^T

svd.png

2.3.2.ALS:

交替最小二乘梯度下降

als算法.png

\qquad R' = X_{m \times k}Y_{n \times k}^T
\qquad L_{exp} = \sum\limits_{u,i \in S}(r_{ui} - \textbf{x}_{u}^{\intercal} \cdot{} \textbf{y}_{i})^{2} + \lambda_{x} \sum\limits_{u} \left\Vert \textbf{x}_{u} \right\Vert^{2} + \lambda_{y} \sum\limits_{u} \left\Vert \textbf{y}_{i} \right\Vert^{2}

求解方式固定X求Y,固定Y求X

\qquad x_u=(Y^TY+\lambda I)^{?1}Y^Tr(u)
\qquad y_i=(X^TX+\lambda I)^{?1}X^Tr(i)

支持隱反饋數(shù)據(jù)(0,1)(加權(quán)的正則化矩陣分解)[1]

\qquad L_{WRMF} = \sum\limits_{u,i}c_{ui} \big( p_{ui} - \textbf{x}_{u}^{\intercal} \cdot{} \textbf{y}_{i} \big) ^{2} + \lambda_{x} \sum\limits_{u} \left\Vert \textbf{x}_{u} \right\Vert^{2} + \lambda_{y} \sum\limits_{u} \left\Vert \textbf{y}_{i} \right\Vert^{2}
\qquad c_{ui} = 1 + \alpha d_{ui}
\qquad x_{u} = (Y^{T}C^{u}Y + \lambda I )^{ - 1 }Y^{T}C^{u}r(u)
\qquad y_{i} = (X^{T}C^{i}X + \lambda I )^{ - 1 }X^{T}C^{i}r(i)

2.3.3.PMF

Probabilistic Matrix Factorization概率矩陣分解[2]

傳統(tǒng)的協(xié)同過(guò)濾方法既不能處理大數(shù)據(jù)量的推薦,也不能處理只有很少評(píng)分的用戶。這篇論文提出了著名的概率矩陣分解的方法來(lái)解決這個(gè)問(wèn)題。概率矩陣分解的思想是以中線性因子模型,它使用與用戶相關(guān)的系數(shù),將用戶的偏好建模成一個(gè)一系列向量的線性組合。

博文

2.3.4.BPMF

Bayesian Probabilistic Matrix Factorization貝葉斯概率矩陣分解[3]

本論文的模型和前文類似,但在求解時(shí),是從貝葉斯角度而不是傳統(tǒng)概率角度出發(fā):不再把系統(tǒng)參數(shù)當(dāng)做一個(gè)固定值估計(jì),而是作為一個(gè)服從某種分布的隨機(jī)變量,轉(zhuǎn)而估計(jì)該分布的參數(shù)。

2.4.基于特征+矩陣分解:

物品特征、用戶特征、用戶行為特征
2.4.1.SVD++(加入用戶偏執(zhí)的SVD)
\qquad R' = B_i + B_u + X_{m \times k}Y_{n \times k}^T

2.4.2.SVDFeature[4]

SVDFeature是由Apex Data & Knowledge Management Lab在KDD CUP11競(jìng)賽中開(kāi)發(fā)出來(lái)的工具包。它的目的是有效地解決基于特征的矩陣分解

三種激活函數(shù)(預(yù)測(cè)值的轉(zhuǎn)換)與損失函數(shù),可應(yīng)用于回歸與二分類。 TODO
\qquad R' = \mu + (\sum_{j}b_j^{(g)} \gamma_j + \sum_{j}b_j^{(u)} \alpha_j + \sum_{j}b_j^{(i)} \beta_j) + (\sum_j p_j)^T (\sum_j q_j\beta _j), \qquad \alpha表示用戶特征,\beta表示商品特征,\gamma表示全局特征

2.4.3.FM

Factorization Machine 因子分解機(jī)[5],解決稀疏數(shù)據(jù)下的特征組合問(wèn)題,多種激活函數(shù)與損失函數(shù)可以應(yīng)用于比如回歸、分類、排序。 TODO
\qquad R' = w_0 + \sum_{i=1}^{n}w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^n<V_i,V_j>x_i x_j

2.4.4.FFM[6]

在FM模型中,每一個(gè)特征會(huì)對(duì)應(yīng)一個(gè)隱變量,但在FFM模型中,認(rèn)為應(yīng)該將特征分為多個(gè)field,每個(gè)特征對(duì)應(yīng)每個(gè)field分別有一個(gè)隱變量。也就是說(shuō),“Day=26/11/15”這個(gè)特征與“Country”特征和“Ad_type"特征進(jìn)行關(guān)聯(lián)的時(shí)候使用不同的隱向量,這與“Country”和“Ad_type”的內(nèi)在差異相符,也是FFM中“field-aware”的由來(lái)。
\qquad R' = w_0 + \sum_{i=1}^{n}w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^n<V_{i,f_j},V_{j,f_i}>x_i x_j

2.4.5 DPMF[7]

依賴輔助特征的矩陣分解Dependent Probabilistic Matrix Factorization

與PMF類似,加入了一些經(jīng)過(guò)高斯處理的特征信息

2.4.6.Collaborative Topic Modeling(LDA+協(xié)同)(內(nèi)容+行為)[8]

基于協(xié)同的推薦只會(huì)推薦舊的物品,不能泛化到新物品。因此該模型結(jié)合內(nèi)容與行為提高模型的泛化能力。

在[8]中,作者通過(guò)引入隱含變量將主題模型與矩陣分解(PMF)相結(jié)合,將item的隱變量替換成了item主題向量\theta_j與隱向量\xi_j的加和v_j = \theta_j + \xi_j,其中隱向量決定了推薦對(duì)新舊物品的偏執(zhí)

3.排序

3.1.評(píng)估:CTR(點(diǎn)擊率)、CVR(轉(zhuǎn)化率)、停留時(shí)長(zhǎng)、Rank、...

3.2.模型:

LR、GBDT、GBDT+LR、xgboost、LGBM、FM / FFM ...

4.序列預(yù)測(cè)

上述皆是基于用戶與物品的點(diǎn)對(duì)推薦模式,并沒(méi)有充分考慮物品的時(shí)序關(guān)系

4.1.基于session的特征:

短期偏好、意圖識(shí)別,

4.2.基于session的模型(可作召回或端到端推薦):

馬爾科夫決策過(guò)程[9]、隱馬爾科夫、條件隨機(jī)場(chǎng)

[1] Hu Y, Koren Y, Volinsky C. Collaborative filtering for implicit feedback datasets[C] Mining, 2008. ICDM'08. Eighth IEEE International Conference on. Ieee, 2008: 263-272.

[2] R. Salakhutdinov and A. Mnih. Probabilistic matrix factorization. Advances in Neural Information Processing Systems, 20:1257–1264, 2008.

[3] Salakhutdinov R, Mnih A. Bayesian probabilistic matrix factorization using Markov chain Monte Carlo[C]/Proceedings of the 25th international conference on Machine learning. ACM, 2008: 880-887.

[4] Chen T, Zhang W, Lu Q, et al. SVDFeature: a toolkit for feature-based collaborative filtering[J]. Journal of Machine Learning Research, 2012, 13(Dec): 3619-3622.

[5] Rendle S. Factorization machines with libfm[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2012, 3(3): 57.

[6] Juan Y, Zhuang Y, Chin W S, et al. Field-aware factorization machines for CTR prediction[C]/Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016: 43-50.

[7] Adams, Ryan Prescott, George E. Dahl, and Iain Murray. “Incorporating
side information in probabilistic matrix factorization with gaussian
processes.” arXiv preprint arXiv:1003.4944 (2010).

[8] Wang C, Blei D M. Collaborative topic modeling for recommending scientific articles[C]/Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011: 448-456.

[9] Markov decision Processes (MDPs)(Shani et al., 2002)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,687評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,640評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,957評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,682評(píng)論 6 413
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 56,011評(píng)論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評(píng)論 3 449
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 43,183評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,714評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,435評(píng)論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,665評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評(píng)論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,838評(píng)論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,251評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,588評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,379評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,627評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容