《DRN:A Deep Reinforcement Learning Framework for News Recommendation》論文閱讀筆記

之前學(xué)習(xí)了強(qiáng)化學(xué)習(xí)的一些內(nèi)容以及推薦系統(tǒng)的一些內(nèi)容,二者能否聯(lián)系起來呢!今天閱讀了一篇論文,題目叫《DRN: A Deep Reinforcement Learning Framework for News Recommendation》。該論文便是深度強(qiáng)化學(xué)習(xí)和推薦系統(tǒng)的一個(gè)結(jié)合,也算是提供了一個(gè)利用強(qiáng)化學(xué)習(xí)來做推薦的完整的思路和方法吧。本文便是對(duì)文章中的內(nèi)容的一個(gè)簡(jiǎn)單的介紹,希望對(duì)大家有所啟發(fā)。

1、引言

新聞?lì)I(lǐng)域的個(gè)性化推薦十分重要,傳統(tǒng)的方法如基于內(nèi)容的方法、協(xié)同過濾、深度學(xué)習(xí)方法在建模user-item交互關(guān)系時(shí),經(jīng)常面臨以下三個(gè)問題:

1)難以處理新聞推薦的動(dòng)態(tài)變化。這種動(dòng)態(tài)變化體現(xiàn)在兩個(gè)方面,首先新聞具有很強(qiáng)的時(shí)效性,其次是用戶對(duì)于新聞閱讀的興趣是不斷變化的,如下圖所示:

因此,在建模過程中,不僅要考慮用戶對(duì)當(dāng)前推薦的反饋,還要考慮長(zhǎng)期的影響。就好比買股票,不能只考慮眼前的收益,而是要考慮未來的預(yù)期收益。

2)當(dāng)前的推薦算法通常只考慮用戶的點(diǎn)擊/未點(diǎn)擊 或者 用戶的評(píng)分作為反饋,然而,用戶隔多久會(huì)再次使用服務(wù)也能在一定程度上反映用戶對(duì)推薦結(jié)果的滿意度。

3)目前的推薦系統(tǒng)傾向于推薦用戶重復(fù)或相似內(nèi)容的東西,這也許會(huì)降低用戶在同一個(gè)主題上的興趣度。因此需要進(jìn)行exploration。傳統(tǒng)方法 e -greedy strategy 或者 Upper Con dence Bound (UCB) 都會(huì)在短期對(duì)推薦系統(tǒng)的效果造成一定的影響,需要更有效的exploration策略。

因此,本文提出了基于強(qiáng)化學(xué)習(xí)的推薦系統(tǒng)框架來解決上述提到的三個(gè)問題:

1)首先,使用DQN網(wǎng)絡(luò)來有效建模新聞推薦的動(dòng)態(tài)變化屬性,DQN可以將短期回報(bào)和長(zhǎng)期回報(bào)進(jìn)行有效的模擬。

2)將用戶活躍度(activeness score)作為一種新的反饋信息,用戶活躍度在后面會(huì)詳細(xì)介紹。

3)使用Dueling Bandit Gradient Descent方法來進(jìn)行有效的探索。

算法的框架如下圖所示:

本文的貢獻(xiàn)主要有:

1)提出了一種強(qiáng)化學(xué)習(xí)的框架用于在線新聞的個(gè)性化推薦

2)使用用戶活躍度作為一種新的反饋,來提高推薦的準(zhǔn)確性

3)使用了一種更加高效的探索算法:Dueling Bandit Gra- dient Descent

4)模型可以進(jìn)行在線學(xué)習(xí)和更新,在離線和在線實(shí)驗(yàn)上的表現(xiàn)都超過了傳統(tǒng)的算法。

2、問題定義

下面是本文中的一些符號(hào)約定:

3、模型詳解

3.1 模型整體框架

模型整體框架如下圖所示:

有幾個(gè)關(guān)鍵的環(huán)節(jié):

PUSH:在每一個(gè)時(shí)刻,用戶發(fā)送請(qǐng)求時(shí),agent根據(jù)當(dāng)前的state產(chǎn)生k篇新聞推薦給用戶,這個(gè)推薦結(jié)果是exploitation和exploration的結(jié)合

FEEDBACK:通過用戶對(duì)推薦新聞的點(diǎn)擊行為得到反饋結(jié)果。

MINOR UPDATE:在每個(gè)時(shí)間點(diǎn)過后,根據(jù)用戶的信息(state)和推薦的新聞(action)及得到的反饋(reward),agent會(huì)評(píng)估exploitation network Q 和 exploration network Q ? 的表現(xiàn),如果exploitation network Q效果更好,則模型保持不動(dòng),如果 exploration network Q ? 的表現(xiàn)更好,exploitation network Q的參數(shù)將會(huì)向exploration network Q ?變化。

MAJOR UPDATE:在一段時(shí)間過后,根據(jù)DQN的經(jīng)驗(yàn)池中存放的歷史經(jīng)驗(yàn),對(duì)exploitation network Q 模型參數(shù)進(jìn)行更新。

3.2 特征設(shè)計(jì)

DQN每次的輸入有下面四部分的特征:

新聞的特征:包括題目,作者,排名,類別等等,共417維

用戶的特征:包括用戶在1小時(shí),6小時(shí),24小時(shí),1周,1年內(nèi)點(diǎn)擊過的新聞的特征表示,共413*5=2065維。

新聞和用戶的交互特征:25維。

上下文特征:32維的上下文信息,如時(shí)間,周幾,新聞的新鮮程度等。

在這四組特征中,用戶特征和上下文特征用于表示當(dāng)前的state,新聞特征和交互特征用語表示當(dāng)前的一個(gè)action。

3.3 深度強(qiáng)化學(xué)習(xí)作推薦

這里深度強(qiáng)化學(xué)習(xí)用的是Dueling-Double-DQN。之前我們介紹過DQN的三大改進(jìn),包括Double-DQN,Dueling-DQN和優(yōu)先經(jīng)驗(yàn)回放,這里用到了兩個(gè)。將用戶特征和上下文特征用于表示當(dāng)前的state,新聞特征和交互特征用語表示當(dāng)前的一個(gè)action,經(jīng)過模型可以輸出當(dāng)前狀態(tài)state采取這個(gè)action的預(yù)測(cè)Q值。

Q現(xiàn)實(shí)值包含兩個(gè)部分:立即獲得的獎(jiǎng)勵(lì)和未來獲得獎(jiǎng)勵(lì)的折現(xiàn):

立即的獎(jiǎng)勵(lì)可能包含兩部分,即用戶的點(diǎn)擊獎(jiǎng)勵(lì)和用戶活躍度獎(jiǎng)勵(lì)。由于采取了Double-DQN 的結(jié)構(gòu),Q現(xiàn)實(shí)值的計(jì)算變?yōu)椋?/p>

再加上Dueling的考慮,模型的網(wǎng)絡(luò)結(jié)構(gòu)如下:

文章中關(guān)于DQN的理論部分沒有詳細(xì)介紹,可以參考我之前寫過的強(qiáng)化學(xué)習(xí)系列的文章進(jìn)行理解。

3.4 用戶活躍度

用戶活躍度(User Activeness) 是本文提出的新的可以用作推薦結(jié)果反饋的指標(biāo)。用戶活躍度可以理解為使用app的頻率,好的推薦結(jié)果可以增加用戶使用該app的頻率,因此可以作為一個(gè)反饋指標(biāo)。

用戶活躍度的圖示如下:

如果用戶在一定時(shí)間內(nèi)沒有點(diǎn)擊行為,活躍度會(huì)下降,但一旦有了點(diǎn)擊行為,活躍度會(huì)上升。

在考慮了點(diǎn)擊和活躍度之后,之前提到過的立即獎(jiǎng)勵(lì)變?yōu)椋?/p>

3.5探索

本文的探索采取的是Dueling Bandit Gradient Descent 算法,算法的結(jié)構(gòu)如下:

在DQN網(wǎng)絡(luò)的基礎(chǔ)上又多出來一個(gè)exploration network Q ? ,這個(gè)網(wǎng)絡(luò)的參數(shù)是由當(dāng)前的Q網(wǎng)絡(luò)參數(shù)基礎(chǔ)上加入一定的噪聲產(chǎn)生的,具體來說:

當(dāng)一個(gè)用戶請(qǐng)求到來時(shí),由兩個(gè)網(wǎng)絡(luò)同時(shí)產(chǎn)生top-K的新聞列表,然后將二者產(chǎn)生的新聞進(jìn)行一定程度的混合,然后得到用戶的反饋。如果exploration network Q ?的效果好的話,那么當(dāng)前Q網(wǎng)絡(luò)的參數(shù)向著exploration network Q ?的參數(shù)方向進(jìn)行更新,具體公式如下:

否則的話,當(dāng)前Q網(wǎng)絡(luò)的參數(shù)不變。

總的來說,使用深度強(qiáng)化學(xué)習(xí)來進(jìn)行推薦,同時(shí)考慮了用戶活躍度和對(duì)多樣性推薦的探索,可以說是一個(gè)很完備的推薦框架了!

4、實(shí)驗(yàn)比較

4.1 數(shù)據(jù)集

使用的數(shù)據(jù)集是新聞app得到的數(shù)據(jù):

數(shù)據(jù)中存在明顯的長(zhǎng)尾特點(diǎn):

4.2 評(píng)估指標(biāo):

主要用的評(píng)估指標(biāo)有CTR、top-K準(zhǔn)確率,nDCG,三者的計(jì)算公式如下:

在nDCG中,r是新聞的排序,n是推薦新聞列表的長(zhǎng)度。

4.3 實(shí)驗(yàn)設(shè)定

4.4 對(duì)比模型

本文選取了五個(gè)基準(zhǔn)模型:LR,F(xiàn)M,Wide&Deep,LinUCB,HLinUCB。同時(shí)根據(jù)組件的不同(U代表用戶活躍度,EG代表e-greedy,DBGD代表Dueling Bandit Gradient De- scent )強(qiáng)化學(xué)習(xí)模型又分為以下幾種:

DN:沒有考慮未來收益的Double-DQN

DDQN:考慮未來收益的Double-DQN

DDON+U:考慮未來收益,同時(shí)考慮用戶活躍度的Double-DQN

DDQN+U+EG:采用e-greedy作為探索策略的Double-DQN

DDQN+U+DBGD:采用DBGD作為探索模型的Double-DQN

4.5 離線實(shí)驗(yàn)

離線實(shí)驗(yàn)的結(jié)果如下所示:

本文提出的模型效果明顯好于基準(zhǔn)模型。

4.6 在線實(shí)驗(yàn)

在線實(shí)驗(yàn)的效果分兩部分,準(zhǔn)確率和Diversity。

準(zhǔn)確率

準(zhǔn)確率用CTR來表征,如果CTR高,我們認(rèn)為模型準(zhǔn)確率較好,實(shí)驗(yàn)結(jié)果如下:

多樣性

多樣性這里采用的指標(biāo)是ILS,用來表示推薦列表中item的相似性,如果這個(gè)相似性較低,可以認(rèn)為推薦結(jié)果的多樣性較好,計(jì)算公式如下:

實(shí)驗(yàn)結(jié)果如下:

可以看到DDQN+U+DBGD的多樣性明顯好于其他模型。

作者:石曉文的學(xué)習(xí)日記

鏈接:http://www.lxweimin.com/p/c0384b213320

來源:簡(jiǎn)書

簡(jiǎn)書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,117評(píng)論 6 537
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,860評(píng)論 3 423
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,128評(píng)論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,291評(píng)論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,025評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,421評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,477評(píng)論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,642評(píng)論 0 289
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,177評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,970評(píng)論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,157評(píng)論 1 371
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,717評(píng)論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,410評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,821評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,053評(píng)論 1 289
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,896評(píng)論 3 395
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,157評(píng)論 2 375

推薦閱讀更多精彩內(nèi)容