推薦系統(tǒng)遇上深度學(xué)習(xí)(九十九)-[華為]多教師網(wǎng)絡(luò)知識蒸餾來提升點(diǎn)擊率預(yù)估效果

本文是CIKM20上華為發(fā)表的一篇關(guān)于使用知識蒸餾來提升點(diǎn)擊率預(yù)估效果的論文,論文標(biāo)題是《Ensembled CTR Prediction via Knowledge Distillation》,下載地址為:https://dl.acm.org/doi/pdf/10.1145/3340531.3412704

1、背景

當(dāng)前對于點(diǎn)擊率預(yù)估的研究大致集中在兩方面,一種是嘗試更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)來更好的捕捉特征之間的交叉信息以及用戶的動態(tài)行為信息,如引入卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制和圖神經(jīng)網(wǎng)絡(luò)等;另一種趨勢是沿用Wide & Deep的思路,嘗試將多個子模塊進(jìn)行融合,如DeepFM、DCN、XDeepFM、AutoInt等。盡管這些研究帶來了點(diǎn)擊率預(yù)估效果的提升,但是隨著模型結(jié)構(gòu)的復(fù)雜,在實(shí)際工業(yè)界使用這些模型耗時會越來越高,往往難以真正在線上進(jìn)行部署。

那么如何既能保持多模型融合的效果,同時能夠使得模型更加輕量化呢?知識蒸餾的方式是一種不錯的選擇。

2、多教師網(wǎng)絡(luò)知識蒸餾

2.1 單教師網(wǎng)絡(luò)知識蒸餾

首先來看下單教師網(wǎng)絡(luò)知識蒸餾的框架:

可以看到,同樣的特征分別輸入到teacher網(wǎng)絡(luò)和student網(wǎng)絡(luò)中,得到各自的輸出,那么teacher網(wǎng)絡(luò)和student網(wǎng)絡(luò)的損失分別為:

teacher網(wǎng)絡(luò)的損失只有交叉熵?fù)p失,而student網(wǎng)絡(luò)的損失除包含交叉熵?fù)p失外,還包括一項(xiàng)蒸餾損失。蒸餾損失通常有兩種計(jì)算方式:soft label和hint regression。

soft label

soft label的計(jì)算公式如下:

這里為什么要使用soft label呢?在計(jì)算softmax之前,對所有值乘上一個大于1的數(shù),會起到sharp的作用,使得預(yù)測概率最高的那一類更加接近于1,而除以一個大于1的數(shù),則會起到soft的作用,使得類別的預(yù)測概率更加接近。將這樣的信息傳遞給student網(wǎng)絡(luò),可以提供額外的信息,例如下圖中假設(shè)soft label是預(yù)測為1的概率是0.7,7是0.2,9是0.1,那么student可以學(xué)到不同類別之間的隱藏關(guān)系,比如1和7可能是更接近的,1和9也是比較接近的。

上述圖片出自課程:https://www.bilibili.com/video/BV1SC4y1h7HB?p=7

hint regression

hint regression的目的是引導(dǎo)student網(wǎng)絡(luò)學(xué)習(xí)teacher網(wǎng)絡(luò)的中間層表示。這里VT代表選擇的teacher網(wǎng)絡(luò)的中間層表示,VS代表student網(wǎng)絡(luò)中被指導(dǎo)的層的輸出。通過矩陣W進(jìn)行變換,期望二者的距離越近越好,此時蒸餾損失表示為:

2.2 多教師網(wǎng)絡(luò)知識蒸餾

模型融合能夠有效提升CTR預(yù)估的效果,但會帶來耗時的增加。因此,可以通過知識蒸餾的方式,讓student網(wǎng)絡(luò)從多個模型中進(jìn)行學(xué)習(xí),來達(dá)到近似或比模型融合更佳的效果。因此,論文提出了多教師網(wǎng)絡(luò)知識蒸餾,其結(jié)構(gòu)如下圖所示:

這里的主要問題是,多teacher網(wǎng)絡(luò)如何向student網(wǎng)絡(luò)傳遞知識?最簡單的方式就是對所有teacher的輸出進(jìn)行平均。這種做法實(shí)現(xiàn)簡單,但是不同的teacher的模型結(jié)構(gòu)和訓(xùn)練框架都不同,所能夠提供的知識的重要程度也是不同的,如果有一個效果較差的teacher網(wǎng)絡(luò),可能會影響到student網(wǎng)絡(luò)的學(xué)習(xí)。因此可以對不同teacher網(wǎng)絡(luò)的知識進(jìn)行加權(quán):

權(quán)重的學(xué)習(xí)通過一個gate網(wǎng)絡(luò)得到,計(jì)算方式如下:

2.3 網(wǎng)絡(luò)訓(xùn)練

知識蒸餾一般有兩種訓(xùn)練方式,pre- train方式和co-train方式。pre- train方式是預(yù)先訓(xùn)練teacher網(wǎng)絡(luò),然后再訓(xùn)練student網(wǎng)絡(luò);co-train方式則是通過上述介紹的損失對teacher網(wǎng)絡(luò)和student網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。co-train方式往往訓(xùn)練速度更快,但所需的GPU資源也會更多。后續(xù)實(shí)驗(yàn)部分也會看一下這兩種實(shí)驗(yàn)的效果對比。

3、實(shí)驗(yàn)結(jié)果

最后簡單看下實(shí)驗(yàn)結(jié)果部分。首先看下單教師網(wǎng)絡(luò)知識蒸餾的結(jié)果,可以看到,無論選擇DeepFM、DCN或是xDeepFM作為teacher網(wǎng)絡(luò),均是使用soft label和pre-train方式得到了最優(yōu)的效果:

再看下多教師網(wǎng)絡(luò)知識蒸餾的效果,其中3T(M)代表DeepFM、DCN和xDeepFM三個網(wǎng)絡(luò)作為teacher網(wǎng)絡(luò),6T(M)則是每種模型使用不同的隨機(jī)因子,訓(xùn)練兩遍。3T(D)代表使用同一模型,將同一數(shù)據(jù)集切分成3份訓(xùn)練集進(jìn)行訓(xùn)練,6T(D)則是數(shù)據(jù)集切分成6份進(jìn)行訓(xùn)練:

從上表可以得到如下的結(jié)論:
1)隨著1T->3T->6T,teacher網(wǎng)絡(luò)和student網(wǎng)絡(luò)的效果都是越來越好的
2)3T(D)/6T(D)的效果好于3T(M)/6T(M),這可能是由于選擇的Teacher是3種模型中最好的模型導(dǎo)致的
3)student網(wǎng)絡(luò)的效果反而比teacher網(wǎng)絡(luò)更好,一種解釋是,student網(wǎng)絡(luò)不僅學(xué)習(xí)了teacher網(wǎng)絡(luò)的經(jīng)驗(yàn),同時student網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,保持了更好的泛化性能。

好了,本文就到這里了,論文對于知識蒸餾這一知識點(diǎn)的總結(jié)以及實(shí)驗(yàn)部分都是值得一看的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,732評論 6 539
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,214評論 3 426
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,781評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,588評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,315評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,699評論 1 327
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,698評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,882評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,441評論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,189評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,388評論 1 372
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,933評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,613評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,023評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,310評論 1 293
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,112評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,334評論 2 377