【DW12月-推薦系統(tǒng)】Task01 熟悉推薦系統(tǒng)基本流程

參考鏈接:https://github.com/datawhalechina/fun-rec

一、掌握數(shù)據(jù)分析方法

數(shù)據(jù)分析的價(jià)值主要在于熟悉了解整個(gè)數(shù)據(jù)集的基本情況包括每個(gè)文件里有哪些數(shù)據(jù),具體的文件中的每個(gè)字段表示什么實(shí)際含義,以及數(shù)據(jù)集中特征之間的相關(guān)性,在推薦場景下主要就是分析用戶本身的基本屬性,文章基本屬性,以及用戶和文章交互的一些分布。
常用的數(shù)據(jù)分析方法有描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、信度分析、列聯(lián)表分析、相關(guān)分析、方差分析、回歸分析、聚類分析、判別分析、主成分分析、因子分析、時(shí)間序列分析、生存分析、典型相關(guān)分析、ROC分析等。不是所有的分析方法都需要用到,不同的場景使用不同的方法進(jìn)行分析。

二、了解多路召回策略

召回負(fù)責(zé)從百萬級物品中粗選出千級數(shù)量物品,常用算法有協(xié)同過濾、用戶畫像等,有時(shí)候也叫粗排層。
所謂的多路召回策略,就是指采用不同的策略、特征或簡單模型,分別召回一部分候選集,然后把候選集混合在一起供后續(xù)排序模型使用??梢悦黠@的看出,“多路召回策略”是在“計(jì)算速度”和“召回率”之間進(jìn)行權(quán)衡的結(jié)果。其中,各種簡單策略保證候選集的快速召回,從不同角度設(shè)計(jì)的策略保證召回率接近理想的狀態(tài),不至于損傷排序效果。如圖1是多路召回的一個(gè)示意圖,在多路召回中,每個(gè)策略之間毫不相關(guān),所以一般可以寫并發(fā)多線程同時(shí)進(jìn)行,這樣可以更加高效。

圖1

圖1只是一個(gè)多路召回的例子,通??梢允褂枚喾N不同的策略來獲取用戶排序的候選商品集合,而具體使用哪些召回策略其實(shí)是與業(yè)務(wù)強(qiáng)相關(guān)的 ,針對不同的任務(wù)就會(huì)有對于該業(yè)務(wù)真實(shí)場景下需要考慮的召回規(guī)則。例如新聞推薦,召回規(guī)則可以是“熱門視頻”、“導(dǎo)演召回”、“演員召回”、“最近上映“、”流行趨勢“、”類型召回“等。

三、了解冷啟動(dòng)策略

冷啟動(dòng)問題可以分成三類:文章冷啟動(dòng),用戶冷啟動(dòng),系統(tǒng)冷啟動(dòng)。

  • 文章冷啟動(dòng):對于一個(gè)平臺(tái)系統(tǒng)新加入的文章,該文章沒有任何的交互記錄,如何推薦給用戶的問題。(場景可以認(rèn)為是,日志數(shù)據(jù)中沒有出現(xiàn)過的文章都可以認(rèn)為是冷啟動(dòng)的文章)
  • 用戶冷啟動(dòng):對于一個(gè)平臺(tái)系統(tǒng)新來的用戶,該用戶還沒有文章的交互信息,如何給該用戶進(jìn)行推薦。(場景就是,測試集中的用戶是否在測試集對應(yīng)的log數(shù)據(jù)中出現(xiàn)過,如果沒有出現(xiàn)過,那么可以認(rèn)為該用戶是冷啟動(dòng)用戶。但是有時(shí)候并沒有這么嚴(yán)格,我們也可以自己設(shè)定某些指標(biāo)來判別哪些用戶是冷啟動(dòng)用戶,比如通過使用時(shí)長,點(diǎn)擊率,留存率等等)
  • 系統(tǒng)冷啟動(dòng):就是對于一個(gè)平臺(tái)剛上線,還沒有任何的相關(guān)歷史數(shù)據(jù),此時(shí)就是系統(tǒng)冷啟動(dòng),其實(shí)也就是前面兩種的一個(gè)綜合。

四、了解常見的排序模型

排序負(fù)責(zé)對召回層召回的千級物品進(jìn)行精細(xì)排序,也叫精排層。
常見的排序方法有冒泡排序、選擇排序、插入排序、希爾排序、快速排序、歸并排序和堆排序。

五、了解模型融合

在每個(gè)召回排序策略后都得到了一些候選集后,然后按照順序、平均法等完成加權(quán)融合。

六、總結(jié)

推薦系統(tǒng)需要學(xué)習(xí)的東西很多,代碼超多而且很復(fù)雜,召回與排序只是冰山一角,但是掌握它的基礎(chǔ)和適用場景能解決很多問題。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容