正式回視頻組的第一周,主要在弄視頻熱門排行榜算法的東西,順帶為即將到來的直播打點(diǎn)算法做一些準(zhǔn)備。
去了一趟珠海,和數(shù)據(jù)中心的同事溝通還算順利,不過為了今后的策略工作不會太吃力,周末把概率論和統(tǒng)計(jì)學(xué)又復(fù)習(xí)了一遍,下周開始新書。
關(guān)于熱門視頻排行榜
為什么要做熱門排行榜
視頻和直播都為內(nèi)容型產(chǎn)品。當(dāng)前內(nèi)容平臺大部分都有內(nèi)容量相對于觀眾量溢出的問題,如果不對內(nèi)容進(jìn)行一些分發(fā),長尾內(nèi)容很可能得不到見人的機(jī)會。解決的辦法可能包括為不同類內(nèi)容增加不同的曝光入口,人工干預(yù)長尾內(nèi)容的分發(fā)或者進(jìn)行個性化推薦。熱門排行榜在策略上可反映為一個優(yōu)質(zhì)內(nèi)容的曝光入口,同時也能通過人工干預(yù)影響上榜視頻按照某業(yè)務(wù)目標(biāo)的分布(幫目標(biāo)內(nèi)容增加曝光機(jī)會)。
準(zhǔn)備期間,向朋友要了SBS測試的文檔,了解了其他策略產(chǎn)品設(shè)計(jì)的思路和效果評價指標(biāo)
大概確定了思路,整個過程為:確定系統(tǒng)目標(biāo)——需求定性——需求定量(確定影響因子及影響方向)——確定評價指標(biāo)
1. 確定系統(tǒng)目標(biāo)
目標(biāo)主要分為兩類:業(yè)務(wù)目標(biāo)和用戶需求
業(yè)務(wù)目標(biāo)在搜索上可能表現(xiàn)為搜索廣告等商業(yè)產(chǎn)品或者權(quán)威性結(jié)果的提權(quán)顯示,而在排行榜的設(shè)計(jì)上反映為對某類內(nèi)容的”調(diào)權(quán)“,例如希望更多的熱門主播內(nèi)容上榜還是更多小主播的內(nèi)容上榜......諸如此類,這是”我們“業(yè)務(wù)方的需求。
用戶需求為用戶對一個熱門視頻排行榜的心理預(yù)期,即:評價一個熱門排行榜的標(biāo)準(zhǔn)是什么?用戶希望在排行榜上看到哪些內(nèi)容?,這是一個對”優(yōu)秀的排行榜的客觀定義“。確定用戶需求的過程即是定性的過程。
2. 定性
如1所說,需要根據(jù)用戶需求和業(yè)務(wù)目標(biāo)對排行榜做一個定性的界定。在此需要做一個劃分:對排行榜上的視頻和排行榜本身。
視頻的評價維度
歷史熱門程度:視頻從放出至今的播放數(shù)據(jù)表現(xiàn)
時效性:視頻內(nèi)容是否已經(jīng)過時,是否能滿足時效的期望,發(fā)表時間新,但實(shí)際內(nèi)容是舊聞,或者幾個月或者更早發(fā)表的內(nèi)容都是時效性較差的例子。
視頻可看性:用戶是否愿意多次觀看同一視頻,例如同一用戶多次觀看某視頻或者用戶對某視頻進(jìn)行了收藏操作。
權(quán)威性:視頻源的播主是否具有權(quán)威性(名氣的背書),用戶更喜歡看來自于著名播客和直播主的內(nèi)容。
原創(chuàng)性(業(yè)務(wù)):”我們“希望給原創(chuàng)性視頻更多的上榜曝光機(jī)會。
貼合熱點(diǎn)(業(yè)務(wù)):視頻內(nèi)容是否符合流行趨勢,突發(fā)事件的視頻內(nèi)容和近期討論熱度高的話題的視頻內(nèi)容貼合熱點(diǎn)的程度較高,業(yè)務(wù)上需要有對熱門或突發(fā)的內(nèi)容有調(diào)權(quán)機(jī)會。
排行榜的評價維度
更新速度:排行榜上視頻的刷新速度,視頻排行榜上內(nèi)容長時間更新速度慢,用戶下次觀看排行榜上沒有新內(nèi)容,會有”疏于管理,活躍度低,無運(yùn)營“的觀感。
多樣性:是否滿足用戶被動瀏覽場景下對內(nèi)容差異性的需求,若本身內(nèi)容生產(chǎn)上News類內(nèi)容就較多,那么不做處理很有可能出現(xiàn)被News全部占據(jù)的現(xiàn)象。
最后,排行榜容易出現(xiàn)的馬太效應(yīng)問題,需要對排行榜做一個衰減的動作。
以上的維度不可能在一期中完全實(shí)現(xiàn),所以我們第一期的重點(diǎn)是實(shí)現(xiàn):歷史熱門程度。時效性,更新速度和多樣性。其他需要配合視頻CMS的改良的進(jìn)度,排后處理。
3. 定量
這個過程是確定”定性“過程維度的一些指標(biāo)。我們主要考慮到的包括:視頻本身的長度,單視頻歷史播放的時長,單視頻播放人數(shù)等直觀的數(shù)據(jù),據(jù)當(dāng)前時間點(diǎn)發(fā)布的時長的衰減速度,已上榜視頻的衰減速度等客觀需要定義的參數(shù)(評論收藏等指標(biāo)當(dāng)然也很重要,但是鑒于產(chǎn)品本身原因,后續(xù)才會引入),還有人均觀看占比這一我們?nèi)藶槎x的指標(biāo)。
視頻本身長度,播放數(shù)據(jù)的表現(xiàn)上,不同長度的視頻差別很大,除去異常極端數(shù)據(jù)之外,可將視頻按長度分組。這個分組同時也會影響到排行榜上不同長度視頻的分布(多樣性)。
播放時長,播放人數(shù)等指標(biāo)都比較常規(guī),不多提。
人均觀看占比為我們定義的指標(biāo),等于"單視頻歷史播放的時長/視頻自身時長/觀看人數(shù)。可以理解為評價一個視頻可看性的標(biāo)準(zhǔn)。其中綜合了幾個指標(biāo),也消除了一定的因?yàn)橐曨l時長不同的影響。(短視頻很容易看多次,而不見得是因?yàn)閮?nèi)容優(yōu)秀)
按發(fā)布時間和上榜時間的衰減也是必須的。
具體的閾值,和單項(xiàng)scores標(biāo)準(zhǔn)化的過程不再匱述。
一般最后總的scores會為幾個指標(biāo)通過標(biāo)準(zhǔn)化之后的分?jǐn)?shù)乘以不同權(quán)重(業(yè)務(wù)目標(biāo)決定)的線性加權(quán)。排行榜算法最后通常會有一個衰減的過程,一般通過除以一個指數(shù)函數(shù)處理。
4. 評價指標(biāo)
排行榜頁面轉(zhuǎn)化率
排行榜頁面點(diǎn)擊分布
以及主觀的上榜內(nèi)容質(zhì)量,時效性等
etc
必要時可進(jìn)行AB test
END
排行榜這個東西,一步步來,看數(shù)據(jù)再調(diào)整。后續(xù)內(nèi)容CMS重建后,tag體系也會介入排行榜的影響因素。理想情況下運(yùn)營影響排行榜主要通過tag來進(jìn)行。
為方便今后的調(diào)整方便,一般需要和數(shù)據(jù)同事提前溝通下算法的結(jié)構(gòu),以防后期數(shù)據(jù)表結(jié)構(gòu)出現(xiàn)問題。
從數(shù)據(jù)表的角度看,主要分為,按視頻時長分為的組——channel(內(nèi)容大類型)——tag——權(quán)重
業(yè)務(wù)需求+用戶需求都非常重要,首先想清楚業(yè)務(wù)目的是什么,如何影響。
后續(xù)可能還會加入某些指標(biāo)變化率這類變化更快速,來自反饋的指標(biāo)。
靜待調(diào)整完成。
概率論和統(tǒng)計(jì)學(xué)
單純是為了刷下一本書,周末快速的把概率,期望方差,常見分布類型和適用場景,置信區(qū)間,假設(shè)檢驗(yàn)和線性回歸最小二乘法復(fù)習(xí)了一遍。
那些公式和分布適用場景再記一記吧= =希望不要很快的又忘掉(下周會不會發(fā)現(xiàn)高數(shù)和線代也要復(fù)習(xí)了)
下周計(jì)劃
準(zhǔn)備開搞直播打點(diǎn)算法,暫時思路有點(diǎn)閉塞,需要拿到直播后臺數(shù)據(jù)再看看。
個性化推薦:直播和視頻剛好是兩個方向,待補(bǔ)充知識。
Spotify:被拉進(jìn)打卡群見到了不少優(yōu)秀的交互,準(zhǔn)備好好挖一下Spotify的優(yōu)秀之處。
順便終于可以開始看數(shù)據(jù)挖掘了哈哈哈,看完之后應(yīng)該可以看計(jì)算廣告的后半部分了~
阮一峰老師的六大排序算法可以一看,Reddit和IMDB的“過期”案例還是很有參考價值。特別是威爾遜算法,用到置信區(qū)間,很是巧妙。
傳送門:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html