20170226周總結(jié)

正式回視頻組的第一周,主要在弄視頻熱門排行榜算法的東西,順帶為即將到來的直播打點(diǎn)算法做一些準(zhǔn)備。

去了一趟珠海,和數(shù)據(jù)中心的同事溝通還算順利,不過為了今后的策略工作不會太吃力,周末把概率論和統(tǒng)計(jì)學(xué)又復(fù)習(xí)了一遍,下周開始新書。


關(guān)于熱門視頻排行榜

為什么要做熱門排行榜

視頻和直播都為內(nèi)容型產(chǎn)品。當(dāng)前內(nèi)容平臺大部分都有內(nèi)容量相對于觀眾量溢出的問題,如果不對內(nèi)容進(jìn)行一些分發(fā),長尾內(nèi)容很可能得不到見人的機(jī)會。解決的辦法可能包括為不同類內(nèi)容增加不同的曝光入口,人工干預(yù)長尾內(nèi)容的分發(fā)或者進(jìn)行個性化推薦。熱門排行榜在策略上可反映為一個優(yōu)質(zhì)內(nèi)容的曝光入口,同時也能通過人工干預(yù)影響上榜視頻按照某業(yè)務(wù)目標(biāo)的分布(幫目標(biāo)內(nèi)容增加曝光機(jī)會)。

準(zhǔn)備期間,向朋友要了SBS測試的文檔,了解了其他策略產(chǎn)品設(shè)計(jì)的思路和效果評價指標(biāo)

大概確定了思路,整個過程為:確定系統(tǒng)目標(biāo)——需求定性——需求定量(確定影響因子及影響方向)——確定評價指標(biāo)


1. 確定系統(tǒng)目標(biāo)

目標(biāo)主要分為兩類:業(yè)務(wù)目標(biāo)和用戶需求

業(yè)務(wù)目標(biāo)在搜索上可能表現(xiàn)為搜索廣告等商業(yè)產(chǎn)品或者權(quán)威性結(jié)果的提權(quán)顯示,而在排行榜的設(shè)計(jì)上反映為對某類內(nèi)容的”調(diào)權(quán)“,例如希望更多的熱門主播內(nèi)容上榜還是更多小主播的內(nèi)容上榜......諸如此類,這是”我們“業(yè)務(wù)方的需求。

用戶需求為用戶對一個熱門視頻排行榜的心理預(yù)期,即:評價一個熱門排行榜的標(biāo)準(zhǔn)是什么?用戶希望在排行榜上看到哪些內(nèi)容?,這是一個對”優(yōu)秀的排行榜的客觀定義“。確定用戶需求的過程即是定性的過程。

2. 定性

如1所說,需要根據(jù)用戶需求和業(yè)務(wù)目標(biāo)對排行榜做一個定性的界定。在此需要做一個劃分:對排行榜上的視頻和排行榜本身。

視頻的評價維度

歷史熱門程度:視頻從放出至今的播放數(shù)據(jù)表現(xiàn)

時效性:視頻內(nèi)容是否已經(jīng)過時,是否能滿足時效的期望,發(fā)表時間新,但實(shí)際內(nèi)容是舊聞,或者幾個月或者更早發(fā)表的內(nèi)容都是時效性較差的例子。

視頻可看性:用戶是否愿意多次觀看同一視頻,例如同一用戶多次觀看某視頻或者用戶對某視頻進(jìn)行了收藏操作。

權(quán)威性:視頻源的播主是否具有權(quán)威性(名氣的背書),用戶更喜歡看來自于著名播客和直播主的內(nèi)容。

原創(chuàng)性(業(yè)務(wù)):”我們“希望給原創(chuàng)性視頻更多的上榜曝光機(jī)會。

貼合熱點(diǎn)(業(yè)務(wù)):視頻內(nèi)容是否符合流行趨勢,突發(fā)事件的視頻內(nèi)容和近期討論熱度高的話題的視頻內(nèi)容貼合熱點(diǎn)的程度較高,業(yè)務(wù)上需要有對熱門或突發(fā)的內(nèi)容有調(diào)權(quán)機(jī)會。


排行榜的評價維度

更新速度:排行榜上視頻的刷新速度,視頻排行榜上內(nèi)容長時間更新速度慢,用戶下次觀看排行榜上沒有新內(nèi)容,會有”疏于管理,活躍度低,無運(yùn)營“的觀感。

多樣性:是否滿足用戶被動瀏覽場景下對內(nèi)容差異性的需求,若本身內(nèi)容生產(chǎn)上News類內(nèi)容就較多,那么不做處理很有可能出現(xiàn)被News全部占據(jù)的現(xiàn)象。

最后,排行榜容易出現(xiàn)的馬太效應(yīng)問題,需要對排行榜做一個衰減的動作。

以上的維度不可能在一期中完全實(shí)現(xiàn),所以我們第一期的重點(diǎn)是實(shí)現(xiàn):歷史熱門程度。時效性,更新速度和多樣性。其他需要配合視頻CMS的改良的進(jìn)度,排后處理。

3. 定量

這個過程是確定”定性“過程維度的一些指標(biāo)。我們主要考慮到的包括:視頻本身的長度,單視頻歷史播放的時長,單視頻播放人數(shù)等直觀的數(shù)據(jù),據(jù)當(dāng)前時間點(diǎn)發(fā)布的時長的衰減速度,已上榜視頻的衰減速度等客觀需要定義的參數(shù)(評論收藏等指標(biāo)當(dāng)然也很重要,但是鑒于產(chǎn)品本身原因,后續(xù)才會引入),還有人均觀看占比這一我們?nèi)藶槎x的指標(biāo)。

視頻本身長度,播放數(shù)據(jù)的表現(xiàn)上,不同長度的視頻差別很大,除去異常極端數(shù)據(jù)之外,可將視頻按長度分組。這個分組同時也會影響到排行榜上不同長度視頻的分布(多樣性)。

播放時長,播放人數(shù)等指標(biāo)都比較常規(guī),不多提。

人均觀看占比為我們定義的指標(biāo),等于"單視頻歷史播放的時長/視頻自身時長/觀看人數(shù)。可以理解為評價一個視頻可看性的標(biāo)準(zhǔn)。其中綜合了幾個指標(biāo),也消除了一定的因?yàn)橐曨l時長不同的影響。(短視頻很容易看多次,而不見得是因?yàn)閮?nèi)容優(yōu)秀)

按發(fā)布時間和上榜時間的衰減也是必須的。

具體的閾值,和單項(xiàng)scores標(biāo)準(zhǔn)化的過程不再匱述。

一般最后總的scores會為幾個指標(biāo)通過標(biāo)準(zhǔn)化之后的分?jǐn)?shù)乘以不同權(quán)重(業(yè)務(wù)目標(biāo)決定)的線性加權(quán)。排行榜算法最后通常會有一個衰減的過程,一般通過除以一個指數(shù)函數(shù)處理。

4. 評價指標(biāo)

排行榜頁面轉(zhuǎn)化率

排行榜頁面點(diǎn)擊分布

以及主觀的上榜內(nèi)容質(zhì)量,時效性等

etc

必要時可進(jìn)行AB test

END

排行榜這個東西,一步步來,看數(shù)據(jù)再調(diào)整。后續(xù)內(nèi)容CMS重建后,tag體系也會介入排行榜的影響因素。理想情況下運(yùn)營影響排行榜主要通過tag來進(jìn)行。

為方便今后的調(diào)整方便,一般需要和數(shù)據(jù)同事提前溝通下算法的結(jié)構(gòu),以防后期數(shù)據(jù)表結(jié)構(gòu)出現(xiàn)問題。

從數(shù)據(jù)表的角度看,主要分為,按視頻時長分為的組——channel(內(nèi)容大類型)——tag——權(quán)重

業(yè)務(wù)需求+用戶需求都非常重要,首先想清楚業(yè)務(wù)目的是什么,如何影響。

后續(xù)可能還會加入某些指標(biāo)變化率這類變化更快速,來自反饋的指標(biāo)。

靜待調(diào)整完成。


概率論和統(tǒng)計(jì)學(xué)

單純是為了刷下一本書,周末快速的把概率,期望方差,常見分布類型和適用場景,置信區(qū)間,假設(shè)檢驗(yàn)和線性回歸最小二乘法復(fù)習(xí)了一遍。

那些公式和分布適用場景再記一記吧= =希望不要很快的又忘掉(下周會不會發(fā)現(xiàn)高數(shù)和線代也要復(fù)習(xí)了)


下周計(jì)劃

準(zhǔn)備開搞直播打點(diǎn)算法,暫時思路有點(diǎn)閉塞,需要拿到直播后臺數(shù)據(jù)再看看。

個性化推薦:直播和視頻剛好是兩個方向,待補(bǔ)充知識。

Spotify:被拉進(jìn)打卡群見到了不少優(yōu)秀的交互,準(zhǔn)備好好挖一下Spotify的優(yōu)秀之處。

順便終于可以開始看數(shù)據(jù)挖掘了哈哈哈,看完之后應(yīng)該可以看計(jì)算廣告的后半部分了~


阮一峰老師的六大排序算法可以一看,Reddit和IMDB的“過期”案例還是很有參考價值。特別是威爾遜算法,用到置信區(qū)間,很是巧妙。

傳送門:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,563評論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,694評論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,672評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,965評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,690評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,019評論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,013評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,188評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,718評論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,438評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,667評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,149評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,845評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,252評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,590評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,384評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內(nèi)容