1.目標
通過內容推薦到達用戶,觸發用戶點擊推送,提供更多內容分發入口,同時提升DAU。
2.數據
2.1 App數據現狀
- WAU: 244w. VUV: 184w(兩周 240w) SE: 97.6w.
- 啟動次數: 2643w
- 兩周用戶觀看視頻個數分布:
- 中位數:6
- 70分位:17
- 90分位:39
- 100分位:1800
- 2.3w個PGC視頻具備二級分類標簽以及曲風
- 用戶行為維度包括觀看時長以及觀看個數。視頻維度包括播放次數、分享次數、評論個數
結論:從視頻觀看入手能夠覆蓋75%的用戶,其中超過37.5%用戶具有多次視頻觀看行為,具備基于內容推薦的數據基礎。
2.2 算法
采用基于內容的推薦算法,快速迭代測試版。
2.2.1 基于內容的TopN推薦
1. 數據歸一化
用戶維度和視頻維度都采用非線性歸一化。比Z-Score實現簡單,結果落入[0,1]區間。效果極其接近。魯棒性比線性離散化要強,能夠容忍數據噪聲。
f(x)=atan(x)*2/PI()
2. 計算方法
- 統計用戶過去兩周觀看視頻,根據子類計算每類視頻觀看個數以及觀看時長,計算用戶類別的得分f(user)。
- 根據視頻三個維度,歸一化,計算每個視頻的綜合得分 f(video).
- 關聯用戶得分和視頻得分,計算用戶每個視頻得分f(score),去除過去一個月推送歷史的視頻,得到最高得分(TopN)的f(score)的視頻。
公式表達:
f(user)=n(time)+n(vcnt)
f(video)=n(hits)+n(share)+n(comment)
f(score)= max(f(user)*f(video))
2.2.2 冷啟動與抄底
使用混排技術暫時不存在冷啟動問題(篩選了有行為的用戶)--- 應該做更強的過濾規則
抄底數據使用,糖豆廣場舞課堂專家推薦數據:
- 掌聲在哪里:舞友最愛的爆款
- 烏來山下一朵花:零基礎入門級
- 哥哥你別忘了我:旋律超洗腦
- 幸福小城:唯美,水墨風
- 南屏晚鐘:唯美,集體舞
- 你瀟灑我漂亮:雙人舞
- 燃燒的愛火:風格獨特
3. 服務
3.1 服務流程
- 數據端生成Hive表 Personal_Push。
- 服務端導入HBase讀取。根據vid正則匹配標題,關聯作者。
- 調用信鴿API,進行批量發送。
參數 | 含義 | 取值 |
---|---|---|
token | 用戶信鴿token | 343434344fff |
vid | 推送的視頻的id | 77555343 |
dt | 推送日期 | 2016-08-25 |
3.2 推送后臺(暫時不開發)
- 分組
- 標簽
- 地圖框選
3.3 未來服務架構
pp.png
4. 文案
- 通用型
- [猜您喜歡]親,為你推薦XXX老師的XXX視頻(舞蹈),快來看看吧。
- [XXX] 您可能錯過了XXX內容。
- 注冊用戶
- XXX,快看看XXX,XXX等人的視頻。
- XXX,您身邊的好友都在看XXX這個視頻哦。
5.評估
- 達到率
- 打開率
- 可能帶來的DAU
6.問題
- 數據
- 視頻數據質量很低,分類不合理,維度不夠
- 用戶關系覆蓋不夠,限制更多的推送手段
- 算法
- 采用協同過濾等
- 服務
- 信鴿到達率存疑,數據存疑
7.追蹤
9月1號正式環境的個性化推送,原計劃推330w設備,受限于信鴿自有性能,十個小時推送了240w設備,qps大概在6左右。
7.1 當日監測:
- 監測到8.8w行為(140w),根據之前在高德的通用到達率和打開率的對比,推測信鴿通用達到率在720%左右,遠低于友盟6570%的達到率。
- 整體數據評估:
- 推送接受率99.5%,送出未知,通道送達未知,送達未知。
- 打開/刪除比例 1:2。
7.2 數據評論:
推送數據評估需要完整鏈條,請求發送 ---> 推送服務受理 ---> 推送服務送出 ---> 通道送達 --->APP送達 -->APP打開。
目前信鴿鏈條數據只有前面兩步和最后一步,無法計算出核心數據,到達率和打開率。
7.3 下一個階段工作目標:
- 從信鴿單推送通道升級到包括小米、華為以及友盟等多通道推送,逐步自建推送系統。
- 目前主要是針對內容的推送,目前內容數據維度非常糟糕,表現為數據缺失、維度稀少、數據不合理等等。后續需要大力梳理數據,提升數據可用性。
- 持續的算法評估以及提升,下一步基于Spark的協同過濾算法,提高推薦系統的性能和效用。
7.4 后續數據追蹤:
- 結論:
- 信鴿推送瞬間到達比較少,推送需要一個較長的時間消化。所以選擇時間點比較重要。
- 信鴿到達率比較低。
- 現在每天的大推只給了140w設備推送,后續需要切到個性化推送系統上來。全量推780w設備。
- 同一個設備信鴿號在短時間很難穩定,不少設備信鴿號持續變化,導致設備收不到推送。
- 表格:
推送時間 | 請求發送 | 推送送出 | 通道送達 | 到達率(通道送達/請求發送) | APP打開 | 打開率(APP打開/通道送達) |
---|---|---|---|---|---|---|
2016-09-02 15:00 | 3750424 | 2,576,949 | 2,535,222 | 67.60% | 101,785 | 4.01% |
2016-09-03 18:00 | 3809956 | 2,542,567 | 2,441,994 | 64.10% | 90,512 | 3.71% |
2016-09-04 12:00 | 5152682 | 2,766,853 | 2,588,681 | 50.24% | 110,400 | 4.26% |
2016-09-05 17:00 | 5201838 | 2,495,540 | 2,346,331 | 45.1% | 87,645 | 3.74% |
- 結論:
盡快放棄信鴿推送。