個性化推送系統

1.目標

通過內容推薦到達用戶,觸發用戶點擊推送,提供更多內容分發入口,同時提升DAU。

2.數據

2.1 App數據現狀

  • WAU: 244w. VUV: 184w(兩周 240w) SE: 97.6w.
  • 啟動次數: 2643w
  • 兩周用戶觀看視頻個數分布:
    • 中位數:6
    • 70分位:17
    • 90分位:39
    • 100分位:1800
  • 2.3w個PGC視頻具備二級分類標簽以及曲風
  • 用戶行為維度包括觀看時長以及觀看個數。視頻維度包括播放次數、分享次數、評論個數

結論:從視頻觀看入手能夠覆蓋75%的用戶,其中超過37.5%用戶具有多次視頻觀看行為,具備基于內容推薦的數據基礎。

2.2 算法

采用基于內容的推薦算法,快速迭代測試版。

2.2.1 基于內容的TopN推薦

1. 數據歸一化

用戶維度和視頻維度都采用非線性歸一化。比Z-Score實現簡單,結果落入[0,1]區間。效果極其接近。魯棒性比線性離散化要強,能夠容忍數據噪聲。

f(x)=atan(x)*2/PI()

2. 計算方法

  • 統計用戶過去兩周觀看視頻,根據子類計算每類視頻觀看個數以及觀看時長,計算用戶類別的得分f(user)。
  • 根據視頻三個維度,歸一化,計算每個視頻的綜合得分 f(video).
  • 關聯用戶得分和視頻得分,計算用戶每個視頻得分f(score),去除過去一個月推送歷史的視頻,得到最高得分(TopN)的f(score)的視頻。
公式表達:
f(user)=n(time)+n(vcnt)
f(video)=n(hits)+n(share)+n(comment)
f(score)= max(f(user)*f(video))

2.2.2 冷啟動與抄底

  1. 使用混排技術暫時不存在冷啟動問題(篩選了有行為的用戶)--- 應該做更強的過濾規則

  2. 抄底數據使用,糖豆廣場舞課堂專家推薦數據:

  • 掌聲在哪里:舞友最愛的爆款
  • 烏來山下一朵花:零基礎入門級
  • 哥哥你別忘了我:旋律超洗腦
  • 幸福小城:唯美,水墨風
  • 南屏晚鐘:唯美,集體舞
  • 你瀟灑我漂亮:雙人舞
  • 燃燒的愛火:風格獨特

3. 服務

3.1 服務流程

  1. 數據端生成Hive表 Personal_Push。
  2. 服務端導入HBase讀取。根據vid正則匹配標題,關聯作者。
  3. 調用信鴿API,進行批量發送。
參數 含義 取值
token 用戶信鴿token 343434344fff
vid 推送的視頻的id 77555343
dt 推送日期 2016-08-25

3.2 推送后臺(暫時不開發)

  1. 分組
  2. 標簽
  3. 地圖框選

3.3 未來服務架構

pp.png

4. 文案

  • 通用型
    • [猜您喜歡]親,為你推薦XXX老師的XXX視頻(舞蹈),快來看看吧。
    • [XXX] 您可能錯過了XXX內容。
  • 注冊用戶
    • XXX,快看看XXX,XXX等人的視頻。
    • XXX,您身邊的好友都在看XXX這個視頻哦。

5.評估

  • 達到率
  • 打開率
  • 可能帶來的DAU

6.問題

  • 數據
  • 視頻數據質量很低,分類不合理,維度不夠
  • 用戶關系覆蓋不夠,限制更多的推送手段
  • 算法
  • 采用協同過濾等
  • 服務
  • 信鴿到達率存疑,數據存疑

7.追蹤

9月1號正式環境的個性化推送,原計劃推330w設備,受限于信鴿自有性能,十個小時推送了240w設備,qps大概在6左右。

7.1 當日監測:

  1. 監測到8.8w行為(140w),根據之前在高德的通用到達率和打開率的對比,推測信鴿通用達到率在720%左右,遠低于友盟6570%的達到率。
  2. 整體數據評估:
  • 推送接受率99.5%,送出未知,通道送達未知,送達未知。
  • 打開/刪除比例 1:2。

7.2 數據評論:

推送數據評估需要完整鏈條,請求發送 ---> 推送服務受理 ---> 推送服務送出 ---> 通道送達 --->APP送達 -->APP打開。
目前信鴿鏈條數據只有前面兩步和最后一步,無法計算出核心數據,到達率和打開率。

7.3 下一個階段工作目標:

  • 從信鴿單推送通道升級到包括小米、華為以及友盟等多通道推送,逐步自建推送系統。
  • 目前主要是針對內容的推送,目前內容數據維度非常糟糕,表現為數據缺失、維度稀少、數據不合理等等。后續需要大力梳理數據,提升數據可用性。
  • 持續的算法評估以及提升,下一步基于Spark的協同過濾算法,提高推薦系統的性能和效用。

7.4 后續數據追蹤:

  • 結論:
    • 信鴿推送瞬間到達比較少,推送需要一個較長的時間消化。所以選擇時間點比較重要。
    • 信鴿到達率比較低。
    • 現在每天的大推只給了140w設備推送,后續需要切到個性化推送系統上來。全量推780w設備。
    • 同一個設備信鴿號在短時間很難穩定,不少設備信鴿號持續變化,導致設備收不到推送。
  • 表格:
推送時間 請求發送 推送送出 通道送達 到達率(通道送達/請求發送) APP打開 打開率(APP打開/通道送達)
2016-09-02 15:00 3750424 2,576,949 2,535,222 67.60% 101,785 4.01%
2016-09-03 18:00 3809956 2,542,567 2,441,994 64.10% 90,512 3.71%
2016-09-04 12:00 5152682 2,766,853 2,588,681 50.24% 110,400 4.26%
2016-09-05 17:00 5201838 2,495,540 2,346,331 45.1% 87,645 3.74%
  • 結論:
    盡快放棄信鴿推送。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容