估計現在今日頭條的用戶量應該達到 5 億了。從 2012 年到 2016 年這幾年間,平均
算下來,今日頭條平均一年新增 1 億多用戶,平均每月新增 1000 多萬用戶。每個月
的成長,幾乎相當于別人努力一年甚至幾年的結果。
有人說,今日頭條的用戶量大多是靠預裝帶起來的。然而,預裝對于各家門戶的新聞1
客戶端來說,是一個帶來用戶量的常用手段。如果大家都用了同樣的手段,但最終留
下來的是今日頭條,這說明了什么?
市場是檢驗一款產品到底成功與否的唯一標準。今日頭條推薦的新聞,更符合用戶群
體的口味。
然而,在擁有數億用戶的情況下,今日頭條若依然堅持人工推薦的話,人力成本巨大
不說,效率也不會高。通過技術手段,自動化整個服務鏈條,從來是應對業務規模化
的路徑。假如你以前不相信今日頭條自己有做個性化內容推薦算法,那么現在,你必
須相信今日頭條它已經這么做了。因為沒有一份報紙,可以每天出版數億份不同內容
的讀物。
那么,今日頭條如何做到內容精準化的推薦,它對今日頭條的商業模式帶來怎么樣的
影響?通過機器的方式對信息的分揀,以及推送,真的可以觸動到讀者的心嗎?
今日頭條核心算法負責人楊震原,之前就在在 MindStore 分享時提到,一開始今日頭
條的推薦算法,首先入手的是“非個性化推薦”——解決的熱門文章推薦,以及新文
章冷啟動的問題。
楊震原在“MindTalk 線場”說,“單純的熱門(文章),會讓一些新文章沒有機會。
單純的隨機(推薦),(文章)質量當然不好,所以考慮一些簡單方法,比如算一下
威爾遜置信區間,來平衡熱與新的問題。”
之后,今日頭條開始逐步引入個性化推薦的策略。他們所采用的,是協同過濾
(Collaborative Filtering)** + 基于內容推薦,直到今天依然構成今日頭條推薦
算法的基礎。
關于協同過濾,參考 IBM developerWorks 中文社區的專業解釋,“協同過濾一般是
在海量的用戶中發掘出一小部分和你品位比較類似的,在協同過濾中,這些用戶成為
鄰居,然后根據他們喜歡的其他東西組織成一個排序的目錄作為推薦給你。”
楊震原在 MindStore 分享,
(協同過濾)是一個很好的方法,直到今天我們還一直使用。但缺點也很明顯,對
于沒有行為(記錄)的文章,沒辦法推薦,所以沒辦法用于文章的冷啟動。所以我
們引入了基于內容推薦的策略。比如計算文章的分類、文章的關鍵詞,然后根據用
戶對文章的閱讀、瀏覽等信息,細化用戶的個人資料。——這樣子,如果文章是和
科技相關的,而用戶的個人資料也顯示科技相關,那么就算匹配。”
在之后的工作,是把特征、模型做得更加細化。比如,文章實體詞的抽取。我們最
近對文章的分析,已經做得很細,可以精確地提取實體詞。我們近期引入了‘詞嵌
入’(word embedding)方法,做向量化的分析,還引入 LDA 的方法,進行
topic 分析等等。
除此之外,今日頭條還通過用戶對內容的“正負反饋”來判斷內容匹配是否精準。正
反饋,包括用戶點擊了、看了很長時間、分享了、收藏了、評論了,都是正反饋。負
反饋反而是比較難獲取的,現在今日頭條在內容上設置了一個小叉,點擊之后,會咨
詢用戶不感興趣的理由,這種做法則會獲取比較強的負反饋。但是通過這種方式收集
到的數據還不多。
那么,我們知道現在的個性化推薦算法還未盡善盡美。在“MindTalk 線場”上,有用
戶提問,“今日頭條如何平衡傳統意義上的頭條新聞和用戶感興趣的頭條新聞?”對
此,楊震原的回答是,“我們目前是增加非常少的運營干預一天只有零星幾條,來增
強傳統頭條新聞的推薦,避免機器推薦對這類內容推薦的不足。”但是,拿捏新聞推
薦的平衡點,是整個業界都在鉆研的問題。
通過楊震原的解釋,我們基本知道了今日頭條推薦算法的原理:通過算法,一邊提取
內容的特征,一邊提取用戶興趣的特征,然后讓內容與用戶的興趣匹配。
不過,除了對文本進行分析外,今日頭條如何對用戶進行分析呢?
楊震原說,“新用戶能夠得到的信息(歷史行為)非常有限。我們盡量通過一下其它
途徑想辦法獲取信息,比如說,如果通過微博登錄,那么就可以拿到很多信息,解決
冷啟動的難題。再比如,手機機型、手機在什么城市等信息,基本也可以知道。當用
戶積累了一定的行為數據之后,就可以算出他們的興趣特征。總之,盡量通過有限的
信息,來猜測用戶的興趣。”
今日頭條通過機器匹配用戶閱讀興趣,與內容本身的特征之后,這對他們的商業有怎
樣的影響?
廣告界有一句名言,“企業所投放的廣告費總有一半是浪費掉的,但是卻沒有辦法知
道被浪費掉的是哪一部分。”今日頭條目前的商業模式也是以廣告為主,因此在產品
上所產生的巨大流量,可否與廣告內容精確匹配,進而進行更加精準的轉化。
根據今日頭條所提供的案例,此前海爾旗下卡薩帝選擇在今日頭條的動態開屏和信息
流中投放廣告,最后開屏廣告的轉化率達 11.93%。