今日頭條的核心技術細節是什么?

估計現在今日頭條的用戶量應該達到 5 億了。從 2012 年到 2016 年這幾年間,平均

算下來,今日頭條平均一年新增 1 億多用戶,平均每月新增 1000 多萬用戶。每個月

的成長,幾乎相當于別人努力一年甚至幾年的結果。

有人說,今日頭條的用戶量大多是靠預裝帶起來的。然而,預裝對于各家門戶的新聞1

客戶端來說,是一個帶來用戶量的常用手段。如果大家都用了同樣的手段,但最終留

下來的是今日頭條,這說明了什么?

市場是檢驗一款產品到底成功與否的唯一標準。今日頭條推薦的新聞,更符合用戶群

體的口味。

然而,在擁有數億用戶的情況下,今日頭條若依然堅持人工推薦的話,人力成本巨大

不說,效率也不會高。通過技術手段,自動化整個服務鏈條,從來是應對業務規模化

的路徑。假如你以前不相信今日頭條自己有做個性化內容推薦算法,那么現在,你必

須相信今日頭條它已經這么做了。因為沒有一份報紙,可以每天出版數億份不同內容

的讀物。

那么,今日頭條如何做到內容精準化的推薦,它對今日頭條的商業模式帶來怎么樣的

影響?通過機器的方式對信息的分揀,以及推送,真的可以觸動到讀者的心嗎?

今日頭條核心算法負責人楊震原,之前就在在 MindStore 分享時提到,一開始今日頭

條的推薦算法,首先入手的是“非個性化推薦”——解決的熱門文章推薦,以及新文

章冷啟動的問題。

楊震原在“MindTalk 線場”說,“單純的熱門(文章),會讓一些新文章沒有機會。

單純的隨機(推薦),(文章)質量當然不好,所以考慮一些簡單方法,比如算一下

威爾遜置信區間,來平衡熱與新的問題。”

之后,今日頭條開始逐步引入個性化推薦的策略。他們所采用的,是協同過濾

(Collaborative Filtering)** + 基于內容推薦,直到今天依然構成今日頭條推薦

算法的基礎。

關于協同過濾,參考 IBM developerWorks 中文社區的專業解釋,“協同過濾一般是

在海量的用戶中發掘出一小部分和你品位比較類似的,在協同過濾中,這些用戶成為

鄰居,然后根據他們喜歡的其他東西組織成一個排序的目錄作為推薦給你。”

楊震原在 MindStore 分享,

(協同過濾)是一個很好的方法,直到今天我們還一直使用。但缺點也很明顯,對

于沒有行為(記錄)的文章,沒辦法推薦,所以沒辦法用于文章的冷啟動。所以我

們引入了基于內容推薦的策略。比如計算文章的分類、文章的關鍵詞,然后根據用

戶對文章的閱讀、瀏覽等信息,細化用戶的個人資料。——這樣子,如果文章是和

科技相關的,而用戶的個人資料也顯示科技相關,那么就算匹配。”

在之后的工作,是把特征、模型做得更加細化。比如,文章實體詞的抽取。我們最

近對文章的分析,已經做得很細,可以精確地提取實體詞。我們近期引入了‘詞嵌

入’(word embedding)方法,做向量化的分析,還引入 LDA 的方法,進行

topic 分析等等。

除此之外,今日頭條還通過用戶對內容的“正負反饋”來判斷內容匹配是否精準。正

反饋,包括用戶點擊了、看了很長時間、分享了、收藏了、評論了,都是正反饋。負

反饋反而是比較難獲取的,現在今日頭條在內容上設置了一個小叉,點擊之后,會咨

詢用戶不感興趣的理由,這種做法則會獲取比較強的負反饋。但是通過這種方式收集

到的數據還不多。

那么,我們知道現在的個性化推薦算法還未盡善盡美。在“MindTalk 線場”上,有用

戶提問,“今日頭條如何平衡傳統意義上的頭條新聞和用戶感興趣的頭條新聞?”對

此,楊震原的回答是,“我們目前是增加非常少的運營干預一天只有零星幾條,來增

強傳統頭條新聞的推薦,避免機器推薦對這類內容推薦的不足。”但是,拿捏新聞推

薦的平衡點,是整個業界都在鉆研的問題。

通過楊震原的解釋,我們基本知道了今日頭條推薦算法的原理:通過算法,一邊提取

內容的特征,一邊提取用戶興趣的特征,然后讓內容與用戶的興趣匹配。

不過,除了對文本進行分析外,今日頭條如何對用戶進行分析呢?

楊震原說,“新用戶能夠得到的信息(歷史行為)非常有限。我們盡量通過一下其它

途徑想辦法獲取信息,比如說,如果通過微博登錄,那么就可以拿到很多信息,解決

冷啟動的難題。再比如,手機機型、手機在什么城市等信息,基本也可以知道。當用

戶積累了一定的行為數據之后,就可以算出他們的興趣特征。總之,盡量通過有限的

信息,來猜測用戶的興趣。”

今日頭條通過機器匹配用戶閱讀興趣,與內容本身的特征之后,這對他們的商業有怎

樣的影響?

廣告界有一句名言,“企業所投放的廣告費總有一半是浪費掉的,但是卻沒有辦法知

道被浪費掉的是哪一部分。”今日頭條目前的商業模式也是以廣告為主,因此在產品

上所產生的巨大流量,可否與廣告內容精確匹配,進而進行更加精準的轉化。

根據今日頭條所提供的案例,此前海爾旗下卡薩帝選擇在今日頭條的動態開屏和信息

流中投放廣告,最后開屏廣告的轉化率達 11.93%。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,732評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,214評論 3 426
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,781評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,588評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,315評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,699評論 1 327
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,698評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,882評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,441評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,189評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,388評論 1 372
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,933評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,613評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,023評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,310評論 1 293
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,112評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,334評論 2 377

推薦閱讀更多精彩內容