沒(méi)數(shù)據(jù)積累和用戶畫(huà)像,我是這么做頭條產(chǎn)品的

?本來(lái)默默劃船,在交流會(huì)上談個(gè)性化推薦都不惹人注意的今日頭條,毫無(wú)置疑現(xiàn)在已經(jīng)被整個(gè)BAT圍剿,內(nèi)容領(lǐng)域的企業(yè)不自覺(jué)把今日頭條當(dāng)做競(jìng)爭(zhēng)對(duì)手,非內(nèi)容領(lǐng)域的互聯(lián)網(wǎng)公司也都想來(lái)分一杯內(nèi)容的羹,一夜間,互聯(lián)網(wǎng)遍地都是feed流,不談內(nèi)容推薦算法都不好意思上桌了。

筆者近期有幸從0到1規(guī)劃頭條產(chǎn)品,想把自己的實(shí)操經(jīng)驗(yàn)分享出來(lái),如果對(duì)感興趣的朋友有幫助自然開(kāi)心,更希望得到業(yè)界大佬的批評(píng)和指正,畢竟一個(gè)人摸索前進(jìn),還是很危險(xiǎn)的。


1.明確定位

經(jīng)常使用閱讀產(chǎn)品很大的感受是大平臺(tái)很容易出現(xiàn)資訊沒(méi)深度,垂直的內(nèi)容資訊只在某幾個(gè)如科技,互聯(lián)網(wǎng)等幾個(gè)領(lǐng)域做的還不錯(cuò),我當(dāng)時(shí)的設(shè)想是有沒(méi)有可能做行業(yè)內(nèi)深度資訊,尤其是一開(kāi)始切入那些并未互聯(lián)網(wǎng)化過(guò)深的行業(yè),通過(guò)一個(gè)行業(yè)的試點(diǎn),形成行業(yè)頭條,在沉淀優(yōu)質(zhì)行業(yè)知識(shí)的同時(shí),以最低成本去復(fù)制到其他行業(yè)。

思考了挺久之后開(kāi)始和老板匯報(bào)了,省去10000字具體說(shuō)服過(guò)程,最終同意了,因?yàn)閳F(tuán)隊(duì)某公司與一個(gè)傳統(tǒng)行業(yè)A有交集,所以一開(kāi)始的切入行業(yè)就是行業(yè)A了,下面開(kāi)始具體執(zhí)行了,看著一共10多個(gè)技術(shù)人員,我陷入了深思。。。

劣勢(shì)簡(jiǎn)直不要太明顯

沒(méi)有數(shù)據(jù)積累;

沒(méi)有用戶畫(huà)像;

團(tuán)隊(duì)沒(méi)人從事過(guò)行業(yè)A;

我要開(kāi)始作死的做頭條產(chǎn)品了。。。


2.頭條產(chǎn)品整體設(shè)計(jì)

我開(kāi)始從三個(gè)層面去搭建產(chǎn)品,底層類型標(biāo)簽層,中層數(shù)據(jù)抓取分析層,頂層業(yè)務(wù)應(yīng)用層。

底層類型標(biāo)簽層

底層根據(jù)具體行業(yè)進(jìn)行梳理,本來(lái)這個(gè)過(guò)程應(yīng)該產(chǎn)品和具體行業(yè)從業(yè)人員配合梳理,但是礙于資源有限,那就我來(lái)吧,肯定不足夠詳盡,但是一開(kāi)始可以先跑起來(lái)。

底層類型標(biāo)簽層分為類型和標(biāo)簽,類型有層級(jí)性,數(shù)據(jù)庫(kù)預(yù)留到7級(jí),實(shí)際梳理到3級(jí)就差不多了,如行業(yè)A,A公司是一個(gè)一級(jí)類型,A行業(yè)制造公司是二級(jí)分類,具體制造公司名稱是3級(jí)類型,每個(gè)類型獨(dú)立建表,每個(gè)表里關(guān)聯(lián)海量標(biāo)簽到類型上,如行業(yè)A技術(shù)這個(gè)類型里我們找到行業(yè)A技術(shù)術(shù)語(yǔ)詞典,刪選后就作為標(biāo)簽關(guān)聯(lián)到A技術(shù)這個(gè)類型下面,類型數(shù)最后梳理了600多,標(biāo)簽數(shù)量有10萬(wàn)多,數(shù)據(jù)庫(kù)預(yù)留狀態(tài)位,可以視情況進(jìn)行啟用關(guān)閉。

中層數(shù)據(jù)抓取分析層

數(shù)據(jù)抓取分析層分為爬蟲(chóng)部署,內(nèi)容來(lái)源處理,數(shù)據(jù)歸類

爬蟲(chóng)部署

我以一個(gè)技術(shù)外行的角度把爬蟲(chóng)分為兩類,一類是不定向爬蟲(chóng),都是一個(gè)個(gè)單獨(dú)網(wǎng)站,這種技術(shù)消耗較大,需挨個(gè)處理,如各個(gè)A行業(yè)公司的官網(wǎng)新聞中心和行業(yè)A平臺(tái)網(wǎng)站,需單獨(dú)處理,另一類定向爬蟲(chóng),主要是有搜索功能的大資訊平臺(tái),如今日頭條等,代碼可復(fù)用,寫(xiě)好之后我直接建了一張表,專門(mén)放搜索爬蟲(chóng)的關(guān)鍵詞,一堆關(guān)鍵詞一套代碼就可以實(shí)現(xiàn),輸入進(jìn)去就把含有這些關(guān)鍵詞的新聞抓取出來(lái)了,現(xiàn)在這張表關(guān)鍵詞也有700多了,爬取來(lái)的內(nèi)容量實(shí)在太大,建議用mongedb處理

內(nèi)容來(lái)源處理

數(shù)據(jù)過(guò)來(lái)后先進(jìn)行來(lái)源梳理,劃分優(yōu)質(zhì)來(lái)源和垃圾來(lái)源,提升優(yōu)質(zhì)來(lái)源內(nèi)容的權(quán)重,優(yōu)質(zhì)來(lái)源主要是各公司官網(wǎng),垃圾來(lái)源是指對(duì)具體行業(yè)而言,大量無(wú)意義的內(nèi)容來(lái)自同一個(gè)來(lái)源,那么將他認(rèn)定為垃圾來(lái)源,比如一個(gè)叫xx說(shuō)車的來(lái)源在建筑行業(yè)被認(rèn)定為垃圾來(lái)源,但是將來(lái)復(fù)制到汽車這個(gè)領(lǐng)域的時(shí)候,就不再是垃圾來(lái)源了,垃圾來(lái)源是一個(gè)長(zhǎng)期的活,現(xiàn)在大概700多了,額,大部分垃圾來(lái)源是今日頭條的頭條號(hào)。。

數(shù)據(jù)歸類

過(guò)濾完垃圾源之后,就開(kāi)始數(shù)據(jù)歸類了,本質(zhì)上是將新聞內(nèi)容歸到我們建立的一個(gè)個(gè)類型上,因?yàn)樽鲂袠I(yè)資訊,希望一開(kāi)始數(shù)據(jù)準(zhǔn)度較高,我當(dāng)時(shí)想了兩種方案,第一種是將類型根據(jù)自己關(guān)聯(lián)的海量標(biāo)簽按權(quán)重建立一個(gè)個(gè)模型,所有抓取來(lái)的文章做全文的分詞處理,大量文章統(tǒng)計(jì)詞頻,每篇文章所有分詞就有一個(gè)總的頻率值,和類型模型比對(duì),取相關(guān)性較高的,另一種就是把類型下面所屬的標(biāo)簽和所有篩選過(guò)垃圾源的文章比對(duì),含有標(biāo)簽的文章歸到所屬類型下面,含有同一類型標(biāo)簽越多,說(shuō)明該文章相關(guān)性越高,為了快速上線就用第二種方案,但是相對(duì),精度就差了一些,當(dāng)然隨著人工的介入,篩出一系列垃圾源,類型和標(biāo)簽維護(hù)工作的持續(xù),內(nèi)容準(zhǔn)度好了一些

頂層業(yè)務(wù)應(yīng)用層

業(yè)務(wù)展現(xiàn)層主要是梳理目標(biāo)用戶感興趣的關(guān)鍵詞,將這些關(guān)鍵詞關(guān)聯(lián)到類型標(biāo)簽層的類型,這樣,用戶訂閱關(guān)鍵詞之后就可以看到這個(gè)關(guān)鍵詞所屬的內(nèi)容,前臺(tái)現(xiàn)在以及上線2個(gè)產(chǎn)品,一個(gè)訂閱平臺(tái),行業(yè)頭條,與之配套的是后臺(tái)管理中心

訂閱平臺(tái)

訂閱平臺(tái)半封閉,面向行業(yè)A企業(yè)用戶和行業(yè)A自媒體從業(yè)者,釋放出他們感興趣的關(guān)鍵詞,內(nèi)容準(zhǔn)度更高,企業(yè)用戶訂閱關(guān)鍵詞,可以看到相關(guān)的資訊,看到平臺(tái)具有的能力后,有欲望定制更多關(guān)鍵詞,后臺(tái)審核后繼續(xù)部署爬蟲(chóng),推送數(shù)據(jù)給用戶,同時(shí)記錄用戶的所有行為數(shù)據(jù)

行業(yè)頭條

行業(yè)頭條完全開(kāi)放,面向準(zhǔn)行業(yè)從業(yè)者以及泛行業(yè)愛(ài)好者,釋放出更多關(guān)鍵詞,但是較訂閱平臺(tái),內(nèi)容質(zhì)量稍差,但是目標(biāo)用戶較廣,所以寄希望記錄用戶的所有行為數(shù)據(jù)(如評(píng)論,閱讀量,換一批事件,關(guān)注關(guān)鍵詞等),得到用戶反饋,建立用戶畫(huà)像,以達(dá)到根據(jù)不同用戶畫(huà)像推薦關(guān)鍵詞的效果,為真正的推薦做準(zhǔn)備

后臺(tái)管理中心

含有新聞管理,來(lái)源管理(優(yōu)質(zhì)來(lái)源,垃圾來(lái)源),類型/標(biāo)簽管理,用戶行為管理,推送管理,關(guān)鍵詞審核排期管理,評(píng)論搜索管理等,具體就不再詳述了,有機(jī)會(huì)再詳細(xì)介紹,簡(jiǎn)單的把產(chǎn)品框架梳理了一張圖,和上面的論述結(jié)合起來(lái),可能更方便理解


產(chǎn)品架構(gòu)圖解

3.致同行

不要?jiǎng)硬粍?dòng)就要再造個(gè)今日頭條,如果你的體驗(yàn)和算法做不到比他強(qiáng)百分之五十以上,正面硬剛基本沒(méi)戲,找準(zhǔn)自己的切入點(diǎn),認(rèn)清自己的優(yōu)勢(shì);

內(nèi)容推薦從來(lái)都很危險(xiǎn),如果用戶不需要的時(shí)候推薦,除非做到讓用戶驚喜,否則就是減分,用戶一定要用的產(chǎn)品,用戶只能忍著,可有可無(wú)的產(chǎn)品,極有可能被用戶卸載,這點(diǎn)做公眾號(hào)的朋友肯定深有感觸,每次推送內(nèi)容都怕掉粉。。

因?yàn)閷?duì)搜索一直比較有興趣,所以簡(jiǎn)單闡述一下自己對(duì)輸入法產(chǎn)品想做內(nèi)容的建議吧

用戶有自己了解資訊的需求:

主動(dòng)獲取:RSS抓取(google訂閱),關(guān)注/訂閱(即刻)

被打獲取:平臺(tái)推薦(傳統(tǒng)門(mén)戶,新聞網(wǎng)站),垂直類媒體資訊(36K,虎嗅等,最近馮大輝的readhub),個(gè)性化推薦(頭條,一點(diǎn)資訊)

這一類需求競(jìng)爭(zhēng)極其大,還有一類是基于特定場(chǎng)景下,對(duì)資訊的了解訴求

比如找工作時(shí),想了解某家公司;吃飯時(shí),想了解附近餐館的情況;

這一類訴求特別長(zhǎng)尾,目前多是怎么被滿足的呢?

主動(dòng)搜索,到百度,知乎等平臺(tái)搜索,但得到想要的資訊路徑很長(zhǎng),比如你和朋友吃飯,你想知道附近有哪些好館子,搜到的代價(jià)就就極高這種場(chǎng)景大量發(fā)生在哪里?聊天和查詢的時(shí)候!這正是我覺(jué)得輸入法切入資訊的機(jī)會(huì),具體來(lái)講:

當(dāng)和別人聊天說(shuō)要跳槽,談的某家公司,輸入法輸入時(shí)有個(gè)提示(如顏色變化等)能方便的推送公司的最新資訊;

聊天約飯,方便推送出附近飯館和評(píng)價(jià);

和男朋友說(shuō)要買(mǎi)趙麗穎同款,男朋友能方便看到這些商品的資訊;

這些訴求的背后數(shù)據(jù),詞匯出現(xiàn)的頻率,輸入法公司應(yīng)該有足夠的積累,大可根據(jù)詞頻做內(nèi)容準(zhǔn)備,當(dāng)用戶在輸入東西的時(shí)候,給用戶一個(gè)意外的驚喜,來(lái)達(dá)到資訊推薦的目的,希望有從事輸入法這塊的朋友能給予指導(dǎo)吧

最后,野路子出身的產(chǎn)品,非常誠(chéng)懇的希望有同行能夠給出批評(píng)和建議~歡迎關(guān)注公眾號(hào)/微信私聊~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,106評(píng)論 6 542
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,441評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,211評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,736評(píng)論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,475評(píng)論 6 412
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,834評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,829評(píng)論 3 446
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 43,009評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,559評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,306評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,516評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,038評(píng)論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,728評(píng)論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,132評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,443評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,249評(píng)論 3 399
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,484評(píng)論 2 379

推薦閱讀更多精彩內(nèi)容