作為一個產品經理,需要知道哪些與推薦算法相關的知識

隨著今日頭條估值80億美元的新聞傳出,“個性化推薦”這個詞又成為了廣受科技界和資本市場追捧的熱點。一時間“個性化推薦”伴隨著“大數據”、“深度學習”等高大上的詞匯,讓人覺得非常高深莫測。尤其是對于不懂技術的產品經理,面對諸如"特征降維"、“置信區間”、“潛在因子矩陣”這樣的術語,早已云里霧里了。那么對于一個普通的產品經理而言(非數據挖掘型PM),最少需要掌握哪些和算法相關的知識呢?于是我決定寫一篇針對PM的算法科普文。

1 接入算法前的準備

1.1 什么是推薦算法

首先我們需要對推薦算法有所了解,知道它的歷史和簡介

-?20世紀90年代中期,Amazon的推薦應用使推薦學術研究開始熱起來,CF(協同過濾)方法是最先被應用認可的方法;

-?2006年,Netflix舉辦的推薦引擎優化大賽,100萬美元的大獎,使得推薦系統再次引起學術界和工業界的關注,MF(矩陣分解)及混合模型成為推薦系統領域關注的熱點;

-?移動互聯網、大數據時代來臨,推薦系統也發生很大的改變。從本質上說,推薦系統要解決的問題,就是在產品中,在合適的時刻,通過合適的渠道,把合適的內容推薦給合適的人,以解決信息過載問題,是聯系物品和用戶的中介系統。

1.2推薦算法是萬能的嗎?

個性化算法只是推薦系統的一部分,一個完整的推薦系統體系還應包括官方團隊推薦(Editorial)、UGC(User-Generated Content)和熱門推薦(Top Seller/Trending)等

個性化推薦算法不是萬能的,以推薦算法最基本的CF(基于行為的協同過濾)和Item-based Similarity(基于內容相似性)為例子,前者需要用戶的行為數據,后者需要歌曲的元數據(metadata),比如旋律、Tag等等。這就意味著首先它需要大量優質的數據,所謂“大量”就是指產品中每日產生的行為數據很多,并且得到有效搜集;所謂“優質”就是指所有被推薦的item要有完善準確的特征、分類、標簽等(這就是為什么商品、新聞的推薦特別好做的原因,因為它們同時符合這2點)

對于很多出于發展初期或者急速擴展期的產品而言,數據肯定不夠干凈也不夠多。這時候固然可以點歸一化(Normalization),或者嘗試去做Hybrid、fused的系統,嘗試各種數學方式去解決問題,但是往往成本很大,而且效果一般。或者即使你的數據OK,推薦系統也很容易遇到一個越使用、推薦口味越窄的惡性循環

此外,算法根據使用者所表現出來的“興趣”進行分類和推薦信息,往往容易給用戶推薦一些低質量但用戶短期內喜歡的信息。這一點在“今日頭條”等新聞推薦類軟件中表現最為突出。

同時,算法是無法擁有自己特有的風格的,它只會為用戶推薦用戶感興趣的內容。風格是原創,是觀點碰撞,是議程設置,是話語創新。算法還沒學會這些,因為設計算法的技術人可能還不太懂這些。

所以這時候完全可以跳出思維,通過trending(趨勢)、hot(熱門)、UGC(歌單)甚至PGC(編輯推薦)的方式做推薦。這時候你可能會發現這些看似簡單的方案可能會擁有比高深的個性化推薦算法更好的效果。而且,隨著用戶多了,用戶保持engaging,老用戶們持續產生高質量的數據,我們之前的個性化推薦算法也能有更好數據來調整參數,從而產生更好的推薦,更好的用戶群體也能推動熱門榜單與UGC的發展,進入良性循環。

1.3 你的產品是否需要個性化推薦?

根據上述解釋,我們可以看到適合個性化推薦的產品需要滿足以下幾點:數據量足夠大,用戶、內容互相之間存在足夠多的差異性;產品對于內容分發有較高的要求;不需要強調自己的風格或者服務特定目標人群。所以剛起步階段的產品、某個垂直領域下的社區、工具型產品、以編輯推薦為賣點的新聞資訊軟件等等,都沒有太大必要接入個性化推薦算法。

1.4 如何接入個性化推薦算法?

一般來說,大產品都有獨立的數據挖掘部門單獨為其定制數據挖掘和個性化推薦系統,因為一套完整可用的推薦系統制作和維護成本巨大,一般的小產品和小公司是負擔不起的,這時候可以選擇接入第三方通用推薦系統,雖然效果沒有定制的好,但是不失為一套性價比很高的方案。也可以找外面的創業公司或者獨立團隊外包定制一套方案,效果介于上述兩者之間。

1.5 普通的產品經理需要了解算法到何種程度

這個問題就類似于“產品經理需要懂編程嗎”,回答就是如果懂當然最好,但是一般情況下只要了解一些基本業務常識,可以正常和算法工程師溝通就OK了。PM更重要的事情應該是挖掘需求(用戶在何時需要何種推薦),以及協調算法工程師和程序員之間的業務配合。具體落實到PM們需要了解什么又不需要了解什么,我在文章的第二部門詳細描述。

2 產品經理在業務中需要懂得哪些基本知識

2.1 結合產品和運營需求確定業務需求

即從用戶需求出發產生的產品需求和運營需求,產品需求即在特定頁面或者時機為用戶進行推薦的需求,例如當用戶產生關注行為時為其推薦更多相似用戶。運營需求的例子,比如結合內容運營的需求和用戶的自身喜好,為用戶主動推送一些運營內容。這個引擎的作用可以理解為推薦系統的精準營銷功能,由于已經結合了用戶自身的喜好,所以相比于傳統的廣撒網式tips彈窗運營方法,此方法更可以找到合適的用戶來推送合適的內容,從而可以合理地幫助提升運營內容點擊轉化率和用戶滿意度。

2.2需要了解已有技術的邏輯框架

產品經理必須在宏觀上對技術架構有所了解,才能更好地配合算法工程師完成相應的工作,否者就會出現外行的PM給專業的開發提各種奇怪的需求(例如放著現成的算法不用,班門弄斧地加入一些很粗淺的邏輯);或者避免PM被開發坑,造成很多基礎的推薦策略缺失(例如推薦策略中只有CF卻沒有content based)

以下是一個猜你喜歡的系統框架圖范例


猜你喜歡的系統框架圖

整個架構主要由4部分組成,右上角是推薦場景和參數配置,右下角是行為數據埋點,中部是具體的算法程序,上方是推薦結果的過濾輸出校驗。

在這個過程中,產品經理主要做的事情如下:

2.2.1推薦場景和參數配置

推薦場景配置就是指推薦業務具體發生的頁面,以及其需要搭配的策略,例如“猜你喜歡的音樂”或者“相似音樂”,不同的策略最終會導致系統為其配置的算法搭配方式不同(例如相似音樂就不需要UserCF基于用戶的協同過濾策略)

算法參數配置主要指產品內各種行為操作,例如喜歡、評論、分享、點擊等行為在該業務中代表的用戶對item(物品)的喜好程度,我們需要將其量化為例如-2到+5的區間,比如-2代表討厭、3代表喜歡、5代表很喜歡,后續算法在計算用戶或者物品的相似性時都需要用到這些數據。

2.2.2 埋點數據上報

埋點數據主要包括基于業務自身上報的ItemInfo(物品信息)和ActionInfo(用戶行為)

ItemInfo即未來產品業務上需要推薦的物品類型的物品屬性數據和用戶屬性數據。非推薦的物品類型數據可以不用上傳。如電商類推薦,只推薦商品,則只需上傳用戶屬性數據和商品屬性數據,其他的如評論數據等不需要上傳。

Actioninfo主要包括推薦場景下的物品相關行為和非推薦場景下的物品相關行為,前者的作用主要是搜集基礎信息用于用戶和物品建模以及算法的數據基礎,后者主要用來統計算法的推薦效果。

數據上報的準確度直接決定最后的推薦效果,如果一開始上報的數據都不對,即使算法再perfect也無濟于事。

2.2.3 推薦算法

這一塊就是最復雜的推薦算法和策略了,理論上產品經理們可以不用了解其中的邏輯、概念、公式,就像是產品經理沒有必要會編程。但是在從我自身的經歷來看,PM能多了解一下算法的基礎知識,無論是方便和工程師溝通,還是對接產品需求和實現方式,都大有好處。所以我會簡單介紹一下一個推薦系統是如何為用戶個性化推薦物品的:


推薦系統概念圖

如上圖,推薦系統要把海量物品推送給合適的用戶,主要依賴以下4種途徑:

-?途徑1 :首先計算出和你興趣口味相似的用戶,然后與他們有關聯的物品(Item)推薦給你,如下圖所示


用戶關聯推薦示意圖

確定用戶和用戶的關系,包括通過社交關系(Social recommendation,真實社交網絡上的好友、關注、粉絲等社交關系,即假定你的朋友感興趣的東西就是你感興趣的東西),以及通過算法比如CF(collaborative filtering協同過濾)等獲得的興趣或者其它維度上的相似用戶(和你興趣口味相似的用戶)。這個過程中,需要重點確立相似性矩陣(用戶與用戶關系強弱的衡量,比如親密度、相似度等),用戶與用戶的關系越緊密,往往興趣偏好就越接近。

確定用戶和物品之間的關系,往往需要我們通過長時間、立體化來觀察用戶對物品的行為。用戶的行為主要分成兩種:

??????顯式(explicit)的行為:比如:瀏覽、點擊、收藏、分享、購買、評論、點贊、喜歡、不喜歡等;

??????隱式(implicit)的行為,比如:瀏覽時長、播放時長、瀏覽次數等

用戶各項行為的權重是不一樣的,一般用戶某個行為所消耗的代價越大,其權重也就相對較高,比如用戶購買一個商品比瀏覽一個商品的代價要大很多,所以購買行為的權重要大于瀏覽行為的權重;用戶完整讀完一篇文章然后分享的行為比瀏覽行為所要付出的時間代價要大很多,所以分享行為的權重要大于瀏覽行為的權重;這塊的研究內容還包括降低熱門物品的權重,用戶對熱門商品的點擊行為往往不是用戶真實的興趣,只是從眾心理所致或者因為熱門商品展示的位置更容易被用戶所接觸到,而對長尾商品的點擊則往往是用戶真實的興趣點;同時用戶行為頻次方面也需要我們去研究,比如說用戶反復查看某個商品或者反復查看某個訂閱源,那么用戶對這個商品或者訂閱源的興趣相對來說會大一些。相關的研究內容還包括用戶行為按時間衰減的影響,一般來說用戶的近期的行為往往代表了用戶當前主要的興趣點。

-??途徑2:依賴用戶對物品(Item)的關系,通過物品推送合適的物品(Item),如下圖所示


物品關聯推薦示意圖

這一條需要確定物品與物品的關系,主要包含相關性和互補性等幾種關系,比如通過關聯規則,我們可以發現啤酒和尿不濕、尿不濕和奶粉之間的相關性;另外我們發現有些商品之間是有互補性的,比如上衣和下褲,牙膏和牙刷,這種互補性也可以理解為兩個商品的搭配性。

確立物品相關性的方式分為基于行為數據和基于提取的特征值。基于行為數據是指,通過大量數據證明對物品A感興趣的人群也對物品B感興趣,則證明物品A與B具有相似性;而基于提取的特征值是指,例如物品A和B都具有是描述美食的文章,所以都可以提取出美食這個標簽屬性,則證明物品A與B具有相似性。前者屬于CF(協同過濾),后者屬于Item-based Similarity(基于內容的相似性)

-??途徑3:依賴用戶對特征(feature 可以為顯性也可以為隱性,最常見比如tag、類別、矩陣分解中的隱語義等)的關系,通過特征推送合適的物品(Item),如下圖所示


特征關聯推薦示意圖

物品和人的各種特征抽取,主要用于物品的建模和人的建模以及排序模塊。可以認為是提取了物品和人的“DNA”。這些特征既可以是顯性特征也可以通過機器學習算法計算出來的隱性特征。研究物品特征和用戶特征的意義在于通過從物品和用戶中提取盡可能多的特征,通過特征來關聯相關物品。

物品特征抽取,拿音樂軟件為例,顯性特征指歌曲名、歌手名、專輯等固有特征;隱形特征指曲風、節奏、適合的場景、適合的心情等。隨著個性化推薦技術的應用和發展,item的特征建模正朝著精細化的方向發展。以新聞個性化推薦中新聞為例,一篇新聞除了自身的文本內容信息外,還可以通過圖像識別、語義識別等方式添加更加精準的特征;通過深度學習(DeepLearning)等機器學習技術在特征工程領域的應用,新聞推薦中的資訊類的新聞已從原有的類別、關鍵詞、熱度、來源的簡單特征,發展出多級類別、多級topic的精細化特征(如多層級的標簽樹,將不同主題細分成各種子主題,再細分下設內容,才能達到真正的私人定制--例如可以給興趣為攝影的人推薦tag為藝術的父話題內容);

用戶的特征抽取,即用戶模型(User Profile),主要由用戶的基本屬性、興趣模型、行為模型三部分組成。

基本屬性指年齡、性別、地區、教育程度、職業等固有屬性(一般由用戶主動填寫)。

興趣模型和行為模型的特征維度主要依賴于物品特征抽取:興趣特征一般通過用戶對物品的行為及物品的特征信息建立。這里舉例鼎鼎有名的貝葉斯算法,可以通過行為來倒推用戶的特征(比如男性模型的特征之一是在閱讀新聞時點擊軍事新聞的概率是40%,而女性模型是4%。一旦一個讀者點擊了軍事新聞,算法就開始逆推TA的性別,加上TA點擊其他新聞的行為數據,綜合計算,就能比較準確地判斷TA的性別)

興趣特征需要區分短期興趣和長期興趣兩種類型。所謂長期興趣就是用戶對這個類別一直保持興趣,不會隨時間進行轉移,比如某類用戶比較喜歡看喜劇類型的電影;短期興趣,所謂短期興趣就是一段時間對某個類別比較感興趣,比如體育,最近一段某類用戶對體育感興趣,但是隨著世界杯的結束,用戶可能對這個類別的興趣就消失了。同時區分短期興趣和長期興趣可以避免一個流行樂愛好者在某天突然興趣來潮聽了一下午爵士樂后,系統在未來一直為其推薦爵士樂的錯誤。

-??途徑4:依賴用戶的上下文信息(時間、地點、設備、天氣等),通過上下文信息推送合適的物品(Item),如下圖所示


上下文關聯推薦示意圖

隨著大數據技術的發展,記錄各種數據變得越來越方便,越來越多的上下文維度被應用到推薦系統中,比如天氣、設備信息、時間、地點、季節等等,這些上下文信息的組合使得推薦系統越來越智能、準確,比如用戶到達某個商圈附近,根據時間段及用戶的歷史習慣,推送用戶感興趣的商戶打折信息給用戶,用戶往往就不會太反感。這種推薦在當下使用的概率還不是很高。

2.2.4 展示時機、展示方式

當得到推薦結果后,如何展示、如何排序也會對最終效果產生巨大的影響。

排序問題的基本思路是根據點擊率預估排序,主要方式是通過機器學習算法(比如LR、GBDT、深度學習等)。在這個階段,產品經理的主要任務是根據業務規則提出特定需求。如Facebook的智能動態流,就是根據內容的新鮮度、熱度、親密度和預估的感興趣程度對所有未讀FEED進行排序,幫助用戶找到更感興趣的內容。不僅如此,用戶錯過的90+%信息中,只有部分內容是對用戶具有極高價值且不容錯過的,所以這里無需對未讀Feed全排序,只需要將最高價值的信息找出來并推薦給用戶,其它的Feed仍按正常時間序排列。這樣做一方面可以讓Feed流整體上符合Timeline的排序,用戶感覺自然流暢;另一方面,與用戶對最高價值的信息認知上比較接近,算法效果比較理想。產品推出后,用戶認可度很高,互動率遠遠高于普通Feed。

這些都是純工程師不容易提出的需求,因此需要產品經理協助配合。

此外,推薦內容的展示還需要考慮用戶的心理體驗,主要包括:

從眾:一個人的行為、態度、決策受到他人的影響,?一個典型的例子,就是有些用戶不知道選擇物品時,會選擇熱門物品,看看大家都在買的物品或者聽的音樂、視頻;另外如果產品交互展示能把物品的熱度值(比如新聞的跟帖數)展示出來的話,往往會影響到用戶后續的決策,比如購買、點擊等;

信任:信任是影響用戶進行決策(如購買、點擊)的一個重要因素,人與推薦系統之間的信任依賴于產品的交互設計及推薦算法的設計。這里很重要的一點就是要給出推薦理由,增加推薦的透明度,增進用戶的信任感。增加方便的交互設計,方便用戶表達自己的感受,比如不喜歡、扔到垃圾桶并且系統能夠智能學習,類似的不喜歡的物品不再推薦,也能增加用戶對推薦系統的信任感,當然最基本的一點:推薦系統的推薦結果跟用戶的真實偏好越一致,用戶對推薦系統的信任度也會越高。

情感:在娛樂類的內容推薦中,如果能識別用戶的情感(可以是用戶自己表達),往往能增加推薦系統的驚喜度和智能特性,比如電影推薦、音樂推薦等,如果能識別用戶的悲傷、歡樂、憤怒等心情往往能大大提升推薦效果。

2.2.5 效果評估和優化

評估一個推薦系統好壞主要通過以下幾點:

1、衡量點擊和打開率,這說明用戶是否對內容感興趣(需要控制交互和UI的變量)。

2、通過推薦系統替代用戶主動搜索或者主動瀏覽的次數,可以通過橫向與使用其他產品對比較,比如使用推薦系統提供內容的用戶搜索次數和點擊瀏覽目錄次數明顯下降。

3、推薦系統的滿意度口碑,刨除因為頁面位置效果等因素,衡量推薦系統一個重要的就是滿意度的口碑問題,這個可以通過單個用戶是否有重復使用的行為,曲線是否是一直上升的來衡量,如果一直有新用戶訪問,但一直沒有老用戶重復使用,則說明推薦系統還是有待優化。

最終的推薦效果出來之后,還需要根據數據做不斷的優化。包括用戶的正負反饋的收集等,并以此為依據不斷進行優化。

3 未來發展

最近幾年,以云計算和大數據為核心的商業生態模型正在快速的轉型,用戶作為網絡中的成員,在通過行為數據的分析和挖掘后,將變得更加立體。而個性化推薦系統,通過大數據的云計算技術,將對用戶做出更精準、更全面的分析和畫像建模,更智能地為用戶提供更加優質和先進的服務。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,001評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,786評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,986評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,204評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,964評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,354評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,410評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,554評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,106評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,918評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,093評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,648評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,342評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,755評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,009評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,839評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,107評論 2 375

推薦閱讀更多精彩內容