終于有人把用戶畫像的流程、方法講明白了

導讀:用戶畫像將產品設計的焦點放在目標用戶的動機和行為上,從而避免產品設計人員草率地代表用戶。產品設計人員經常不自覺的把自己當作用戶代表,根據自己的需求設計產品,導致無法抓住實際用戶的需求。往往對產品做了很多功能的升級,用戶卻覺得體驗變差了。

在大數據領域,用戶畫像的作用遠不止于此。用戶的行為數據無法直接用于數據分析和模型訓練,我們也無法從用戶的行為日志中直接獲取有用的信息。而將用戶的行為數據標簽化以后,我們對用戶就有了一個直觀的認識。

同時計算機也能夠理解用戶,將用戶的行為信息用于個性化推薦、個性化搜索、廣告精準投放和智能營銷等領域。

作者:馬海平 于俊 呂昕 向海

本文摘編自《Spark機器學習進階實戰》,如需轉載請聯系我們

01 概述

用戶畫像的核心工作就是給用戶打標簽,標簽通常是人為規定的高度精煉的特征標識,如年齡、性別、地域、興趣等。這些標簽集合就能抽象出一個用戶的信息全貌,如圖10-1所示是某個用戶的標簽集合,每個標簽分別描述了該用戶的一個維度,各個維度之間相互聯系,共同構成對用戶的一個整體描述。

▲圖10-1 用戶標簽集合

02 用戶畫像流程

1. 整體流程

我們對構建用戶畫像的方法進行總結歸納,發現用戶畫像的構建一般可以分為目標分析、體系構建、畫像建立三步。?

畫像構建中用到的技術有數據統計、機器學習和自然語言處理技術(NLP)等,如圖10-3所示。具體的畫像構建方法會在本章后面的部分詳細介紹。

▲圖10-3 用戶畫像的構建技術

2. 標簽體系

目前主流的標簽體系都是層次化的,如下圖10-4所示。首先標簽分為幾個大類,每個大類下進行逐層細分。在構建標簽時,我們只需要構建最下層的標簽,就能夠映射到上面兩級標簽。

上層標簽都是抽象的標簽集合,一般沒有實用意義,只有統計意義。例如我們可以統計有人口屬性標簽的用戶比例,但用戶有人口屬性標簽本身對廣告投放沒有任何意義。

▲圖10-4 互聯網大數據領域常用標簽體系

用于廣告投放和精準營銷的一般是底層標簽,對于底層標簽有兩個要求:一個是每個標簽只能表示一種含義,避免標簽之間的重復和沖突,便于計算機處理;另一個是標簽必須有一定的語義,方便相關人員理解每個標簽的含義。

此外,標簽的粒度也是需要注意的,標簽粒度太粗會沒有區分度,粒度過細會導致標簽體系太過復雜而不具有通用性。

表10-1列舉了各個大類常見的底層標簽。

標簽類別

標簽內容

人口標簽

性別、年齡、地域、教育水平、出生日期、職業、星座

興趣特征

興趣愛好、使用APP/網站、瀏覽/收藏內容、互動內容、品牌偏好、產品偏好

社會特征

婚姻狀況、家庭情況、社交/信息渠道偏好

消費特征

收入狀況、購買力水平、已購商品、購買渠道偏好、最后購買時間、購買頻次

▲表10-1:常見標簽

最后介紹一下各類標簽構建的優先級。構建的優先級需要綜合考慮業務需求、構建難易程度等,業務需求各有不同,這里介紹的優先級排序方法主要依據構建的難易程度和各類標簽的依存關系,優先級如圖10-5所示。

▲圖10-5 各類標簽的構建優先級

基于原始數據首先構建的是事實標簽,事實標簽可以從數據庫直接獲取(如注冊信息),或通過簡單的統計得到。這類標簽構建難度低、實際含義明確,且部分標簽可用作后續標簽挖掘的基礎特征(如產品購買次數可用來作為用戶購物偏好的輸入特征數據)。

事實標簽的構造過程,也是對數據加深理解的過程。對數據進行統計的同時,不僅完成了數據的處理與加工,也對數據的分布有了一定的了解,為高級標簽的構造做好了準備。

模型標簽是標簽體系的核心,也是用戶畫像工作量最大的部分,大多數用戶標簽的核心都是模型標簽。模型標簽的構造大多需要用到機器學習和自然語言處理技術,我們下文中介紹的標簽構造方法主要指的是模型標簽,具體的構造算法會在本文第03章詳細介紹。

最后構造的是高級標簽,高級標簽是基于事實標簽和模型標簽進行統計建模得出的,它的構造多與實際的業務指標緊密聯系。只有完成基礎標簽的構建,才能夠構造高級標簽。構建高級標簽使用的模型,可以是簡單的數據統計,也可以是復雜的機器學習模型。

03 構建用戶畫像

我們把標簽分為三類,這三類標簽有較大的差異,構建時用到的技術差別也很大。

第一類是人口屬性,這一類標簽比較穩定,一旦建立很長一段時間基本不用更新,標簽體系也比較固定;第二類是興趣屬性,這類標簽隨時間變化很快,標簽有很強的時效性,標簽體系也不固定;第三類是地理屬性,這一類標簽的時效性跨度很大,如GPS軌跡標簽需要做到實時更新,而常住地標簽一般可以幾個月不用更新,挖掘的方法和前面兩類也大有不同,如圖10-6所示。

▲圖10-6 三類標簽屬性

1. 人口屬性畫像

人口屬性包括年齡、性別、學歷、人生階段、收入水平、消費水平、所屬行業等。這些標簽基本是穩定的,構建一次可以很長一段時間不用更新,標簽的有效期都在一個月以上。同時標簽體系的劃分也比較固定,表10-2是MMA中國無線營銷聯盟對人口屬性的一個劃分。

大部分主流的人口屬性標簽都和這個體系比較類似,有些在分段上有一些區別。

性別

未知

年齡

12 以下

12-17

18-19

20-24

25-29

30-34

35-39

40-44

45-49

50-54

55-59

60-64

65 及以上

未知

月收入

3500 元以下

3500-5000 元

5000-8000 元

8000-12500 元

12500-25000 元

25001-40000

40000 元以上

未知

婚姻狀態

未婚

已婚

離異

未知

從事行業

廣告/營銷/公關

航天

農林化工

汽車

計算機/互聯網

建筑

教育/學生

能源/采礦

金融/保險/房地產

政府/軍事/房地產

服務業

傳媒/出版/娛樂

醫療/保險服務

制藥

零售

電信/網絡

旅游/交通

其它

教育程度

初中及以下

高中

中專

大專

本科

碩士

博士

▲表10-2? 人口標簽

很多產品(如QQ、facebook等)都會引導用戶填寫基本信息,這些信息就包括年齡、性別、收入等大多數的人口屬性,但完整填寫個人信息的用戶只占很少一部分。而對于無社交屬性的產品(如輸入法、團購APP、視頻網站等)用戶信息的填充率非常低,有的甚至不足5%。

在這種情況下,我們一般會用填寫了信息的這部分用戶作為樣本,把用戶的行為數據作為特征訓練模型,對無標簽的用戶進行人口屬性的預測。這種模型把用戶的標簽傳給和他行為相似的用戶,可以認為是對人群進行了標簽擴散,因此常被稱為標簽擴散模型。

下面我們用視頻網站性別年齡畫像的例子來說明標簽擴散模型是如何構建的。

一個視頻網站,希望了解自己的用戶組成,于是對用戶的性別進行畫像。通過數據統計,有大約30%的用戶注冊時填寫了個人信息,我們將這30%的用戶作為訓練集,來構建全量用戶的性別畫像,我們的數據如表10-3所示。

Uid

Gender

Watched ?videos

525252

Male

Game ?of throat

532626

Runing ?men、最強大腦

526267

瑯琊榜、偽裝者

573373

Female

歡樂喜劇人

▲表10-3:視頻網站用戶數據

下面我們來構建特征。通過分析,我們發現男性和女性,對于影片的偏好是有差別的,因此使用觀看的影片列表來預測用戶性別有一定的可行性。此外我們還可以考慮用戶的觀看時間、瀏覽器、觀看時長等,為了簡化,這里我們只使用用戶觀看的影片特征。

由于觀看影片特征是稀疏特征,我們可以使用調用MLlib,使用LR、線性SVM等模型進行訓練。考慮到注冊用戶填寫的用戶信息本身的準確率不高,我們可以從30%的樣本集中提取準確率較高的部分(如用戶信息填寫較完備的)用于訓練,因此我們整體的訓練流程如圖10-7所示。

對于預測性別這樣的二分類模型,如果行為的區分度較好,一般準確率和覆蓋率都可以達到70%左右。

▲圖10-7 訓練流程

對于人口屬性標簽,只要有一定的樣本標簽數據,并找到能夠區分標簽分類的用戶行為特征,就可以構建標簽擴散模型。其中使用的技術方法主要是機器學習中的分類技術,常用的模型有LR、FM、SVM、GBDT等。

2. 興趣畫像

興趣畫像是互聯網領域使用最廣泛的畫像,互聯網廣告、個性化推薦、精準營銷等各個領域最核心的標簽都是興趣標簽。興趣畫像主要是從用戶海量行為日志中進行核心信息的抽取、標簽化和統計,因此在構建用戶興趣畫像之前需要先對用戶有行為的內容進行內容建模。

內容建模需要注意粒度,過細的粒度會導致標簽沒有泛化能力和使用價值,過粗的粒度會導致沒有區分度。

為了保證興趣畫像既有一定的準確度又有較好的泛化性,我們會構建層次化的興趣標簽體系,使用中同時用幾個粒度的標簽去匹配,既保證了標簽的準確性,又保證了標簽的泛化性。下面我們用新聞的用戶興趣畫像舉例,介紹如何構建層次化的興趣標簽。

2.1 內容建模

新聞數據本身是非結構化的,首先需要人工構建一個層次的標簽體系。我們考慮如下圖10-9的一篇新聞,看看哪些內容可以表示用戶的興趣。

▲圖10-9 新聞例子

首先,這是一篇體育新聞,體育這個新聞分類可以表示用戶興趣,但是這個標簽太粗了,用戶可能只對足球感興趣,體育這個標簽就顯得不夠準確。

其次,我們可以使用新聞中的關鍵詞,尤其是里面的專有名詞(人名、機構名),如“桑切斯”、“阿森納”、“厄齊爾”,這些詞也表示了用戶的興趣。關鍵詞的主要問題在于粒度太細,如果一天的新聞里沒有這些關鍵詞出現,就無法給用戶推薦內容。

最后,我們希望有一個中間粒度的標簽,既有一定的準確度,又有一定的泛化能力。于是我們嘗試對關鍵詞進行聚類,把一類關鍵詞當成一個標簽,或者把一個分類下的新聞進行拆分,生成像“足球”這種粒度介于關鍵詞和分類之間的主題標簽。我們可以使用文本主題聚類完成主題標簽的構建。

至此我們就完成了對新聞內容從粗到細的“分類-主題-關鍵詞”三層標簽體系內容建模,新聞的三層標簽如表10-4所示。

分類

主題

關鍵詞

使用算法

文本分類、SVM、LR、Bayes

PLSA、LDA

Tf*idf、專門識別、領域詞表

粒度

泛化性

舉例

體育、財經、娛樂

足球、理財

梅西、川普、機器學習

量級

10-30

100-1000

百萬

▲表10-4? 三層標簽體系

既然主題的準確率和覆蓋率都不錯,我們只使用主題不就可以了嘛?為什么還要構建分類和關鍵詞這兩層標簽呢?這么做是為了給用戶進行盡可能精確和全面的內容推薦。

當用戶的關鍵詞命中新聞時,顯然能夠給用戶更準確的推薦,這時就不需要再使用主題標簽;而對于比較小眾的主題(如體育類的冰上運動主題),若當天沒有新聞覆蓋,我們就可以根據分類標簽進行推薦。層次標簽兼顧了對用戶興趣刻畫的覆蓋率和準確性。

2.2 興趣衰減

在完成內容建模以后,我們就可以根據用戶點擊,計算用戶對分類、主題、關鍵詞的興趣,得到用戶興趣標簽的權重。最簡單的計數方法是用戶點擊一篇新聞,就把用戶對該篇新聞的所有標簽在用戶興趣上加一,用戶對每個詞的興趣計算就使用如下的公式:

其中:詞在這次瀏覽的新聞中出現C=1,否則C=0,weight表示詞在這篇新聞中的權重。

這樣做有兩個問題:一個是用戶的興趣累加是線性的,數值會非常大,老的興趣權重會特別高;另一個是用戶的興趣有很強的時效性,昨天的點擊要比一個月之前的點擊重要的多,線性疊加無法突出近期興趣。

為了解決這個問題,需要要對用戶興趣得分進行衰減,我們使用如下的方法對興趣得分進行次數衰減和時間衰減。?

次數衰減的公式如下:

其中,α是衰減因子,每次都對上一次的分數做衰減,最終得分會收斂到一個穩定值 ,α取0.9時,得分會無限接近10。

時間衰減的公式如下:

它表示根據時間對興趣進行衰減,這樣做可以保證時間較早的興趣會在一段時間以后變的非常弱,同時近期的興趣會有更大的權重。根據用戶興趣變化的速度、用戶活躍度等因素,也可以對興趣進行周級別、月級別或小時級別的衰減。

3. 地理位置畫像

地理位置畫像一般分為兩部分:一部分是常駐地畫像;一部分是GPS畫像。兩類畫像的差別很大,常駐地畫像比較容易構造,且標簽比較穩定,GPS畫像需要實時更新。

常駐地包括國家、省份、城市三級,一般只細化到城市粒度。常駐地的挖掘基于用戶的IP地址信息,對用戶的IP地址進行解析,對應到相應的城市,對用戶IP出現的城市進行統計就可以得到常駐城市標簽。

用戶的常駐城市標簽,不僅可以用來統計各個地域的用戶分布,還可以根據用戶在各個城市之間的出行軌跡識別出差人群、旅游人群等,如圖10-10所示是人群出行軌跡的一個示例。

▲圖10-10 人群出行軌跡

GPS數據一般從手機端收集,但很多手機APP沒有獲取用戶 GPS信息的權限。能夠獲取用戶GPS信息的主要是百度地圖、滴滴打車等出行導航類APP,此外收集到的用戶GPS數據比較稀疏。

百度地圖使用該方法結合時間段數據,構建了用戶公司和家的GPS標簽。此外百度地圖還基于GPS信息,統計各條路上的車流量,進行路況分析,如圖10-11是北京市的實時路況圖,紅色表示擁堵線路。

▲圖10-11 北京的實時路況圖

04 用戶畫像評估和使用

人口屬性畫像的相關指標比較容易評估,而興趣畫像的標簽比較模糊,興趣畫像的人為評估比較困難,我們對于興趣畫像的常用評估方法是設計小流量的A/B-test進行驗證。

我們可以篩選一部分標簽用戶,給這部分用戶進行和標簽相關的推送,看標簽用戶對相關內容是否有更好的反饋。

例如,在新聞推薦中,我們給用戶構建了興趣畫像,我們從體育類興趣用戶中選取一小批用戶,給他們推送體育類新聞,如果這批用戶的點擊率和閱讀時長明顯高于平均水平,就說明標簽是有效的。

1. 效果評估

用戶畫像效果最直接的評估方法就是看其對實際業務的提升,如互聯網廣告投放中畫像效果主要看使用畫像以后點擊率和收入的提升,精準營銷過程中主要看使用畫像后銷量的提升等。

但是如果把一個沒有經過效果評估的模型直接用到線上,風險是很大的,因此我們需要一些上線前可計算的指標來衡量用戶畫像的質量。

用戶畫像的評估指標主要是指準確率、覆蓋率、時效性等指標。

1.1 準確率

標簽的準確率指的是被打上正確標簽的用戶比例,準確率是用戶畫像最核心的指標,一個準確率非常低的標簽是沒有應用價值的。準確率的計算公式如下:

其中|?Utag |表示被打上標簽的用戶數,|?Utag=true |表示有標簽用戶中被打對標簽的用戶數。準確率的評估一般有兩種方法:一種是在標注數據集里留一部分測試數據用于計算模型的準確率;另一種是在全量用戶中抽一批用戶,進行人工標注,評估準確率。

由于初始的標注數據集的分布和全量用戶分布相比可能有一定偏差,故后一種方法的數據更可信。準確率一般是對每個標簽分別評估,多個標簽放在一起評估準確率是沒有意義的。

1.2 覆蓋率

標簽的覆蓋率指的是被打上標簽的用戶占全量用戶的比例,我們希望標簽的覆蓋率盡可能的高。但覆蓋率和準確率是一對矛盾的指標,需要對二者進行權衡,一般的做法是在準確率符合一定標準的情況下,盡可能的提升覆蓋率。

我們希望覆蓋盡可能多的用戶,同時給每個用戶打上盡可能多的標簽,因此標簽整體的覆蓋率一般拆解為兩個指標來評估。一個是標簽覆蓋的用戶比例,另一個是覆蓋用戶的人均標簽數,前一個指標是覆蓋的廣度,后一個指標表示覆蓋的密度。

用戶覆蓋比例的計算方法是:

其中| U |表示用戶的總數,|?Utag?|表示被打上標簽的用戶數。

人均標簽數的計算方法是:

其中|?tagi?|表示每個用戶的標簽數,|?Utag?|表示被打上標簽的用戶數。覆蓋率既可以對單一標簽計算,也可以對某一類標簽計算,還可以對全量標簽計算,這些都是有統計意義的。

1.3 時效性

有些標簽的時效性很強,如興趣標簽、出現軌跡標簽等,一周之前的就沒有意義了;有些標簽基本沒有時效性,如性別、年齡等,可以有一年到幾年的有效期。對于不同的標簽,需要建立合理的更新機制,以保證標簽時間上的有效性。

1.4 其他指標

標簽還需要有一定的可解釋性,便于理解;同時需要便于維護且有一定的可擴展性,方便后續標簽的添加。這些指標難以給出量化的標準,但在構架用戶畫像時也需要注意。

2. 畫像使用

用戶畫像在構建和評估之后,就可以在業務中應用,一般需要一個可視化平臺,對標簽進行查看和檢索。畫像的可視化一般使用餅圖、柱狀圖等對標簽的覆蓋人數、覆蓋比例等指標做形象的展示,如下圖10-12所示是用戶畫像的一個可視化界面。

▲圖10-12 用戶畫像的可視化界面

此外,對于構建的畫像,我們還可以使用不同維度的標簽,進行高級的組合分析,產出高質量的分析報告。在智能營銷、計算廣告、個性化推薦等領域用戶畫像都可以得到應用,具體的應用方法,與其應用領域結合比較緊密,我們不再詳細介紹。

---------------------

https://blog.csdn.net/zw0Pi8G5C1x/article/details/83964888

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,501評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,673評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,610評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,939評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,668評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,004評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,001評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,173評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,705評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,426評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,656評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,139評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,833評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,247評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,580評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,371評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,621評論 2 380