讓機(jī)器讀懂用戶——大數(shù)據(jù)中的用戶畫像-CSDN.NET http://www.csdn.net/article/a/2017-02-27/15855731
- Github項(xiàng)目: awesome-coder-resources:編程/學(xué)習(xí)/閱讀資源(開源項(xiàng)目,面試題,網(wǎng)站,書,博客,教程等等)......【歡迎Star,歡迎圍觀】......
用戶畫像有什么作用,能幫助我們達(dá)到哪些目標(biāo)呢?
大體上可以總結(jié)為以下幾個(gè)方面:
- 精準(zhǔn)營(yíng)銷:精準(zhǔn)直郵、短信、App消息推送、個(gè)性化廣告等。
- 用戶研究:指導(dǎo)產(chǎn)品優(yōu)化,甚至做到產(chǎn)品功能的私人定制等。
- 個(gè)性服務(wù):個(gè)性化推薦、個(gè)性化搜索等。
- 業(yè)務(wù)決策:排名統(tǒng)計(jì)、地域分析、行業(yè)趨勢(shì)、競(jìng)品分析等。
//
應(yīng)用示例:個(gè)性化推薦
以電商網(wǎng)站的某種頁面的個(gè)性化推薦為例,考慮到特征的可解釋性、易擴(kuò)展和模型的計(jì)算性能,很多線上推薦系統(tǒng)采用LR(邏輯回歸)模型訓(xùn)練,這里也以LR模型舉例。很多推薦場(chǎng)景都會(huì)用到基于商品的協(xié)同過濾,而基于商品協(xié)同過濾的核心是一個(gè)商品相關(guān)性矩陣W,假設(shè)有n個(gè)商品,那么W就是一個(gè)n * n的矩陣,矩陣的元素wij代表商品Ii和Ij之間的相關(guān)系數(shù)。而根據(jù)用戶訪問和購買商品的行為特征,可以把用戶表示成一個(gè)n維的特征向量U=[ i1, i2, ..., in ]。于是UW可以看成用戶對(duì)每個(gè)商品的感興趣程度V=[ v1, v2, ..., vn ],這里v1即是用戶對(duì)商品I1的感興趣程度,v1= i1w11 + i2w12 + inw1n。如果把相關(guān)系數(shù)w11, w12, ..., w1n 看成要求的變量,那么就可以用LR模型,代入訓(xùn)練集用戶的行為向量U,進(jìn)行求解。這樣一個(gè)初步的LR模型就訓(xùn)練出來了,效果和基于商品的協(xié)同過濾類似。
//
數(shù)據(jù)管理系統(tǒng)
用戶畫像涉及到大量的數(shù)據(jù)處理和特征提取工作,往往需要用到多數(shù)據(jù)來源,且多人并行處理數(shù)據(jù)和生成特征。因此,需要一個(gè)數(shù)據(jù)管理系統(tǒng)來對(duì)數(shù)據(jù)統(tǒng)一進(jìn)行合并存儲(chǔ)和分發(fā)。我們的系統(tǒng)以約定的目錄結(jié)構(gòu)來組織數(shù)據(jù),基本目錄層級(jí)為:/user_tag/屬性/日期/來源_作者/。以性別特征為例,開發(fā)者dev1從用戶姓名提取的性別數(shù)據(jù)存放路徑為 /user_tag/gender/20170101/name_dev1,開發(fā)者dev2從用戶填寫資料提取的性別數(shù)據(jù)存放路徑為 /user_tag/gender/20170102/raw_dev2。
從每種來源提取的數(shù)據(jù)可信度是不同的,所以各來源提取的數(shù)據(jù)必須給出一定的權(quán)重,約定一般為0-1之間的一個(gè)概率值,這樣系統(tǒng)在做數(shù)據(jù)的自動(dòng)合并時(shí),只需要做簡(jiǎn)單的加權(quán)求和,并歸一化輸出到集群,存儲(chǔ)到事先定義好的Hive表。接下來就是數(shù)據(jù)增量更新到HBase、ES、Spark集群等更多應(yīng)用服務(wù)集群。
//
精確有效的用戶畫像,依賴于從大量的數(shù)據(jù)中提取正確的特征,這需要一個(gè)強(qiáng)大的數(shù)據(jù)管理系統(tǒng)作為支撐。
用戶畫像的生產(chǎn)
用戶特征的提取即用戶畫像的生產(chǎn)過程,大致可以分為以下幾步:
- 用戶建模,指確定提取的用戶特征維度,和需要使用到的數(shù)據(jù)源。
- 數(shù)據(jù)收集,通過數(shù)據(jù)收集工具,如Flume或自己寫的腳本程序,把需要使用的數(shù)據(jù)統(tǒng)一存放到Hadoop集群。
- 數(shù)據(jù)清理,數(shù)據(jù)清理的過程通常位于Hadoop集群,也有可能與數(shù)據(jù)收集同時(shí)進(jìn)行,這一步的主要工作,是把收集到各種來源、雜亂無章的數(shù)據(jù)進(jìn)行字段提取,得到關(guān)注的目標(biāo)特征。
- 模型訓(xùn)練,有些特征可能無法直接從數(shù)據(jù)清理得到,比如用戶感興趣的內(nèi)容或用戶的消費(fèi)水平,那么可以通過收集到的已知特征進(jìn)行學(xué)習(xí)和預(yù)測(cè)。
- 屬性預(yù)測(cè),利用訓(xùn)練得到的模型和用戶的已知特征,預(yù)測(cè)用戶的未知特征。
- 數(shù)據(jù)合并,把用戶通過各種數(shù)據(jù)源提取的特征進(jìn)行合并,并給出一定的可信度。
- 數(shù)據(jù)分發(fā),對(duì)于合并后的結(jié)果數(shù)據(jù),分發(fā)到精準(zhǔn)營(yíng)銷、個(gè)性化推薦、CRM等各個(gè)平臺(tái),提供數(shù)據(jù)支持。