【干貨】基于大數據的IPTV精準營銷方案研究與應用 https://mp.weixin.qq.com/s?src=3×tamp=1500171470&ver=1&signature=0XZ2ZR41fp7FU2HCgoQxiKkAX6DH5rg7qt7QYgBaa0s33k6OA7U7GS66w4zRFTqY6s-TDJ5b9wXJkDZ-odlzTkk30Mvqm6-NN3z6zLIxz8jkRC8yeYOKNQfShfNhmgu3W38GnpwjtnXg21fI*HaOAjX3tEgAUv-duCpxT0ba8=
- Github項目: awesome-coder-resources:編程/學習/閱讀資源---開源項目,面試題,網站,書,博客,教程等等...歡迎Star,歡迎圍觀...
CRISP-DM(cross-industry standard process for data mining,跨行業數據挖掘標準流程)提供了一個數據挖掘生命周期的全面評述,在數據挖掘中被廣泛采用。其流程如圖1所示。
匯聚的數據—數據分析—建模分析”間的關系就如同“經初步處理的棉麻原料—布匹—成衣”的過程。
摘要:分析了大數據技術在IPTV精準營銷中的應用,因地制宜地制定了“Hadoop大數據平臺+爬蟲技術+建模工具”的框架方案,并對方案中的關鍵點和整個數據分析建模過程在現網中的應用進行了深入分析。在IPTV精準營銷中取得了較好的效果,具有較高的應用價值。
關鍵詞:大數據技術;數據建模;IPTV;精準營銷
1 引言
隨著2015年國務院“65號文”全面開放運營商進入IPTV領域和運營商網絡升級,IPTV迎來一個發展良機。來自流媒體網的數據,2016年1-6月,IPTV用戶凈增1991.7萬戶,總數達到6581.2萬戶。
然而,在運營商業務體系中,IPTV主要起到寬帶業務填充和增加用戶黏性的作用,直接收入貢獻不突出。IPTV互聯網特性提供了點播等不同于傳統電視的業務模式,為IPTV業務增收另辟蹊徑。
同時,隨著視頻業務在網絡流量中比重日益增加以及政策放開帶來的競爭,發展新用戶也是IPTV業務當前的發展重點。
在當前IPTV業務營銷中,最大問題是準確定位“向誰”營銷“什么業務”,傳統方式指向性不夠,導致營銷效率低下,且容易引起用戶反感。另一方面,電信運營商擁有豐富的用戶數據,從數據中掘金,是當前大勢所趨。現在數據具有體量大、類型多樣、速度快、價值密度低4個特征,為適應新形式下的數據挖掘,大數據技術應運而生。
2 需求分析
在IPTV業務實際運營中,發現存在以下問題。
(1)訂購用戶少
以某運營商省公司2016年5月數據為例,增值業務用戶數僅占全部IPTV用戶數的10%左右,增值業務收入占IPTV業務收入的1/4。
(2)基于用戶惰性行為的分析
增值業務訂購有點播、包月、包年等不同時效的產品包,從用戶行為看,少有用戶不停點播不同內容的,應該更多地發展包年用戶。
(3)不同內容產品包的用戶差距明顯
以某運營商省公司的數據為例,訂購最多的“影院高清包年”用戶是“英超高清包年”的上百倍。
(4)高清拉動
隨著高清電視的普及和帶寬的提升,用戶對高清視頻需求增長明顯。
(5)積分訂購和賬單訂購用戶退訂行為差距大
積分訂購用戶在業務到期后退訂明顯,賬單訂購用戶退訂相對平緩。
針對以上分析,發展增值業務用戶需要考慮:用戶的視頻需求,包括觀看時間、內容、是否高清敏感等;用戶的支付習慣,包括消費敏感度、積分支付行為等。對于發展新用戶,首先在寬帶用戶中發展,由于目標用戶還沒有使用IPTV,應基于運營商ODS(operating data store,運營數據倉儲)數據和網絡DPI(deep packet inspection,深度分組檢測)數據對用戶進行分析,向有視頻傾向的寬帶用戶推薦IPTV業務,同時推薦用戶感興趣的增值業務。
3 方案框架
3.1 基于Hadoop大數據平臺實現數據匯聚
本文方案用到的數據比較復雜:數據體量大,僅IPTV業務數據就包括十幾個表,每天大于5 GB的裸數據(某運營商省公司IPTV業務數據),而DPI數據更是體量大、價值密度低;數據類型多,包括ODS傳統數據庫數據、IPTV日志類業務數據、DPI數據和網上爬取的數據等;不同類型和來源的數據需要進行用戶和格式的統一;涉及的數據大多來自現網數據,包括IPTV業務數據、用戶套餐信息等,為避免影響現網業務,有必要新建數據平臺進行數據保存處理。
采用Hadoop技術搭建大數據平臺,集群規模為“2+16+1”(名稱節點+數據節點+接口機),50 TB存儲空間(能滿足同時開展3個省公司的IPTV大數據分析的數據存儲),部署了Sqoop、Flume等數據同步工具,Big、Hive、Impala、Spark等數據查詢分析工具。
3.2 基于CRISP-DM的數據挖掘流程
CRISP-DM(cross-industry standard process for data mining,跨行業數據挖掘標準流程)提供了一個數據挖掘生命周期的全面評述,在數據挖掘中被廣泛采用。其流程如圖1所示。
圖1 CRISP-DM模型處理流程示意
CRISP-DM模型流程包括圖1中的6個步驟[1],說明如下。
(1)商業問題定義
主要從項目目標和業務角度理解需求,并制定初步計劃;為發展IPTV增值業務和IPTV新用戶提供數據挖掘服務,精準定位需求用戶,其中發展IPTV增值業務包括發展增值業務新用戶、增值業務升級(點播/包月轉包年)、業務升級(標清轉高清/4K(即4K分辨率,ultra HD標準),寬帶升級)等;發展新用戶主要在寬帶用戶中發展IPTV用戶。
(2)數據理解
從數據收集開始進行數據探索,發現數據內部屬性;需要的數據包括IPTV業務數據、用戶電信畫像數據(用戶套餐信息、家庭成員結構、支付習慣等)、用戶視頻畫像數據等。
(3)數據準備
數據準備階段包括從未處理數據中構造最終數據集的所有活動。基于業務目標,對匯集的數據進行分析,縮小數據范圍,并對不同來源數據進行對接統一;Hive提供的Hive SQL非常適合熟悉SQL語言的人使用,本項目使用Hive的UDF(user defined function,用戶定義函數)進行數據提取,為數據建模提供寬表數據。
(4)建模
對數據進行建模分析;建模可以使用R語言、Python言語、Mahout編程實現,但對實現者要求高,實現周期長,管理復雜;數據探索結果顯示,經過數據分析提取,最終用于數據挖掘的數據量并不多(以某運營商省公司的“包月轉包年”模型為例,經過分析后獲取的寬表數據每個月數據量在50~70 MB),這非常適合使用成熟的建模工具進行處理,本文采用支持CRISP-DM模型的現成建模工具。
(5)評估
檢查構造模型的步驟,確保模型可以完成業務目標;對建模的算法、效果進行分析比較,并基于測試分區進行檢查。
(6)部署
將模型獲得的知識進行應用;模型導出營銷用戶清單及對應的推薦業務,營銷部門根據該清單進行營銷,并反饋營銷效果。
3.3 總體框架方案
基于上述分析,框架方案可如圖2所示,“IPTV精準營銷大數據平臺”基于Hadoop技術搭建,匯聚了數據分析所需的數據,同時部署了爬蟲程序用于爬取視頻相關數據,構建用戶視頻畫像(詳見第4.2節),還有數據的預處理分析也在“IPTV精準營銷大數據平臺”上進行,經過處理向建模工具輸出寬表數據;建模工具實現數據的建模分析,向營銷部門輸出營銷用戶清單。營銷由專門的營銷部門實現,是方案成果的使用部門和價值體現,同時還需要根據營銷結果進行數據分析和建模的調整。
4 數據匯聚和預處理
4.1 運營商數據匯聚
本文用到的運營商數據包括IPTV業務數據、用戶套餐信息、家庭標簽、支付標簽、ODS數據、DPI數據等,處理的方式各不相同:IPTV業務數據目前沒有匯聚到運營商大數據平臺,需要與IPTV業務平臺對接,定期采集數據到“IPTV精準營銷大數據平臺”;用戶套餐信息、家庭標簽、支付標簽等數據從運營商ODS系統中查詢獲取,將結果保存到“IPTV精準營銷大數據平臺”;DPI數據已經保存到運營商大數據平臺,利用其租戶空間進行數據初步分析,獲取用戶視屏標簽數據,結果匯聚到“IPTV精準營銷大數據平臺”。
4.2 通過數據爬取構建用戶視頻畫像
數據爬取需求主要包括:節目信息爬取和建立視頻標簽的數據爬取。
IPTV業務平臺只有節目的名稱,沒有視頻節目標簽數據,如節目分類、主演、地區等;需要通過爬蟲爬取節目信息,為用戶IPTV播放記錄打上視頻標簽。輸入輸出樣例如下:
輸入樣例:00000050000000010000000011024895|愛回家6_26
輸出樣例:00000050000000010000000011024895|愛回家6_26|
標題=愛·回家|年份=2012|分類=電視劇|主演=劉丹/徐榮/黎諾懿/郭少蕓/朱慧敏/林漪娸|地區=香港|導演=徐遇安|類型=劇情/搞笑/時裝/家庭|編劇=冼翠貞
對于沒有使用IPTV業務的寬帶用戶,可通過其DPI數據獲取視頻觀看記錄,構建其視頻畫像,雖然運營商大數據平臺已有包括視頻標簽的完整標簽體系,但指向性不夠,兼顧目標和效率,本文選取樂視、優酷、愛奇藝等幾個規模大、更接近電視屏的視頻網站,基于用戶對這些視頻網站的訪問行為構建用戶的視頻畫像,為此本文通過爬蟲爬取了明星庫、節目庫、基于主要視頻網站的視頻分類和標簽信息,構建了用于刻畫用戶畫像的視頻標簽系統。
爬蟲程序基于開源項目Scrapy自主開發,并分布式部署在“IPTV精準營銷大數據平臺”,爬取的數據自動保存到“IPTV精準營銷大數據平臺”。其中爬取的節目信息直接通過自主開發的程序為用戶IPTV觀看行為數據打視頻標簽;爬取的明星庫、節目庫、視頻分類信息構建了用戶視頻標簽系統,并運營商大數據平臺租戶空間中對用戶DPI數據打視頻標簽,并將最終打上視頻標簽的數據匯聚到“IPTV精準營銷大數據平臺”。
4.3 數據預處理
預處理包括從用戶維度對數據進行統一處理,并根據業務邏輯進行數據抽取,形成統一的寬表數據,供建模分析。預處理體現了建模的人工智慧——需要確定數據抽取的范圍、粒度,體現了數據挖掘的業務邏輯,其成果將直接影響建模的有效性。具體包括:數據的統一,基于用戶寬帶賬號、IPTV賬號對應的用戶標識進行數據的統一;數據提取,根據業務分析確定業務處理邏輯,并從原始數據中提取、匯總、比較等,生成最終用于建模的數據。“匯聚的數據—數據分析—建模分析”間的關系就如同“經初步處理的棉麻原料—布匹—成衣”的過程。
以IPTV包月轉包年模型為例,經過數據分析后形成的寬表數據包括以下方面。
(1)用戶基礎信息
包括用戶寬帶套餐、積分數據、IPTV業務狀態、IPTV機頂盒信息(廠商、型號、清晰度、數量等)等,這些信息基本上可以直接通過數據抽取得到。
(2)用戶IPTV增值業務使用信息
包括按不同支付方式匯總近3年訂購金額、次數,在訂產品包個數和總金額等;用戶在訂/退訂各年包/半年包匯總數據;用戶在訂、退訂的最長時間產品包信息;用戶點播的高清/非高清電影、電視劇等不同種類節目匯總的次數、天數、時長、節目數等;這些數據要從匯聚的數據經過計算、匯總得到;用戶觀看直播節目匯總信息。
(3)用戶其他畫像信息
基于用戶住宅區域、套餐信息和賬單支付形成的用戶支付畫像,基于用戶工作日寬帶網絡、IPTV使用情況,家庭Wi-Fi使用、網站訪問搜索和購物信息等形成的家庭人口畫像,這些已有運營商大數據平臺生成,可直接抽取用戶標簽數據使用。
還有的需要進行額外的數據比較,如通過比較用戶IPTV清晰度和帶寬信息(加上用戶高清視頻標簽),推薦用戶進行帶寬升級、IPTV清晰度升級或兩者均升級等;這需求比較IPTV標清/高清/4K需要的帶寬信息、用戶套餐的帶寬信息、用戶IPTV機頂盒清晰度信息,定義用戶帶寬和IPTV滿足度的新字段。
經過預處理的數據優化了數據結構,大大降低了數據量,更易于建模分析。提交給建模的數據包括觀察數據和預測數據,觀察數據用于建模,得到“實現業務目標”的用戶模型,然后用這些用戶模型對預測數據分析,得出“下月可能實現業務目標”的用戶清單。
5 建模分析
建模過程輸入寬表數據,輸出營銷月用戶清單。整個分析過程包括:根據觀察數據建立用戶模型;根據用戶模型對預測數據進行分析,得出下月營銷目標用戶,并根據用戶的視頻畫像進行聚類,向用戶推薦合適的產品包。本部分以“包月轉包年”模型為例描述建模分析過程。
5.1 數據建模分析
具體的建模分析過程可分為數據預處理和數據建模兩部分。
其中數據預處理主要是根據建模要求,對寬表數據做進一步處理,使其更符合建模分析的需要,以“包月轉包年”模型為例,數據預處理包括以下方面。
(1)字段處理
將寬表數據根據建模要求進行數據統計、新字段定義,如統計用戶產品月齡、在訂/退訂產品包信息,定義“次月是否新訂年包”等;基于營銷時機的處理,如選擇最近訂購或退訂過包月業務的用戶。
(2)區別不同訂購方式
業務分析中,發現用戶賬單支付和積分支付行為差距明顯,在建模前將兩類數據區別開,分別進行建模。
(3)數據分區
建模中將數據按訓練數據和測試數據進行分區。
(4)數據平衡
整體用戶中訂購用戶相對稀疏,以某月數據為例,訂購用戶和未訂購用戶之比接近1∶60,在建模前需要對訂購用戶和未訂購用戶進行數據平衡。
數據建模主要是選擇合適的算法對數據進行分析,并選擇最優模型用于用戶預測。“包月轉包年”模型建模選擇了“自動分類器”中的C5、判別、CHAID、C&R樹、Quest等算法進行建模,其中賬單支付的各算法建模結果比較如圖3所示,基于“總體精確性”指標選擇最優算法(賬單支付中選擇判別算法),用于后續進行用戶預測的模型。
圖3 賬單支付下各算法建模結果比較
積分訂購建模中總體成功率更高,以選擇的“C&R樹”算法為例,訓練數據集結果為78.299%,測試數據集結果為84.206%,這與業務分析是一致的:對于積分支付用戶來說,只要用戶喜歡這些增值業務(有視頻觀看偏向),手里又有積分,那訂購的成功率還是較高的;對于賬單支付用戶來說,用戶要真金白銀的出錢考慮的因素就多了,況且還有樂視、優酷等其他互聯網品牌可以選擇。
5.2 導出營銷用戶清單
導出營銷用戶清單包括數據預處理、用戶預測和推薦產品包選擇。數據預處理包括字段處理、用戶剔除(最近半年已營銷用戶等)和區分用戶支付方式等。
數據預處理后,使用第5.1節中選定的數據模型分別對賬單支付用戶和積分用戶進行預測,得到下個月“根據模型可能訂購業務”的用戶,并設置置信度閾值,選取營銷目標用戶。
最終提交的營銷清單還包括向用戶推薦的產品包,嚴格意義上應該分析用戶的視頻觀看行為得到用戶的視頻畫像,向用戶推薦“用戶最感興趣”的節目,實際營銷中營銷的產品包往往是有限的——根據自身資源和統計“最熱門”的產品來確定。本次營銷根據IPTV平臺的節目資源和以往用戶訂購統計信息,確定了包括“影院高清年包”“熱劇年付”“全能看包年”“紀實高清半年包”“動漫高清半年包”等在內的十幾個產品包,內容集中在電影、電視劇、動漫、紀實上。
為此,采用k-means聚類算法,對用戶視頻觀看行為進行聚類,并根據營銷的產品包顯示高清電影觀看時長(vod_hd_mov_dur)、標清電影觀看時長(vod_non_hd_mov_ dur)、高清電視劇觀看時長(vod_hd_tvp_dur)、標清電視劇觀看時長(vod_non_hd_tvp_dur)、高清紀實觀看時長(vod_hd_doc_dur)、高清動漫觀看時長(vod_hd_ct_dur)在聚類中的分布,結果如圖4所示,其中圖4(a)是按“總體重要性排序”的絕對分布,從中可看出對總體重要性而言,動漫、紀實排在前兩位,這可以解釋大多用戶對電影、電視劇偏向的普遍性;圖4(b)是“聚類內重要性”的相對分布,基于圖4向用戶推薦產品包(其中聚類2只有兩個值作為離群值概率),見表1。
圖4 對用戶觀看內容的聚類結果
5.3 模型評估優化
模型的評估優化包括部署前模型本身的評估和部署后根據營銷反饋的優化。
模型本身的評估包括:算法和測試分區的驗證、平衡因子的調整、字段的調整等。首先,通過選擇不同的算法得出不同的算法模型,結合測試分區的驗證,選擇最優算法或算法組合;本例中通過選擇“自動分類器”中不同算法,并結合測試分區的驗證確定最優模型。然后通過調整平衡因子調整目標用戶在整體數據中的比例,多次運行模型,確定平衡因子的最優范圍。還有結合建模結果中各字段的重要性進行字段微調。
同時模型還要根據營銷反饋的數據進行優化,可以結合建模將用戶隨機分成幾組,調整算法、置信度、字段等,結合不同的營銷效果進行模型的調優,這部分工作還在進行中。
總之,數據挖掘中建立數據模型不是分析的結束,而是又一輪分析的開始,要經過各種手段的調整優化,不斷提升數據挖掘的效果。
6 結束語
本次分析主要配合某運營商省公司的電銷進行,從效果來看,營銷成功率比原先提升將近一倍,效果最好的“包月轉包年”營銷成功率由原來的不到5%提升到12%,應該說取得了比較好的效果。
當然數據挖掘在營銷過程中主要還是幕后的“軍師”,本文主要通過數據建模得出下月有可能成為“IPTV用戶”或“訂購增值業務的用戶”。而實際營銷主要是向用戶提供滿足用戶需求的、性價比可接受的產品,大數據分析在IPTV用戶需求分析、產品提供等其他方面也可以發揮幕后軍師的作用,全方位提升IPTV的營銷效果。同時,大數據分析也可以擴大到其他更廣的領域,就運營商內部而言,在終端換機、3G升4G、交叉營銷等方面,已經利用大數據分析技術來有的放矢提高營銷成功率。可以說,大數據技術在電信行業已經也將發揮更大的作用。
文章來源:電信科學