(十) 關聯分析

此部分內容來自對《Python數據分析與數據化運營》4.4節 關聯分析 的讀書筆記。
關聯分析通過尋找最能夠解釋數據變量之間關系的規則,來找出大量多元數據集中有用的關聯規則,它是從大量數據中發現多種數據之間的一種方法;另外,它也可以基于時間序列對多種數據間的關系進行挖掘。關聯分析的典型案例是“啤酒與尿布”的捆綁銷售,是指購買了尿布的用戶還會購買啤酒。
關聯規則相對于其他數據挖掘算法挖掘模型更加簡單,易于業務理解和應用。
關聯規則的典型應用場景是購物籃分析,通過分析用戶同時購買了哪些商品來分析用戶購買習慣。這種策略還會應用于捆綁銷售、庫存管理、商品促銷設計、頁面促銷設計、貨架設計、商品陳列設計、頁面內容排版、推薦系統、商品價格策略和基于購買的用戶特征分析等。

11.1 頻繁規則不一定是有效規則

一般用支持度、置信度、提升度三個指標來度量一個關聯規則。
Support(支持度):表示同時包含A和B的事務占所有事務的比例。如果用P(A)表示使用A事務的比例,那么Support=P(A&B)
Confidence(置信度):表示使用包含A的事務中同時包含B事務的比例,即同時包含A和B的事務占包含A事務的比例。公式表達:Confidence=P(A&B)/P(A)
Lift(提升度):表示“包含A的事務中同時包含B事務的比例”與“包含B事務的比例”的比值。公式表達:Lift=P(B|A)/P(B)。
提升度反映了關聯規則中的A與B的相關性,提升度>1且越高表明正相關性越高,提升度<1且越低表明負相關性越高,提升度=1表明沒有相關性。

所謂頻繁規則指的是關聯結果中支持度和置信度都比較高的規則,而有效規則指的是關聯規則真正能促進規則中的前后項的提升。在做關聯結果分析時,頻繁規則往往會被“想當然”地認為是有效規則,但結果并不是如此。
假設數據集中有1000條事務數據用來顯示購買蘋果和香蕉的訂單記錄。其中有600個客戶的訂單記錄中包含了蘋果,有800個客戶的訂單記錄中包含了香蕉,而有400個客戶同時購買了蘋果和香蕉。假設一條關聯規則,用來表示購買了蘋果的客戶中很多還購買了香蕉,蘋果->香蕉。

  • 支持度:P(A&B) = 40%
  • 置信度:P(A&B)/P(A) = 40%/60%=67%
    如果只看支持度和置信度,似乎很好的說明了蘋果和香蕉之間的頻繁關系,買了蘋果的客戶有67%都會購買香蕉。但是如果忽略購買蘋果的事實,只購買香蕉的客戶占80%。這顯示購買蘋果這種條件不會對購買香蕉產生積極的促進效果,反而會阻礙其銷售,蘋果和香蕉之間是一種負相關的關系。
  • 提升度:40%/80%=0.5
    當提升度為1時,說明應用關聯規則和不應用關聯規則產生的效果相同;當提升度>1時,說明應用關聯規則比不應用關聯規則能產生更好的效果。當提升度小于1時,關聯規則具有負相關的效果,則該規則是無效規則。
    在做關聯規則評估時,需要綜合考慮支持度、置信度和提升度三個指標,支持度和置信度當然越大越好。但需要注意的是在低頻、客單價較高的領域,關聯規則會呈現稀疏性,其支持度百分比可能只有幾個百分點。對于提升度的指標,通常關注其大于1的指標。

11.2 不要被啤酒尿布的故事緊固你的思維

除了啤酒尿布的分析模式以外,關聯分析還可以應用到更多的運營分析場景。

11.2.1 相同維度下的關聯分析

相同維度下的關聯分析指的是關聯分析的前后項是相同邏輯的內容維度。例如商品-商品,內容-內容。
(1) 網站頁面瀏覽關聯分析
網站頁面瀏覽關聯分析可以幫助我們找到不同頁面之間的頻繁訪問關系,以分析用戶特定的頁面瀏覽模式。這種頻繁模式可用于了解不同頁面之間的分流和引流關系,尤其是大型落地頁的分析;也可以用來做不同頁面之間的頁面瀏覽推薦、利于提高用戶體驗和轉換率。
(2) 廣告流量關聯分析
廣告流量關聯分析是針對站外廣告投放渠道用戶瀏覽和點擊的行為分析,該分析主要用于了解用戶的瀏覽和點擊廣告的模式。
(3) 用戶關鍵字搜索關聯分析
通過對用戶搜索關鍵字的關聯分析,可以得到類似于搜索了蘋果之后又搜索了iPhone,搜索了三星之后又搜索了HTC,這種模型可用于搜索推薦。搜索聯想等場景,有利于改進搜索體驗,提高客戶目標轉換率。

11.2.2 跨緯度關聯分析

(1) 不同場景的關聯分析
發生的事件處于不同的時間下,但通常都在一個約束時間范圍內(例如session、會話)。這種模式可以廣泛用于分析運營中關注的要素,例如用戶瀏覽商品與購買商品的關聯分析、關注產品價格與購買商品價格的關聯分析、用戶加入購物車與提交訂單的關聯分析等。
(2) 相同場景下的事件分析
發生的事件在一個場景下,但屬于不同的時間點。例如用戶在同一個頁面中點擊不同功能、選擇不同的應用、下載不同的白皮書等。這類信息可以幫助我們了解用戶對于功能應用的先后順序,有利于做產品優化和用戶體驗提升;對于不同產品功能組合、開發和升級有了更加明確的參考方向。便于針對用戶習慣性操作模式做功能迭代;同時針對用戶頻繁查看和點擊的內容,可以采用打包、組合、輪轉等策略,幫助客戶盡量縮小內容查找空間和時間,也能提升內容曝光度和用戶體驗度。

11.3 被忽略的“負相關”模式真的沒有用武之地嗎

對于支持度和置信度高而支持度低的(“負相關”)規則,我們可以將它作為組合打包的控制條件來優化組合策略。典型的應用場景:

  • 在商品銷售策略中,不將具有互斥性的商品放到同一個組合購買計劃中。
  • 在站外廣告媒體的投放中,不將具有互斥性的多個廣告媒體做整合傳播或媒體投放。
  • 在關鍵字提升信息中,不將具有互斥性的關鍵字提示給客戶。
  • 在頁面推薦的信息流中,不將具有互斥性的信息流展示給用戶。

11.4 頻繁規則只能打包組合應用嗎

常見的關聯規則基于兩種模式產生:基于同一個時間內發生的事件以及基于不同時間下發生的事件

  • 基于同一時間內發生的事件:這種模式發生在同一時間點,例如購物籃分析就是用于在一次購物籃中同時購買的商品。
  • 基于不同時間下發生的事件:這種模式發生在不同的時間點,但是可以通過特定的主鍵信息關聯,例如用戶在不同日期購買了多件商品,這種場景下使用用戶ID作為事務型數據的主鍵。
    在通過上述規則分析得到關聯結果后,第一反應是應該把這些商品放到一起做打包組合應用。
    但除了打包組合的思維方式外,還可以這樣考慮應用:既然用戶具有較強的發生關聯事件關系的可能性,那么可以基于用戶的這種習慣,將前后項內容故意分離開,利用用戶主動查找的時機來產生更多價值或完成特定的目標。
    這種模式不是所有的關聯規則都能生效,需要具備一定的條件:
  • 關聯規則必須是強規則且有效規則。
  • 發生關聯的前后項之間需要有非常強的完成動機。
  • 不能過多的降低用戶體驗。

11.5 關聯規則的序列模式

序列模式相較于普通關聯模式最大的區別是不同的事件之間具有明顯的時間區隔,以及先后的序列發生關系,能得到類似于“完成某個事件之后會在特定的時間周期內完成其他事件”的結論。常見的運營應用場景:

  • 客戶購買行為預測:基于用戶上次購買時間和商品信息,推斷用戶下次購物的時間和訂單信息。
  • Web訪問模式預測:基于用戶上次網站到達時間和到訪信息,推斷用戶下次最可能從哪些媒體渠道進入網站。
  • 關鍵字搜索預測:基于用戶上次搜索關鍵字的時間和關鍵字,推斷用戶下次最可能搜索哪些關鍵字。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。