[實用方法][數學原理]
封面用研整編文章
在用戶分析領域,對用戶行為洞察的需求正盛。本文介紹常用的Session分析方法,及10種常用的統計分析方法。
數據分析應該以業務場景為起始思考點,以業務決策作為終點。基本思路為5步,首先要挖掘業務含義、制定分析計劃、從分析計劃中拆分出需要的數據、再根據數據分析的手段提煉業務洞察,最終產出商業決策。
其中,Session是一種專業的數據分析。對于有數據驅動意識的互聯網人來說,這并不陌生。Session 即會話,是指在指定的時間段內在產品上發生的一系列互動。例如,一次會話可以包含多個頁面的瀏覽、事件、互動和交易。
Session分析可以幫助我們對用戶的這一系列互動進行深入洞察,從不同的角度去探索用戶的行為動機、偏好,甚至是無意識行為。
Session:解決用戶分析中的“線”型難題——有何意義?
人們往往最熟悉事件分析模型,且用戶行為事件往往以“點”的方式呈現,即某人在什么時間什么地點干了一件什么樣的事,也就是我們熟知的 4W1H 模型:Who、When、Where、How、What。
王小明昨天下午在電商網站通過個性化推薦買了一雙 NIKE 球鞋,張小花今天十點在融 360 上注冊后領取了新人基金,某白領晚上六點在五道口區域掃碼一輛摩拜單車并報修了它……
基于這樣用戶角度的行為記錄,產品方可以知道他們的用戶都具體干了什么事情。并對自己的產品做出精細化運營,但是,還有一些需求,是不能通過“點”來描述的,比如:
——用戶平均會來幾次?
——每次平均逛了幾個頁面?
——每次來平均待多久?
——某個具體頁面用戶平均停留多長時間?
這些需要把用戶的單點行為串聯起來形成一個整體,并在此基礎上進行計算后才能得到的數據分析需求,更像是一條“線”。而 Session 分析的最大意義,就是解決用戶分析中的“線”型難題,從不同角度指導精細化運營與商業決策。
如何用Session分析支持工作?
如果根據定義,Session 的關鍵點顯然是:多長時間內用戶做了什么事。
1:Session切割時間
假如王小明打開某企業官網了解信息,點擊了 DEMO 按鈕,并進行了注冊試用行為,然后就被領導叫去開會,四十分鐘后又跑回來繼續瀏覽頁面,這是幾個 Session?。
這要看數據分析工具的 Session 切割規則,通常來講,Web 產品建議切割時間為 30 分鐘,APP 產品建議切割時間為 1 分鐘,比較符合用戶的使用習慣。當然規則是活的人也是活的,可以根據產品的業務形態變更。所以王小明兩次瀏覽頁面的時間超過了 Web 端的 30 分鐘,被記錄為兩個 Session。
2:Session事件
Session 記錄什么事件,取決于需要關注的用戶行為。如果 Session 事件只包含了注冊行為(核心事件),那王小明的行為將會被記錄為一個 Session。如果包含瀏覽頁面,則會被記錄為兩個 Session。
那么Session分析究竟可以分析什么?
1:平均訪問時長
平均訪問時長是指在一定統計時間內,瀏覽網站的一個頁面或整個產品時用戶所逗留的總時間與該頁面或整個產品的訪問次數的比。
平均訪問時長越久,證明 Web/APP 越有吸引力,如果用戶停留的平均時間非常低,那么可能內容不夠有趣,或界面優化較差,真正有價值的內容無法吸引用戶,影響用戶體驗。
2:平均交互深度
平均交互深度和平均訪問深度定義雖有差別,意義卻很相似,都是衡量 Web/APP 質量的重要指標,可以幫助企業了解頁面內容的價值,功能是否滿足用戶需求,指標的具體意義需要依照業務進行判斷。
3:跳出率
跳出率和退出率是不同的概念。
跳出率=只瀏覽了一個頁面就退出的次數/訪問總次數,表現了用戶什么都不做就從當前頁面離開的百分比。
退出率=用戶從某一頁面退出網站的次數/該頁面的瀏覽總次數,表現了用戶從當前頁面離開的百分比。
跳出率通常用于評估網站的用戶體驗,可以用于指導網站以及頁面的改善,衡量的是該頁面作為用戶的落地頁,吸引用戶的程度。通常意義上,跳出率過高,代表網站對訪問者的吸引率很低,網站/APP 功能得不到用戶垂憐,公司豈不是做了無用功?但是這也不是絕對的,有些訪問被算作跳出,但并不一定是負面的,例如用戶按照你的引導點擊外鏈跳轉到你的新網站,為新網站拉新。具體場景需要具體分析。
退出率則應用更為廣泛和靈活,一般用來衡量一個頁面的內容是否滿足用戶需求,或者引導是否合理,因頁面不同,意義也不同。每一個頁面都可能成為退出頁面,重要的在于,這個頁面是不是關鍵流程頁面,用戶應不應該退出。
如何測量跳出率呢?
Session 分析是對一段時間內用戶的操作(行為事件)進行分析,如果一個 Session 中只有一個事件(如瀏覽頁面),即視為用戶跳出。整體跳出率就是用跳出的Session 數/Session 總數,具體事件或頁面的跳出率可以通過維度進行篩選。
當用戶從某個頁面結束了 Session,即視為用戶退出。頁面退出率就是用頁面的退出總次數除以該頁面瀏覽總次數。
4:Session轉化分析
用戶分析中,有一個非常典型的分析需求是需要知道不同渠道帶來的注冊、購買等轉化情況,該需求本質上,就是需要界定 Session,然后按渠道屬性查看注冊、購買等事件的轉化數量。
5:用戶路徑
在業務流程中,了解用戶的行為路徑,有助于我們找到用戶大量流失的環節,衡量網站營銷推廣效果。產品經理可以據此將用戶行為流與初步設想進行對比,完善功能,優化用戶體驗。
使用用戶路徑分析,設定起始事件與 Session 切割時間,可以觀察一個 Session 內用戶的行為流。
路徑分析怎么做呢?
用戶路徑的分析結果通常以桑基圖形式展現,以目標事件為起點/終點,詳細查看后續/前置路徑,可以詳細查看某個節點事件的流向,總的來說,科學的用戶路徑分析能夠帶來以下價值:
第一,可視化用戶流,全面了解用戶整體行為路徑:
通過用戶路徑分析,可以將一個事件的上下游進行可視化展示。用戶即可查看當前節點事件的相關信息,包括事件名、分組屬性值、后續事件統計、流失、后續事件列表等。運營人員可通過用戶整體行為路徑找到不同行為間的關系,挖掘規律并找到瓶頸。
第二,定位影響轉化的主次因素,產品設計的優化與改進有的放矢:
路徑分析對產品設計的優化與改進有著很大的幫助,了解用戶從登錄到購買整體行為的主路徑和次路徑,根據用戶路徑中各個環節的轉化率,發現用戶的行為規律和偏好,也可以用于監測和定位用戶路徑走向中存在的問題,判斷影響轉化的主要因素和次要因素,也可以發現某些冷僻的功能點。
常用的統計分析方法論
在數據分析的背后,我們需要用科學的數學方法來支撐,我們與大家一起復習一下10種最常見的分析理論。最常用到的是描述性統計,同時,相關分析、聚類分析、時間序列分析等方法出鏡率也相當高。
1:描述性統計
描述性統計是通過圖表或數學方法,對數據資料進行整理、分析,并對數據的分布狀態、數字特征和隨機變量之間關系進行估計和描述的方法。目的是描述數據特征,找出數據的基本規律。
描述性統計分為數據的頻數分析、集中趨勢分析、離散程度分析、數據分布及一些基本的統計圖形。
在日常的業務性分析中,描述性統計分析可以解決大部分問題。
(1)數據的頻數分析:
在數據的預處理部分,我們利用頻數分析和交叉頻數分析來檢驗異常值。此外,頻數分析也可以發現一些統計規律。比如說,收入低的被調查者用戶滿意度比收入高的被調查者高,或者女性的用戶滿意度比男性低等。不過這些規律只是表面的特征,在后面的分析中還要經過檢驗。
(2)數據的集中趨勢分析:
數據的集中趨勢分析是用來反映數據的一般水平,常用的指標有平均值、中位數和眾數等。各指標的具體意義如下。
平均值:是衡量數據的中心位置的重要指標,反映了一些數據必然性的特點,包括算術平均值、加權算術平均值、調和平均值和幾何平均值。
中位數:是另外一種反映數據的中心位置的指標,其具體方法是將所有數據以由小到大的順序排列,位于中央的數據值就是中位數。
眾數:是指在數據中出現頻率最高的數據值。
如果各個數據之間的差異程度較小,用平均值就有較好的代表性;而如果數據之間的差異程度較大,特別是有個別的極端值的情況,用中位數或眾數有較好的代表性。
(3)數據的離散程度分析:
數據的離散程度分析主要是用來反映數據之間的差異程度,常用的指標有方差和標準差。方差是標準差的平方,根據不同的數據類型選用不同的計算方法。
(4)數據的分布:
在統計分析中,通常要假設樣本的分布屬于正態分布,數據的正態性離群值檢驗,已知標準差時,用Nair檢驗,未知標準差時,有Grubbs檢驗,Dixon檢驗,偏度-峰度法等。
其中常用的“偏度-峰度法”需要用偏度和峰度兩個指標來檢查樣本是否符合正態分布。偏度衡量的是樣本分布的偏斜方向和程度;而峰度衡量的是樣本分布曲線的尖峰程度。一般情況下,如果樣本的偏度接近于0,而峰度接近于3,就可以判斷總體的分布接近于正態分布。
(5)繪制統計圖:
用圖形的形式來表達數據,比用文字表達更清晰、更簡明。在SPSS軟件里,可以很容易的繪制各個變量的統計圖形,包括條形圖、餅圖和折線圖等。
2:假設檢驗
假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。
具體做法是:
根據問題的需要對所研究的總體作某種假設,記作H0;選取合適的統計量,這個統計量的選取要使得在假設H0成立時,其分布為已知。
由實測的樣本,計算出統計量的值,并根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設H0的判斷。
常用的假設檢驗方法有u—檢驗法、t檢驗法、χ2檢驗法(卡方檢驗)、F—檢驗法,秩和檢驗等。
3:方差分析
方差分析又稱“變異數分析”或“F檢驗”,是R.A.Fisher發明的,用于兩個及兩個以上樣本均數差別的顯著性檢驗。
由于各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
4:相關分析
相關分析是研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度,是研究隨機變量之間的相關關系的一種統計方法。
常見的有線性相關分析、偏相關分析和距離分析。
相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中,所關心的是一個隨機變量Y對另一個(或一組)隨機變量X的依賴關系的函數形式。而在相關分析中 ,所討論的變量的地位一樣,分析側重于隨機變量之間的種種相關特征。例如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關系如何,而不在于由X去預測Y。
5:回歸分析
回歸主要的種類有:線性回歸,曲線回歸,二元logistic回歸,多元logistic回歸。
回歸分析的應用是非常廣泛的,統計軟件包使各種回歸方法計算十分方便。
一般來說,回歸分析是通過規定因變量和自變量來確定變量之間的因果關系,建立回歸模型,并根據實測數據來求解模型的各個參數,然后評價回歸模型是否能夠很好地擬合實測數據。如果能夠很好地擬合,則可以根據自變量作進一步預測。
6:聚類分析
聚類分析主要解決的問題是“物以類聚、人以群分”。比如以收入分群,高富帥VS矮丑窮;比如按職場分群,職場精英VS職場小白等等。聚類分析目前在用戶畫像研究中被廣泛應用。
聚類的方法層出不窮,基于用戶間彼此距離的長短來對用戶進行聚類劃分的方法依然是當前最流行的方法。
大致的思路是這樣的:
(1)首先確定選擇哪些指標對用戶進行聚類;
(2)然后在選擇的指標上計算用戶彼此間的距離。
距離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、用戶在每個指標下都有相應的取值,可以看作多維空間中的一個點,用戶彼此間的距離就可理解為兩者之間的直線距離。)。
(3)最后,聚類方法把彼此距離比較短的用戶聚為一類,類與類之間的距離相對比較長。
常用的算法k-means、分層、FCM等。
7:判別分析
判別分析是從已知的各種分類情況中總結規律(訓練出判別函數),當新樣品進入時,判斷其與判別函數之間的相似程度(概率最大,距離最近,離差最小等判別準則)。
常用判別方法:最大似然法,距離判別法,Fisher判別法,Bayes判別法,逐步判別法等。
注意事項:
(1)判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測的;
(2) 每個解釋變量不能是其它解釋變量的線性組合(比如出現多重共線性情況時,判別權重會出現問題);
(3)各解釋變量之間服從多元正態分布(不符合時,可使用Logistic回歸替代),且各組解釋變量的協方差矩陣相等(各組協方方差矩陣有顯著差異時,判別函數不相同)。
相對而言,即使判別函數違反上述適用條件,也很穩健,對結果影響不大。
應用領域:對客戶進行信用預測,尋找潛在客戶(是否為消費者,公司是否成功,學生是否被錄用等等),臨床上用于鑒別診斷。
8:主成分與因子分析
主成分分析基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標轉化為幾個綜合指標(主成分),即每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,使得主成分比原始變量具有某些更優越的性能(主成分必須保留原始變量90%以上的信息),從而達到簡化系統結構,抓住問題實質的目的。
因子分析基本原理:利用降維的思想,由研究原始變量相關矩陣內部的依賴關系出發,將變量表示成為各因子的線性組合,從而把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子。
因子分析是主成分的推廣,相對于主成分分析,更傾向于描述原始變量之間的相關關系。
9:時間序列分析
經典的統計分析都假定數據序列具有獨立性,而時間序列分析則側重研究數據序列間的互相依賴關系。
后者實際上是對離散指標的隨機過程的統計分析,所以又可看作是隨機過程統計的一個組成部分。
例如,記錄了某地區第一個月,第二個月,……,第N個月的降雨量,利用時間序列分析方法,可以對未來各月的雨量進行預報。
10:決策樹
決策樹是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。
由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。
總結
Session 分析并不“包治百病”,但卻是用戶行為分析的重要方法。通過這個方法,既可以發現我們想重點監控的用戶類型,也可以幫我們了解真正的用戶使用習慣,避免產品設計“不按套路出牌”的辛酸事。
在應用Session分析的過程中,我們也要根據具體場景,應用不同的統計分析方法,以得出真正有指導價值的分析結論。