當我們看了不少增長案例之后,再看看手頭的工作和業績目標,是不是還覺得不知道怎么實現?那是因為許多案例并沒有介紹得出結論的分析過程,而只是描述了問題的背景和目標,以及優化之后的效果。真正的分析過程,往往被“發現”兩個字一筆帶過。
當然有人會說,數據分析過程是一個見仁見智的過程,根本不可能按照一個統一的流程完成全部分析,特別是在互聯網領域的告訴變化當中。那么數據分析的過程,究竟是一個只有零散技巧而無章法可循的過程,還是一個有明確的步驟并可以嚴格依照執行的過程?我認為是后者。
我們這就來介紹一個通用的數據分析方法論:數據分析五步法。這個框架具有一下幾方面特點:
- 不與具體業務綁定,是從決策需要的信息角度出發的;
- 具有開放性,可融入個人經驗和前沿技術;
- 可結合大數據技術,排除人工環節,實現自動化;
- 邏輯清晰,容易學習;
一、分析五步法
這個簡單的數據分析五步法,基本能夠應對日常工作中至少80%的常見數據分析問題。而剩下的20%的場景,可以在這個基本的分析方法論上擴展出來,我們會在后面的內容中探討。
1.1 五個基本步驟
首先,我們來一次講解著5個基本步驟,分別是:
- 匯總
- 細分
- 評價
- 歸因
- 決策
1.1.1 匯總
這一步我們關注的是指標,也就是大家常見的那些DNU、DAU、GMV、ROI等等。只要是說到數據分析的內容,一定會提示數據分析“要明確目標”。因此,這個重要性我們倒是不需要贅述。
目標當然是所有指標中最重要的。但只有目標還不夠,我們還需要其它的輔助指標。就比如ROI,是投入和產出兩項算出了ROI;而GMV,也可以用用戶數乘以平均每用戶的GMV計算出來。這樣,我們就把一個目標的計算,拆分成了更多相關指標的組合。并且,這些指標更基礎,我們可以通過一些運營手段影響這些指標的變化趨勢。
這部分沒有什么理解的難度。只不過,我們要找出指標之間的計算關系,由此逐漸找到所有我們需要關心的指標。在現在的互聯網產品運營當中,從來不會缺少需要看的指標,已經多到了眼花繚亂的地步。但只有那些跟目標相關的指標,我們才需要關心。
1.1.2 細分
這一步相當于給指標增加了一個或者若干個維度。最簡單的維度應當算是時間了。比如,我們按天看UV的變化趨勢;或者我們看不同頁面帶來的GMV是多少、看不同用戶分群中的GMV分別是多少等等。如果我們理解前面的指標這是個數字的話,增加了維度之后,它就變成了一列數據;增加了兩個維度之后,它就變成了一張表格,以此類推。
就像指標的現狀一項,我們也可以輕松找到許許多多可以用來拆分指標的維度。比如前面提到的日期和人群,還有拉新上的來源渠道,活躍上的流量來源于轉化路徑等等。再將這些維度進行排列組合,就能產生出一大批龐雜的拆分維度,多到根本看不過來。
因此,重要的就在于區分維度的重要程度。如何區分呢?我們要按照是否可操作,來區分這些拆分維度的輕重緩急。比如,前面提到了看APP中的不同頁面帶來的GMV。但是,如果我們沒有必要的技術手段或者運營工具,來為那些GMV更高的頁面分配更多流量,也不能降低那些GMV較低的頁面的流量,那么按照頁面拆分的這種方法對于我們沒有任何操作空間,更不要說操作之后的優化空間了。如果是這種情況,我們就應當認為來源頁面這個維度,只是個“看看就好”的維度,而非關鍵維度。
另一個例子是用戶分群,特別是當我們希望從外部的投放引流獲得更多高質量的新增用戶,以此來拉動增長的時候。在這種時候,我們總是希望首先對現有的高質量用戶進行用戶畫像,并確定一些能夠標識高質量用戶的特征,再通過這些特征在投放的時候吸引更高質量的用戶。這個道理是講得通的,但遺憾的是,外投渠道不能提供十分精準的人群定位,只能提供人口統計學和行業偏好等粗粒度的劃分。這其中還包括,我們暫時認為投放渠道對于用戶的標記是十分精準的。
因此可以看出,在拉新這件事上,我們對用戶分群的操作是受限的,并不是完全不能,但十分受限。而用戶分群更大的利用空間在于促進活躍,也就是在我們自己的用戶群體中進行切分。比如,在增長案例中常見的,在相同頁面的相同位置放置不同的文案或者圖片素材進行版本間的A/B Test,那么展示的版本就是一個可以自由操作的維度,因為一旦發現哪個版本更好,我們可以很快采取行動。因此展示版本這個維度很適合用來切分指標。
如果說指標的部分只是個監控的話,在【細分】的步驟中,就已經體現出一些分析的感覺了。在這個步驟中,我們需要找到那些真實可操作的拆分維度,以便我們的分析結論能盡快落地。但這部分還留下一個問題,就是如果存在多個可操作的拆分問題,那么它們之間還是有區別的。比如,我們可以簡單的替換圖表和文案,但我們也可以煞費苦心地迭代一個大版本。如何在分析的過程中體現并衡量這種操作的復雜度呢?這個就要說到評價的問題。
1.1.3 評價
在評價的部分,我們要用到【匯總】步驟中的那個作為目標的指標,以它作為評價的唯一標準。如果我們的目標就是簡單的GMV,甚至更簡單的PV和UV,那么到了【細分】的步驟之后,我們就基本可以開始下結論了。但是在實戰中并非如此。我們的目標可能是一個復合的目標——在拉動GMV的同時,還要控制成本;在拉動PV的同時,還需要帶來GMV;或者直接是一個ROI這樣的復合指標。
在這個時候,我們就不能只關注目標這一個指標了,而要關注復合指標。例如,我們的目標是在拉動GMV的同時,控制成本。為了進一步簡化問題,我們把成本具體為促進老用戶產生GMV的成本,和獲得新用戶產生GMV的成本。因為通常在運營中,拉新與促活的手段是不同的,這與【細分】部分的原則對應,即操作空間的大小。
之后,我們就可以分別按照拉新和促活的不同緯度,對產生的GMV和投入的成本這兩個指標進行細分了。例如,在拉新方面,我們有投百度關鍵字、有投廣告聯盟、還有與其他APP的合作換量;而在促活方面,我們在APP上的ABCD四個Banner上設置的A/B Test。
那么對于新用戶部分,我們就可以分別評價百度關鍵詞、廣告聯盟和合作APP這三種方式,每投入一塊錢的成本分別可以得到多少新增的GMV。從而在不同的拉新方式中,選擇更優的方式,并在已有的方式中調整更優的成本投入。而對于老用戶的部分,我們同樣可以評價ABCD四個Banner各自的A/B Test中,針對不同的版本每投入一塊錢可以產生多少GMV。
簡而言之,在【評價】這個步驟中,我們需要把【匯總】部分的指標分成兩類——即最終的目標,與實現目標的手段。比如在前面的例子中,投入的成本就是實現GMV提高的手段。因此,每一塊錢的成本投入,我們都需要以產生的GMV來評價它。這時,要實現GMV的目標可選擇的手段就比較多了。比如針對老用戶促活:
- 保持成本投入不變,更換更容易帶來轉化的圖片和文案,來提高投入的每一塊錢帶來的GMV;
- 保持每一塊錢帶來的GMV不變,(在限制范圍內)追加成本投入;
這還是在暫時忽略GMV可能帶來的價值的前提下,如果我們將這部分價值考慮進來,它就能抵消掉一部分投入的成本,那么備選方案還會更多。
在前面這個例子中,由于我們的拆分維度本身比較簡單,只考慮了APP中的Banner和外部拉新的方式,因此比較容易通過數據中的一些標記進行細分。但是在實戰中,還有些情況使我們無法拆分的。比如在用戶交互中,產生一個GMV的路徑需要經過幾個環節,或者就像前面那個例子中的ABCD四個Banner,如果用戶點擊了其中的兩個甚至三個Banner,那么我們如何拆解呢?這個問題就是下一個步驟【歸因】了。
1.1.4 歸因
這個步驟其實就是得出結論并進行決策的”最后一公里“了,也就是我們常說的剖析“為什么”的過程。
在前面的步驟中,通過案例能清楚地看到我們已經得到了一些可以直接對比的量化指標了。在這種情況下,其實我們不需要在【歸因】的步驟中做什么特殊的操作,可以通過數值的比較直接下結論。但是如果我們遇到了多個環節或者方法之間,無法進行明確地細分時,應當怎么辦呢?在日常的數據分析中有幾種常用的歸因思路。
比如,我們以前一個例子中,用戶依次點擊了ABCD四個位置才產生了GMV為例——
- 首次互動歸因模型:也就是用戶第一次做某件事,在數據中通常表現為時間最早、順序號最小等等。那么在我們給A記100%,B、C和D記0%。
- 最終互動歸因模型:也就是用戶最后一次做某件事,對應的在數據中就表現為時間最近、順序號最大等等。那么我們給D記100%,A、B和C記0%
- 線性歸因模型:也就是平均分。那么我們給ABCD分別記25%。
- 加權歸因模型:也就是給多個促成因素分配一定的權重,例如A和B各記30%,C和D各記20%。正因為多出來一個權重的維度,需要一定的設計,并且也可以作為一種分析的過程。關于權重也有幾種常見的設置辦法,比如首末兩項最重要其它向中間遞減,或者按照時間遞減等等。
當然,在選擇歸因方式的時候,也會結合具體業務的特征,來考慮行為的先后順序、停留時間長短等情況對于分析目標的影響。
1.1.5 決策
最后就可以決策了。但經過前面幾個步驟逐漸消除不確定性,決策反而是最簡單的一步了——就是找出那個表現最好的版本、表現最好的位置、表現最好的拉新手段而已。
而當我們有一些新的idea時,同樣可以作為A/B Test中的一個版本,加入到這套評價體系中,進行綜合評價。
1.2 應用案例
這套方法論不僅針對日常工作中的專項分析,在一些已經固化成型的方法論中,也可以找到這套基礎方法論的影子。我們來看幾個已經成型方法論案例。
1.2.1 A/B Test實驗
首先我們要看的案例就是A/B Test。在A/B Test的過程中,首先我們要確定實驗的目的,也就是我們要通過實驗提高和優化的是哪個指標。之后,我們以實驗中的不同版本作為細分維度,以指標是否實現來作為評價標準進行評價。如果在實驗的過程中確實遇到了需要歸因的問題,則還需要考慮如何進行歸因。
當然,隨著業務的復雜度不斷發展,A/B Test的難點已經不在比較和得出結論的過程,而在于如何設計實驗才能在更短的時間內、耗費更少的用戶流量、進行更多的實驗并得到有效的結論。這也是所有這方面的平臺的起點——Google的著名論文《Overlapping Experiment Infrastructure》論述的核心內容。
1.2.2 用戶分群
用戶分群是一個常見的運營手段,但如何確定分群的準確度以及如何在后續持續的維持準確度,確是一個數據分析問題。在基于特征的用戶分群過程中,我們首先要確認我們希望獲得具備怎樣特征的用戶群體。
當我們已經進行了分群,并想要研究這個群體具備怎樣的特征時,就可以以TGI(Target Group Index,目標群體指數)作為目標,以TGI的大小來衡量分群對各種特征的傾向性。
反過來說,如果我們想找到喜歡搞笑短視頻的用戶,并且以點贊行為作為“喜歡”的定義,同樣可以使用TGI來衡量分群的準確程度。這樣我們就可以通過各種手段來對用戶進行分群了,不同的分群方式就對應了不同的TGI值,我們需要的就是那個TGI值最大的分群方式。
1.2.3 經典管理模型:BCG矩陣
在經典的BCG矩陣中,隱含的一個關注目標是整體利益,而手段是資源的優化配置——也就是要將企業中有限的資源,投給更具潛力的業務,已獲得企業層面的整體利益最大化。
為了對這個目標進行深入研究,在BCG矩陣中,按照兩個維度對這個指標進行了拆分。在通常的畫法中,橫軸代表相對市場占有率,縱軸代表市場增長率。市場占有率和市場增長率,就是創造利益的手段了,而利益自然是最終目標。因此,由于手段帶來的利益是不同的,在拆分出的四個象限中,不同的業務就有了自己的“宿命”。
二、方法論的優化
根據全面對于方法論的整體描述,有三個點是可以對方法論進行優化的。
1 匯總
匯總部分的優化,在于發現更新、更合適的輔助指標,來計算出最終的目標指標。就比如在財務領域,相比于按照收入和支出的計算方式,杜邦分析法(DuPont Analysis)給出了基于銷售利率、資金運作和負債程度三個方面的拆解方式,更容易理解并采取行動。
2 細分
在前面講解細分的時候,側重的主要是一些客觀維度,而隨著分析經驗的積累和算法能力的提升,逐漸會加入一些偏主觀的細分維度。比如根據偏好制作的用戶標簽。這些維度提供了新的視角,但同時也有自己的“玩法”。
3 歸因
歸因部分是對于那些不能客觀確定的拆分邏輯,給出了人為定義的拆分邏輯。因為有了人為操作的加入,并且客觀情況在不斷的變化中,這其中就逐漸產生了優化空間,需要對拆分的方式不斷調優,以便適應業務的發展和環境的變化。