《數據分析思維課》郭煒

內容來自https://time.geekbang.org/column/intro/100084801?tab=catalog

一、數據分析基礎

1.1、平均值:不要被騙了,它不能代表整體水平

看到一個平均值的時候,你一定要留個心眼,看看它的數據構成情況,而不是簡單地用平均值去代表所有的整體。

1.2、大數定律與小數陷阱:生活是隨機還是有定數的?

大數定律:當隨機事件發(fā)生的次數足夠多時,發(fā)生的頻率才會趨近于預期的概率。
如何理解“足夠多”?以拋硬幣來看,10次、100次乃至1000次都不算多,上萬次可能才趨近于50%,因此我們在博弈、彩票時很難撐到“足夠多”的那一刻
小數陷阱:每次的事件其實和上一次的事件是獨立且隨機的,并不是前面都是“大”,后面開“小”的概率就會高。

大數定律說的是當隨機事件發(fā)生的次數足夠多時,發(fā)生的頻率就趨近于預期的概率。對于一件事情,你需要持續(xù)不斷努力,才可以達到你的期望值。而“小數陷阱”則告訴你,每個事件都是獨立的事件,“否極泰來”需要足夠多的次數才可能出現,做事情要少一些“賭徒心態(tài)”,多一些平常心,不要盲目跟風和下注才能獲得最后的成功。

1.3、數據的期望值:為什么你坐的飛機總是晚點?

均值(期望)vs平均值

  • 均值(也叫做期望值)英文是 Mean,它是事前預測的,這個值完全是由概率分布決定,也就是我們前面所說的“對可能出現的結果的概率加權平均”;
  • 平均值叫做 Average,它是事后統計,統計樣本值的總和除以樣本的個數。

1.4、隨機對照試驗:章魚保羅真的是“預言帝”么

幸存者偏差是當取得資訊的渠道僅來自幸存者時,我們得出的結論可能會與實際情況存在偏差。 因為這樣做看上去結果的確是由隨機對照試驗產生,但在邏輯上是錯誤的,這其實是在用結果來倒推整個前期數據的產生過程。
并沒有“預言帝”和“賭神”的存在,我們看到的只是大規(guī)模數據背后的“幸存者”。
在我們工作和生活當中,一定要注意不能犯同樣的“錯誤”(采用非隨機的結果來證明我們的觀點),更不能用幸存者偏差(拿結果倒推原因)來解釋我們的一些結論。
注意自己“不犯錯”是一方面,另一方面我們也要學會“發(fā)現錯誤”,學習前人失敗的經驗教訓。
當你在工作生活里別人和你兜售一些貌似合理論調時,希望你對“沉默的數據”留一個心眼,在看向那些閃閃發(fā)光的成功數據時,也要意識到有很多“話少”甚至“不說話”的數據存在。

1.5、直方圖與冪分布:為什么全世界1%的人掌握著50%的財富?

冪率分布也叫做指數分布,少數派占據大多數資源。比如帕累托法則(即二八法則)

1.6、數據分布:房子應該是買貴的還是買便宜的?

在信息透明和市場競爭的情況下,工資、房價、股票都會符合一個特點:越塔尖的個體越具有資源吸附能力。那么在整體資源恒定的情況下,這已經不是一個簡單的符合隨機分布(即正態(tài)分布)的市場了,而是拉普拉斯分布。

可以去評估一下,你所在城市資源是否比較平均?會不會出現聚集效應?如果你認真用這兩個分布去判斷一下,你會發(fā)現如果你所在的城市是三四線城市,那么房價的分布大概率會呈正態(tài)分布。那么在這種情況下你要投資買房就可以選擇價格在曲線腰部的房子,這種房子的房價將來漲跌以及抗風險性都比較適中。

而如果你準備買大城市里的房子,情況就不一樣了。因為對于一線城市的房價而言,大概率是呈拉普拉斯分布的,這也就意味著越貴的房子周邊資源越好,進而這些房子將來增值空間越大。那我們買房子的時候就應該買資源最好的最貴的房子,未來的收獲也最大(當然,如果最貴的已經天價了,那么我們可以退而求其次)。
反之,當你看到一些鋪面房非常便宜的時候,你要留個心眼了:是不是這些鋪面房處于拉普拉斯分布的最兩側?如果是,那么這些鋪面房不但增值空間小,將來還有可能買了虧本的風險。所以,只有了解整體市場的分布我們才能夠更好地把握市場大勢,順勢而為。

上述內容可以總結為:

  • 小城市房價符合正態(tài)分布,投資買房可以選擇價格在曲線腰部的房子
  • 大城市房價符合拉普拉斯分布,投資買房可以選擇資源最好最貴的房子

1.7、散點圖和相關性:怎樣快速從數據當中找到規(guī)律?

散點圖樣例

1.8、標準差

標準差

不同量綱的標準差不同,不方便直接進行波動的比較,引入離散系數(也叫變異系數)消除量綱的影響。
離散系數 = 標準差 / 平均值

標準差(Standard deviation)= 一次統計中個體分數間的離散程度,反映了個體對樣本整體均值的代表性,是針對具體實例的描述性統計。
標準誤差(Standard error)= 多次抽樣中樣本均值間的離散程度,反映了樣本均值對總體均值的代表性,是針對推論的估計。

1.9、數據抽樣

抽樣誤差大小:分層抽樣<系統抽樣<簡單隨機抽樣<整群抽樣

背景:印度的新冠肺炎疫情現在很嚴重,我們想知道大概印度新冠肺炎疫情發(fā)病率是多少。
整群抽樣:將總體中若干個單位合并為組(這樣的組被稱為群),抽樣時直接抽取群,然后對所選群中的所有單位實施調查。
簡單隨機抽樣:從總體 N 個單位中隨機地抽取 m 個單位作為樣本,使得每一個樣本被抽中的概率相同。
系統抽樣:依據一定的抽樣距離,從整體中抽取樣本。
分層抽樣:將抽樣單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本,從而保證樣本的結構接近于總體的結構,提高估計的精度。

  • 如果你要抽樣的樣本總量比較小,你對人群比較了解,人群構成也比較單一,你就可以直接使用簡單抽樣方法進行統計;
  • 如果針對某一些場景下且這些人群你接觸概率基本相同,你就可以用系統抽樣來做統計。例如,現在北京大街上看到做問卷的人,基本上都是針對逛街一族或者上班一族的系統抽樣統計;
  • 如果你想要比較精確地統計,同時你的抽樣動用的資源比較多時,你可以使用分層抽樣,這樣得到的結果會比較科學,但是動用的資源比較多;
  • 如果你的資源不夠,可以通過各種方式把一些分層或者一些組織機構合并成群,針對群來抽樣(整群抽樣),當然代價就是降低了整體的準確度。

《大數據時代》作者舍恩伯格提出的三種大數據時代的思維變革:

  1. 要全體不要抽樣
  2. 要效率不要絕對精確
  3. 要相關不要因果

既然如此,那大數據時代為什么還需要抽樣呢?
1、在允許一定誤差的情況下,抽樣可以大幅縮減參與計算的數據量,這和舍恩伯格提到的“要效率不要絕對精確”是一致的
2、在做數據分析的時候,對數據質量的要求是要遠遠大于數據量的,所以數據并不是越多越好。而抽樣過程能幫助我們控制有效數據的比重
3、合理的抽樣方法可以有效提升計算效率,沒必要每次花費大量時間來進行全量計算

大數據中的抽樣算法:蓄水池算法

蓄水池算法:
1、將 1~n 條數據,存入待定長為 n 的集合序列,從這個序列里隨機抽取 k 條數據,每條被抽取的概率為:k/n。
2、讀到于第 k 條數據時:
1)定義第 k 條數據選中的概率為:k/n;
2)如果被選中,在原集合序列中的 n 條數據中隨機選擇一條,替換為第 k 條的新數據;
3)前 k 條數據被選取后,第 k+1 條數據要么被選取替代為前 k 條中的一條,要么不被選取,概率為 k/n。再依此規(guī)則遍歷所有的數據。

我們需要把抽中做統計的印度人都放到一個游泳池(蓄水池)里。假設我目標是只抽 n 個人,這就有一個有 n 個人容量的游泳池,抽中的人都站在這個游泳池里面。當游泳池站滿了以后,再往里加人的話有一定的概率會把游泳池里面的人給擠出來,也有一定的概率是新加的人根本擠不進去游泳池。

這樣無論一共有多少人進來,他都有一定概率擠進游泳池里或者被擠出去,游泳池里面最后留下來的人,就是我們要的隨機的 n 個人,這些就是我們的抽樣結果。我們最后統計這些人的新冠陽性情況時,就可以說我們是隨機抽樣的,而不用管印度一共有多少人口了。

1.10、因果倒置:星座真的可以判定你的性格嗎?

精選評論:星座判斷人的性格,以偏概全,和廣告投放的例子類似。星座判斷的比較準的人會告訴別人,不準的人一般不會宣傳出來。得到的結果是星座判斷人的性格很準。 另外,星座判斷人的性格,有些性格寫的比較模棱兩可,讓人看了之后會往上想,確實是那樣。

二、數據算法基礎(內容略)

精確率與置信區(qū)間

置信區(qū)間是參數估算的一種。我有90%的把握長到165 ~ 175之間,90%即為置信度,165~175即為置信區(qū)間。

2.1、精確率與置信區(qū)間:兩種預測,你究竟應該相信哪一個?
2.2、趨勢分析與回歸:父母高,孩子一定高么?
2.3、初識聚類算法:物以類聚,讓復雜事物簡單化
2.4、初識分類算法:分而治之,不斷進化
2.5、關聯規(guī)則:為什么啤酒和尿布一起賣?
2.6、蒙特卡洛與拉斯維加斯:有限時間內如何獲得最優(yōu)解?

蒙特卡羅:每次計算都盡量嘗試找更好的結果路徑,但不保證是最好的結果路徑。用這樣尋找結果的方法,無論何時都會有結果出來,而且給的時間越多、嘗試越多,最終會越近似最優(yōu)解。
拉斯維加斯:每次計算都嘗試找到最好的答案,但不保證這次計算就能找到最好的答案,嘗試次數越多,越有機會找到最優(yōu)解。

蒙特卡羅基本思想是精益迭代,進行多次求解,最終讓結果成為正確結果的可能性變高。而拉斯維加斯不斷進行嘗試,直到某次嘗試結果滿意,當然這個過程中也會一直產生你無法滿意的隨機值。所以拉斯維加斯的算法效率通常比蒙特卡羅的算法低,但是最終得出的解一定是這個問題的正確解,當然也有可能無法得到問題的解。

2.7、馬爾可夫鏈:你的未來,只取決于你當下做什么
2.8、協同過濾:你看到的短視頻都是集體智慧的結晶
2.9、人工智能初探:阿爾法狗是怎樣的一只“狗”?

三、如何用數據說話

3.1、確定問題:與利益無關的問題都不值得數據分析和挖掘

省流:
1. 界定問題范圍,避免資源浪費;
2. 量化問題與目標,使其具有明確性;
3. 用6W2H 法梳理問題的各個維度,多維度拆分問題,使其具有可執(zhí)行性

和利益無關的問題都不值得做數據分析。我們經常能看到很多數據分析報告,除了博人眼球之外都是一些無關痛癢的結果。這樣的報告看了也就圖一樂,并不能夠給企業(yè)和個人帶來實際的業(yè)務價值(說的就是我自己,平時公眾號上推了一些有趣的報告,但看了和沒看也沒啥區(qū)別)。
哪些方向值得分析呢:開源+節(jié)流
但凡不在這些象限里面的數據分析問題,其實都可以忽略不計,因為它不是在公司的主干線上要解決的問題。

針對一個具體問題,正確的步驟是確定問題、探索數據、總結討論,實踐、迭代你的理論。這個過程是把問題逐漸收斂聚焦到關鍵問題上,而且并不是單向的,后面在執(zhí)行步驟過程中,可能還會反復到上一個步驟里進行數據優(yōu)化或者數據補充。

工作中經常遇到“現在 XXX 情況不太好,你來給我們分析總結下問題在哪里。”這種問法其實只有一個大致方向,而沒有具體任務。需要:
第一步,現實vs理想

第二步,6W2H法拓展思考范圍

  1. Who:指的是涉及這件事情的人、組織職務等等,一般會涉及到決策者、行動者、客戶等;
  2. What:列出跟我們討論相關的這個方向整體的事實或者架構,這些問題和哪些因素有關?他們的條件是什么?重點是什么?與什么有關系?
  3. Whom:緊接著列出這個目標是針對誰來做的,工作對象是誰?關鍵干系人有哪些?誰會受益?
  4. When: 明確實施的時間周期,預期何時能完成?需要幾天才合理?
  5. Where:確認渠道、地點位置、周邊的環(huán)境,資源在什么地方;
  6. Why:列出可能的原因,一些前提條件或者意圖;
  7. How:思考一下現在的問題,未來有可能用哪些手段、方法提高和改進這個問題;
  8. How Much:確認最后要花的時間、人力資源、費用等。

案例

假設我們現在供職于一個做銷售工具的 SaaS 公司,老板讓我們針對現在運營投入的情況做一份數據分析,我們應該怎么下手呢?
大多數人遇到這樣的問題時,第一反應都會想到先把過去運營的數據做一下統計,然后用柱狀圖和折線圖對比一下每年的增長,接下來再根據不同的產品和用戶群進行分類做相關分析。 -->錯,這不叫分析,這只是數據的羅列,羅列完之后,接下來應該怎么做呢?不知道! 所以單純的羅列數據無法幫助決策
之所以我們會陷入這種困境中,是因為我們只看到了一些代表結果的數據,沒有分析具體問題
1、現實vs理想
通過和領導的訪談,你發(fā)現在領導心目中,現在的問題是運營獲客效率低,開銷占成本一半,他期待的是提高運營效率,成本降低到 50%。
這個問題只是大方向,我們可以想象,降低到 50% 其實并不是最終目標,我們跳出這個框架,來想一下理想狀態(tài)下,這個目標應該是什么。這個時候其實你可以和老板一起頭腦風暴一下,溝通過后未來的目標更清楚了,理想為:“形成自動化獲客體系、提高運營效率、長期獲客成本逐年降低”。這些目標雖然看上去宏大,但是即使短期內無法達到,也不會整體方向上錯誤,讓我們陷入短視的陷阱里。
2、6W2H


然后我們去每一個相關部門帶著現實vs理想的設想以及6W2H來訪談,細化問題。
例如我們現在去市場部門進行訪談,進一步拆分問題如下:
Who:市場部;
Whom:新客戶;
When:從公司成立以來;
What:購買大量關鍵字費用很高;
How Much:費用在每月 100 萬元;
Where:搜索引擎和抖音;
Why:關鍵字轉化 ROI 沒法獲得,沒有數據支撐;
How:希望前后臺數據拉通,評估數據。
類似的,我們還可以去走訪運營部、電銷部、產品部,還可以訪談部分客戶,可能有些數據情況還不清楚,不過沒有關系,我們可以在第二步采集數據之后再設計具體目標,現在我們先把具體方向列出來。

有了這個魚骨圖,基本上我們把領導的這一句讓你找“運營問題”的話,已經拆解成若干部門的若干問題了。

數據分析重點在要分析的問題,而不是在數據,不要一上來就先用手頭數據進行分析,要先針對問題利用【現狀vs理想】和【6W2H】方法進行細化。

3.2、采集數據:用好一手數據和二手數據

3.1節(jié)講了如何確定要分析的數據問題,為整個數據分析的過程指明了方向。
現在有了方向和問題列表,就需要進行數據采集了。

一手數據

一手數據主要來自企業(yè)內部的大數據平臺、數據倉庫以及相關系統,還有部分數據來自用戶訪談和調研問卷以及內部沉淀的歷史文檔。
1、數字化升級轉型應該先從核心或者創(chuàng)新業(yè)務流程開始
這個是針對決策者而言的,比如互聯網公司優(yōu)先升級用戶行為采集、廣告投放系統,智能制造企業(yè)會優(yōu)先建立物聯網數據采集、供應鏈系統等
2、數據的采集和計算一定要從最明細的數據開始
使用最底層的數據,數據分析師可以直接自己定義計算口徑,針對明細數據進行數據探索,這是數據分析的基礎要求。否則,數據質量和數據治理這部分的問題往往會花費我們特別多的時間(筆者親身經歷:接手了別人的業(yè)務之后,發(fā)現KPI指標的sql代碼是一層套一層,除了原主人,誰都改不了)。
3、數據質量>數據量
數據分析時,質量比數量更重要

二手數據

二手數據主要是來自行業(yè)內的數據,它們不是自己企業(yè)內部產生的。一般二手數據用于讓我們看到行業(yè)內的競爭對手或者整體行業(yè)的趨勢,這些數據可以幫助我們分析自己公司在行業(yè)里整體的水平,從而判斷我們自己的目標值。

數據探索

將前面采集到的多種數據進行橫向縱向的深度挖掘,才能發(fā)現其中的“知識”。常用的三種拓展方法:趨勢分析法、快照擴展法和衍生指標法。

《如何用數據解決實際問題》也有說到“通過趨勢和快照兩個視點來把握數據特征”

1、趨勢分析法
1、折線圖、散點圖和回歸來分析趨勢并確定離群點。關注離群點,因為這些離群點發(fā)生的原因往往就是解決問題的答案。
2、關注呈指數分布增長的數據,他們往往是有意義的。
3、對于平直的曲線來說,關注整體數據的波動情況(也就是看離散系數大不大,因為這代表著業(yè)務的穩(wěn)定性)

2、快照擴展法:截取某個時點的情況,然后通過下鉆的方式來擴展這個指標的分布情況。在這個時點里,各部分對于整體的占比和影響程度。

3、衍生指標法:如果用上面趨勢和快照還沒有找到原因,可以進一步加工數據,制造出一些衍生指標。比如銷量和品牌廣告幾乎沒有太大關系,中間建立【用戶忠誠度】后發(fā)現,品牌廣告宣傳越多,用戶忠誠度越高,越容易復購。

在進行數據探索的時候,有三個點需要注意:

  1. 關注數據質量的把控。例如我們在進行新冠統計的時候,往往會發(fā)現統計死亡率要比統計得病率更加準確。
  2. 注意避免辛普森悖論。這就要求我們在看快照擴展法狀態(tài)值數據的時候,盡量細分領域和時間。
  3. 注意避免因果陷阱。例如:普通人1米7,籃球選手2米,打籃球有助于長高(此數據無法論證!只是高的人才去打籃球而已);購買產品的用戶中70%都看過廣告,沒買產品的用戶只有30%看了廣告,看廣告的轉化率更高(此數據無法論證!沒買的人可能看了廣告但沒印象了。看廣告40%的轉化率vs大盤20%的轉化率,這樣才能證明看廣告提升了轉化率)

案例

以獲客購買流程為例,梳理為:


每個指標,都能拆解為不同的維度。
訪問量:渠道對比(百度vs抖音vs直播的 落地頁訪問、注冊訪問、Demo訪問),百度關鍵字對比(不同關鍵字的 落地頁訪問、注冊訪問、Demo訪問)
銷售量:不同客服,不同渠道,不同百度關鍵字 進行對比
--光有這些數據其實并沒有解決老板提到的大方向投入成本問題,還需要過程數據。因此我們要衍生出來一些指標去和我們的最終目標進行掛鉤,比如轉化率、轉化成本等:
1、百度的渠道成本、關鍵字成本、轉化率、ROI
2、抖音的渠道成本、轉化率、ROI
3、直播的活動成本、主播成本、轉化率、ROI
--有了這些數據,再根據趨勢法看看這些指標的波動情況。以下圖為例,就知道應該嘗試關鍵字投放。

附錄:常用的一些網站和信息來源渠道

一、宏觀數據
經合組織開放的數據網:https://stats.oecd.org/
世界銀行公開數據:https://data.worldbank.org.cn/
中國統計年鑒:http://www.stats.gov.cn/tjsj/ndsj/
統計局網站:http://www.stats.gov.cn/
新華社 - 全球經濟數據:http://dc.xinhua08.com/
中國互聯網絡信息中心:https://www.cnnic.net.cn/hlwfzyj/hlwxzbg/
中財網:http://data.cfi.cn/
二、互聯網數據
Alexa: https://alexa.chinaz.com/
百度指數: https://index.baidu.com/
微指數: https://data.weibo.com/index/
淘寶指數: https://shu.taobao.com/
阿里價格指數:http://topic.aliresearch.com/
Similarweb:https://www.similarweb.com/
netmarketshare:https://netmarketshare.com/
Statcounter:https://gs.statcounter.com/
三、行業(yè)數據庫
數據匯: http://www.shujuhui.com/database/
數據圈: http://www.shujuquan.com.cn/
鏑數聚:https://www.dydata.io/
聯合國圖書館:http://www.oecd-ilibrary.org/
票房數據:https://www.boxofficemojo.com/charts/
中國票房數據:http://cbooo.cn/
行業(yè)分析機構:Gartner、Forrester、Bloomberg、易觀、艾瑞、新榜
四、企業(yè)數據
巨潮資訊:http://www.cninfo.com.cn/new/index/
EDGAR:http://sec.gov
企業(yè)招股說明書、年報、半年報、季報、券商分析報告
五、投融投資數據
IT桔子:http://www.itjuzi.com/
投資中國: http://www.chinaventure.com.cn/
創(chuàng)業(yè)邦: http://www.cyzone.cn/
36氪:http://www.36kr.com/

3.3、寫好故事線:你能用好數字推翻眾人的理解嗎?

回顧之前的發(fā)現
前期需要廣泛的思考,后期需要聚焦思維,對面臨的問題形成清晰的判斷,特別是對關鍵問題的關鍵變量要有明確的定義。
針對老板提出獲客成本高的問題,經過訪談和數據采集,在前期規(guī)劃的 6 個方向當中,發(fā)現【獲客流程】、【客戶】和【產品】是成本高的主因,因此將問題收斂為獲客的購買流程、客戶意愿度以及產品設計方面。

假設現在的數據現象是:

  • 關鍵字成本沒有優(yōu)化,也沒有打通關鍵字->購買轉化率的數據。經數據發(fā)現,大量熱門關鍵字雖然轉化率高,但價格貴,加上購買其他轉化率低的關鍵字,造成市場投入過高。
  • 根據同行產品的二手數據研究發(fā)現,從demo到注冊的轉化率應該在 3% 左右,而公司只達到了 0.5%,證明我們的 demo 體驗流程不好,也說明產品注冊的轉化和流程不好。
  • 經過客戶訪談和調查問卷發(fā)現,客戶購買 5 萬以上金額單的銷售流程都比較長,通過電話銷售無法購買高客單價產品。

如果你只是把這些數字直接擺到老板的面前,老板肯定會問“然后呢?”所以現在你要設計整個的故事線,你要多想幾步:

  • 我們把目標提升 10%,我們可以做哪些事情?
  • 如果我們想獲得 100 倍的成果,那我們應該怎么辦?
  • 我們這些分析背后是有哪些假設,在什么條件下我們的模式和假設是無效的。

提高10%,可以優(yōu)化線索:剔除ROI低的線索(對每條線索計算ROI等數據);
提升100倍,做未成單目標用戶訪談:調研發(fā)現,由于沒有線下銷售和服務團隊,對于這些高客單價客戶我們無法成單。進一步分析這些客戶的接觸點,我們可以設計新的獲客和產品定價體系,例如產品 + 服務進行區(qū)分銷售、招聘有客戶資源和行業(yè)知識的高級銷售、參加線下專業(yè)行業(yè)討論會、對客戶推薦進行大力補貼等等。

設計故事線

三段論結構:情節(jié)(陳述) - 起伏(驚喜) - 結尾(結論)
1、在陳述部分,我們可以由以下內容來進行陳述:

  • 開場,用 30 秒陳述痛點和整體問題的背景;
  • 針對問題本身的分析,也就是我們定義問題的部分;
  • 結合內外部數據針對問題舉例說明。

2、在起伏部分我們可以采取以下類似內容進行闡述:

  • 闡述要提升 10% 的話有哪些辦法和選擇,并給出不采取行動或不發(fā)生變化會怎樣?
  • 闡述更高倍數的提升辦法和潛在選擇是什么?
  • 還有哪些你發(fā)現而別人沒有發(fā)現的觀點問題?能帶來什么?

3、在結論部分

  • 用簡要的話或者數據分析思維導圖進行總結和升華;
  • 結尾不要用謝謝,要用召喚型的語言或強有力的金句對整個分析報告進行收尾。

篇幅
一般來講根據匯報層次的不同,粒度和整個匯報的篇幅會有所不同。對于數據分析報告來說,高層匯報一般建議在 20~30 分鐘,PPT 在 10~20 頁;中層和執(zhí)行層面匯報可以 40~60 分鐘左右,整體內容可以在 30~40 頁。

標題
很多小伙伴在寫 PPT 標題的時候,往往是用一個短語(例如現狀分析、系統架構圖),這是不可取的。既然叫做故事線,它就是應該用一句話來闡述這一頁的中心思想。看 PPT 的標題,這幾句話串起來應該就能把你這個故事完全講明白,而不是要看完標題之后還要到每頁里面去理解,這才是一份好的數據分析建議書。

案例回顧

現狀分析:運營投入成本過高無法使公司盈利。

  • 當前市場線索量夠大,但質不佳;
  • 運營活動消耗大,效果有限;
  • 公司整體獲客轉化效率較低。

解決之道:盈利需要斷舍離,提升線索 ROI。

  • 抖音直播與線上活動 ROI 很低,建議停止;
  • 現有關鍵字轉化率整體較低,需進一步優(yōu)化關鍵字投放;
  • Demo 轉化率低于業(yè)內預期,需加強客戶引導注冊頁面。

特別分析:如何發(fā)現公司的寶藏客戶?

  • 部分高價值客戶潛力巨大,未能形成有效收入。

落地建議與討論:打通內部運營數據,深入行業(yè)解決方案。

  • 組建線下行業(yè)銷售團隊,優(yōu)化電銷話術,提高客單價;
  • 建立市場后向指標,打通成單與投放 ROI 指標;
  • 優(yōu)化產品注冊流程,減少流失率;
  • 討論建立私有化版本,提高整體產品單價?

總結:客戶潛力巨大,練好內功,目標投入減半,收入翻番。

3.4、實踐你的理論:數據驅動最終就是用結果說話

精益實踐

你在進行數據實踐時不要選一個巨大的目標,而是去選擇一系列快速的實驗,小步快跑來迭代驗證你的數據理論。
理論上,前面所有的設計數據實驗過程都會比較愉快,但一涉及落地,一般業(yè)務部門都是不愿意去改變的。

無論多壞的改變都會有人受益,不論多好的改變都會使一些人受損。不害人的需求是不完整的需求。
——Gerald M. WeinBerg

創(chuàng)新擴散模型和理性行為理論
創(chuàng)新擴散模型
理性行為理論

從這個圖里面你能看到,一個人從認知到最后的實踐,中間有很長的一段距離。例如我們都認知自己應該去健身,但是大多數人都沒有辦法堅持下來。那些能夠執(zhí)行下來的人,一般是他對健身有充分的認知,同時他周圍的人也會給他一些輿論和示范性的作用(例如健身紅包罰款群),這樣他的健身的意圖就會大大增強,從而最后能夠把健身落在實際行動里。
同樣,前期你對創(chuàng)新者進行大量數據思維和實踐的布道,這一步是加強他們對整個數據實驗的認知,影響創(chuàng)新者對這個實驗付出的努力程度以及承擔風險和獲得收益的態(tài)度。
同時你需要面向全公司高層進行布道,讓高層感受到這是一個主流行為。當這些態(tài)度和規(guī)范大于他們自己的風險和付出的時候,他們才會有明顯的意圖并采取實際的行動。

實例實踐

通過前期溝通和會議現場的表現,找到企業(yè)當中對你想法接受程度較高的創(chuàng)新者。
假設你觀察到,運營部門總監(jiān)覺得現有工作已經太忙了,不想發(fā)生改變。但市場部門的負責人很早就希望能有一些后期數據,能支持市場優(yōu)化的過程。這個時候你可以和市場部負責人單獨約一次會議,你可以設計一個代價比較小的實驗,讓他來體驗一下你設計的數據分析思維的變化。一方面說服他知道這件事情的改變代價較小,獲得收益較大;另一方面給他講目前相比業(yè)內其他公司在這個方面的做法,我們相對落后,應該要趕上其他公司的做法。這樣通過改變他的態(tài)度和主觀規(guī)范來影響他的行為意圖,再把這個實驗落地的計劃寫出來,促進這件事情的落地。
例如我們就是一次關鍵字轉化的跟蹤試驗,那么我們可以通過設計一個落地頁的方式,針對某幾個關鍵字的效果進行統計。我們不要進行大量的系統的改造,先用手工統計的方式來進行,這樣可以快速地在兩周獲得一些投放的結果,首先解決數據透明度的問題。
然后我們做一次簡單數據分析匯報,給一個第一步的行為反饋。再根據投放的結果和動態(tài)的價格和市場的投放優(yōu)化人員一起進行一些關鍵字的優(yōu)化后,再進行一次展示,讓負責人對結果有信心。此時就可以推動市場部負責人要求產品技術部領導給出資源,把前期的手動過程固定下來成為公司數據驅動系統的一個部分。類似地,繼續(xù)在理性行為理論的指導下,再爭取其他部門認可,最終把我們整個數據分析方案落實下去。

四、分析工具

4.1、數據分析:15種數據思維圖

從大的戰(zhàn)略部分(確定問題、分析自身,產品定位)入手,用于產品和市場的一些思維圖。他們分別是:

1、VRIO 分析——分析自身業(yè)務;
2、五力模型——分析整體業(yè)務賽道與競爭情況;
3、SWOT 分析——分析整體業(yè)務場景與競爭優(yōu)劣態(tài)勢;
4、同理心地圖——如何打動決策者;
5、4P 競爭分析——產品市場營銷;
6、奧斯本檢驗表——拓展思路,獲得新觀點;
7、SUCCESs 表——新觀點創(chuàng)意和商業(yè)模式評估;
8、產品組合矩陣——分析產品布局,產品當中的業(yè)務布局。
1、VRIO 分析

問題場景:分析自身業(yè)務
圖形結構:

基本解釋及使用:要分析一件事情或者一個產品是否有競爭優(yōu)勢,最基礎的分析部分就是資源以及分配方法。分析自身的資源和運用方法就是 VRIO 分析。
VRIO 分析從四個方面來切入,針對各種各樣的資源進行打分,評估我們將來的各種方針。

  • 我們在評估經濟價值的時候會評估擁有此項資源是不是就能把握機會,是不是就可以削弱競爭對手的優(yōu)勢來一枝獨秀;
  • 在評估稀有性的時候,我們會評估一下擁有的這項資源是不是很稀缺;
  • 在評估可模仿性的時候,我們會評估如果其他人想獲得這項資源,是不是要付出更高的成本;
  • 評估組織性的時候,看你自己組織具備的資源和實力能否得到有效開發(fā)和利用。

進一步分析:在針對這些情況分析之后,我們可以考慮一下,對于自身公司目前的這些情況,你首先想到的資源會是什么?強化哪些資源還可以提升我們的競爭力,加強哪些優(yōu)勢可以補足我們弱勢的競爭點?

2、五力分析

問題場景:整體業(yè)務賽道與競爭情況
圖形結構:

基本解釋及使用:常見的競爭分析方式,五力強度越強,代表這個行業(yè)里的競爭力越激烈,你面對的挑戰(zhàn)越大,也就是你現在的賽道是紅海。當然紅海也證明這個市場是有剛需的,不代表你不能勝利。你可以找到其中一些突破點來顛覆這個市場,比如今日頭條就是通過推薦算法顛覆了以門戶網站為主要信息獲取的方式,從而獲得了成功。

  • 供應商的議價能力是指供方能通過提高投入要素價格與降低單位價值質量,影響行業(yè)中現有企業(yè)的盈利能力與產品競爭力。供應商(賣方)的議價能力越強,越證明此時處于賣方市場。
  • 買方的影響力是指買方可以通過壓價或者提高產品需求來壓低賣方的利潤。例如你的產品同質化程度高,可選擇的類似產品比較多,那就是買方市場。
  • 同行業(yè)里的競爭情況指的是這個行業(yè)里的競爭對手多不多,競爭強度大不大,一般來說門檻低和利潤高的行業(yè)會快速涌入大量競爭者。
  • 創(chuàng)新者帶來的威脅是指現在你有哪些挑戰(zhàn)者,如果不需要太多的投入,沒有太多的門檻就可以進入這個行業(yè)的話,那其實你的潛在創(chuàng)新者的威脅就比較高。
  • 替代品帶來的威脅是指有沒有可能出現更高維的一種產品來跨界打擊你,它滿足客戶最終的需求,而不用你現在的這種解決方案。

進一步分析:如果你重新做一遍這個產品,你還會這樣定位產品嗎?如果我們要擴大 100 倍的市場,你會用什么樣的解決方案?10 年后這個市場會是什么樣子?這個五力模型會變成什么樣子?你可以和競爭對手合作獲得其中的某些能力么?

3、SWOT 分析

問題場景:整體業(yè)務場景與競爭優(yōu)劣態(tài)勢
圖形結構:

基本解釋及使用:拿公司和周圍環(huán)境比對的一個分析。SWOT 分析是從內部和外部多個角度審視一件事各個層次的結果,可以幫助我們可以從中找出對自己有利的、值得發(fā)揚的因素,以及對自己不利的、要避開的東西,發(fā)現存在的問題。你可以試試頭腦風暴的方式,想到什么就把它寫下來,然后下一步進行整理,這樣可以看到更多的機會并補足其中不足的地方。
進一步分析:不僅是用 SWOT 給自己公司做分析,同時也給競爭對手做 SWOT 分析,這樣可以補足整體的大環(huán)境。

4、同理心地圖

問題場景:如何打動你的決策者
圖形結構:

基本解釋及使用:同理心地圖是一種通過換位思考的方式,了解別人所處的狀態(tài)和情緒的方法。我們通過想法、所見、所言所為、所聞去分析對方到底會怎么看這件事。這樣能讓我們深刻理解對方的想法和所處環(huán)境,換位思考,最終引導對方做出對自己有利的決策。

  • 想法指的是他在心里有這個想法去做這件事,但還沒有表達出來;
  • 所見就是他在工作、生活當中遇到的問題,接觸的人或產品服務;
  • 所言,就是他在工作生活中發(fā)表的言論及做法;
  • 所聞,就是他經常能聽到的聲音,比如在媒體上看到的新聞或者是內部的開會得到的一些結論;
  • 痛苦就是代表著他對這件事情的承受風險能力、壓力、恐懼等;
  • 收獲是代表著他能從這件事中獲得的東西,包括物質或者精神上的滿足。

進一步分析:不僅可以用同理心地圖分析重要決策者,我們還要分析重要干系人,包括你的團隊的重要成員。

5、4P 競爭分析

問題場景:產品市場營銷分析
圖形結構:

基本解釋及使用:4P 競爭分析是在產品、價格、渠道、銷售加上目標和提供的價值這幾個層次下,看自身公司和競爭對手之間的關系,制定相關策略來決定我們的產品營銷應該有哪一種定位。

  • 產品(Product):功能,要求產品有獨特的賣點;
  • 價格 (Price):根據不同的市場定位,制定不同的價格策略
  • 渠道 (Place):經銷商培育和銷售網絡
  • 促銷(Promotion):品牌宣傳(廣告)、公關、促銷等一系列的營銷行為。

進一步分析:在這個競爭環(huán)境下,什么樣的產品可以讓客戶最滿意?其他公司它的優(yōu)勢在什么地方?

6、奧斯本檢驗表

問題場景:拓展思路,獲得新觀點
圖形結構:

基本解釋及使用:我們在想新方法時,總有那么一些思路枯竭、缺乏靈感的時刻。這個模型就是為了給你像擠牙膏一樣,再擠出新的一些想法。

  • 其他用途指的是現有的東西(如發(fā)明、材料、方法等)有無其他用途?稍加改變,有無別的用途?
  • 借用指的是能否從別處得到啟發(fā)?能否借用別處的經驗或發(fā)明?外界有無相似的想法,能否借鑒?
  • 改變是指可不可以換一種形式?比如換產品形態(tài)、改變產品的狀態(tài),改變后的效果會如何?
  • 擴大是指現有的東西能否擴大使用范圍?能不能增加一些東西?能否添加部件、拉長時間、增加長度?
  • 縮小是指如果把這個東西變得更小更輕,是否可以減少一些功能和成本或者產生新的產品?
  • 取代是考慮一下是不是可以用其他的素材方法取代它;
  • 重新調整是從調換的角度思考問題,能否更換一下先后順序?可否調換元件、部件?更換一下,會怎么樣?
  • 重整是從相反方向思考問題,倒過來會怎么樣?上下是否可以倒過來?左右、前后是否可以對換位置?里外可否倒換?正反是否可以倒換?可否用否定代替肯定?
  • 組合是從綜合的角度分析問題,如果嘗試各種組件合成到一起會有什么效果?

進一步分析:其它行業(yè),類似的問題是如何解決的?

7、SUCCESs

問題場景:新觀點創(chuàng)意和商業(yè)模式評估
圖形結構:

基本解釋及使用:這個框架是從6 個視角來客觀判斷創(chuàng)新點子。這個框架可以發(fā)現你的創(chuàng)意哪里不足,方便你立刻補充。

  • 簡單指的是想法是否比較簡單,其他人容易懂;
  • 意外指的是從一般角度來講,是不是打破了消費者的期望,有沒有新的切入點;
  • 可信指的是有沒有通過可信的事實讓其他人產生共鳴,從而在市場培育初期就取得認同,為其進一步發(fā)展夯實基礎?
  • 整合指的是有沒有把相關產品進行捆綁銷售。跨界的整合創(chuàng)意往往能帶來神奇的效果,例如蘋果公司就是將硬件、軟件和服務融為一體;
  • 情感指是否容易讓用戶產生共鳴;
  • 故事指是否以故事的方式加強傳播,讓人容易記住;
  • 神秘指的是有沒有通過制造來之不易的體驗讓消費者很難得到,從而越發(fā)珍惜,例如過去的 iPhone 發(fā)布會。

進一步分析:能否用一句話來說明你的創(chuàng)意?一句話無法提煉出來的創(chuàng)意,一般不是好創(chuàng)意。

8、產品組合矩陣(氣泡圖)

問題場景:產品當中的業(yè)務布局。
圖形結構:

基本解釋及使用:一個賽道里會有各種各樣的產品,一個產品會有各種各樣的功能,我們每個產品的功能和它的活躍度以及這個產品任何兩位維度的評估組合起來就是產品矩陣。
你要有一個產品全局觀,可以用氣泡的大小表示用戶活躍規(guī)模,橫軸代表變現能力,縱軸是導流能力,讓人一目了然公司的產品布局或者內部產品功能矩陣的情況。
進一步分析:圖中產品和產品或者產品功能之間有什么關系?它們能相互導流嗎?

我把這些思維圖叫做“思維的榨汁機”,在我們思路不清晰或者思維創(chuàng)意枯竭的時候,你不妨把這些工具拿出來,把自己的頭腦“榨”一遍,往往可以收到奇效。我把所有的這些 PPT 模板已經放在這里(提取碼 vdx4),你需要的時候直接引用填寫就好。

上面講了宏觀層面的思維圖,現在講獲客、拆解和執(zhí)行相關的思維圖,幫助梳理分析思維,它們分別是:

9、商業(yè)模式畫布;
10、AIDMA;
11、AARRR;
12、SMART;
13、PDCA;
14、RACI;
15、Will, Can, Must。
9、商業(yè)模式畫布

問題場景:分析自身商業(yè)模式
圖形結構:

基本解釋及使用:商業(yè)模式畫布可以非常方便地對公司的商業(yè)模式進行一個整體的梳理。它通過 9 個關鍵的因素來分析一個公司整體的脈絡。
這個畫布的最底層是公司的整體的收支邏輯,左側是公司的組織能力,右側是針對客戶的價值主張和如何采取措施。你可以根據你個人、公司、部門的情況通過這個圖把整個業(yè)務的邏輯梳理出來。
進一步分析:九個因素當中最強和最弱的元素是哪一個?如何發(fā)揮優(yōu)勢和補充弱勢?

10、AIDMA

問題場景:設計整體客戶營銷策略
圖形結構:

基本解釋及使用:一個客戶在購買你的產品的時候是先注意到你的產品,然后產生一些興趣,當這些興趣轉化成欲望的時候,他才會有購買的行為。或者當他對你的產品有印象后,再見到你的產品時,他會產生購買的行動。AIDMA 這個策略就是將你換到客戶的位置上,根據各個階段(也就是注意、興趣、欲望、記憶、行動)來具體分析如何獲得用戶的關注,最后讓用戶產生購買行為。我們可以在這個表里寫下每個客戶在當時的情況以及當時他的需求,針對這種情況和需求,你去設計如何讓客戶獲得你產品的各種特性和信息。
進一步分析:可以結合前面的同理心地圖換位思考一下,客戶是否還存在一些沒有說出的需求?客戶在每個過渡階段之間會遇到什么障礙?我們如何去排除?

11、AARRR

問題場景:獲取客戶的各個階段
圖形結構:

基本解釋及使用:AARRR 也叫做“海盜模型”,它把獲得客戶到最后變成收入之間分成了 5 個階段,包括獲得客戶階段、讓用戶活躍起來的階段、留存住客戶的階段、產生購買用戶的階段以及用戶傳播階段。通過這 5 個階段,我們可以把用戶從開始和你接觸到最后你可以從用戶身上盈利的這一整體流程,在模型里闡釋清楚。你可以設置每個階段的目標以及要用戶體驗到的內容,最終我們可以通過數據分析來看差距。

進一步分析:在現在信息過載、產品類別過剩的情況下,獲客順序已經不再是 AARRR,而是大多數產品通過朋友的推薦介紹或者平臺的推薦被用戶看到,用戶再去了解和購買。所以在新形勢下的模型往往是 RAARR,也就是推薦、獲取、激活、留存和購買。如何獲得客戶的推薦,是你的公司存活下去的重要指標。

12、SMART

問題場景:確定目標是否明確
圖形結構:

基本解釋及使用:SMART 原則就是首先要具體(Specific),結果可衡量(Measurable),制定的目標應該是可實現的(Achievable),所有的這些動作和言論都是結果導向(Result based),所有的目標都是有時效性的(Time-bound)。符合這 5 個因素,才能夠把我們的目標寫得更清楚。一個目標如果不符合 SMART 原則,你也就無法進行數據分析和最后的數據確認。

進一步分析:你的目標如果提高 10 倍它還是 SMART 嗎?100 倍呢?如果不是,那么倍數變大就無法達成的因素是什么?有沒有可能用奧斯本檢查表突破它?

13、PDCA

問題場景:反思和改進自己的業(yè)務
圖形結構:

基本解釋及使用:將一個任務按照順序從計劃到執(zhí)行到檢查,再到改善行動,重新去規(guī)劃,而且不是運行一次就結束,是不停地循環(huán)下去。
在這個框架里填寫要去反復執(zhí)行來提高的目標,做相應的計劃(Plan),再根據設計和布局進行具體運作,實現計劃中的內容(Do),再檢查和總結我們能否達到目標,找到哪些對了哪些錯了(Check),最后,對總結檢查的結果進行處理(Act),然后再做新的行動計劃(PDCA)。注意每一個動作里面的每一個目標都要有明確的數字,而不是簡單去定性問題。
進一步分析:在這種不斷的循環(huán)當中,有沒有大方向上直接可以產生的變革?局部的最優(yōu)解往往不是全局的最優(yōu)解。還記得1.1節(jié)的辛普森悖論嗎?局部優(yōu)化可能無法全局優(yōu)化,我們需要跳出來高維度思考問題。

14、RACI

問題場景:分拆工作職責,進行工作協同
圖形結構:

基本解釋及使用:在做一件事情的時候,往往會有很多人或者很多部門參與,這時候處理好人和人、部門和部門之間的關系就非常重要了。RACI 矩陣區(qū)分出了 4 個角色:

  • Responsible 是要負責執(zhí)行具體這個任務的執(zhí)行者;
  • Accountable 是責任人,負責向組織內外說明業(yè)務、進度狀況,一般是組長或者 Leader 這個角色;
  • Consulted 被咨詢者一般是支援的部門和人,也就是在發(fā)生困難的時候,可以提供意見或者提供資源幫助你解決的人;
  • Informed 被告知者是需要知道這件事情進度最新消息的人,相當于他們需要郵件抄送。

這里需要注意,在書寫每一項任務的時候每一行只會有一個 A,也就是只有一個最后負責人,因為有兩個 A 就意味著有兩個負責人,這樣就會出現踢皮球的情況。

進一步分析:RACI 在最終確認的時候,一般都是由責任人或者和責任人的老板一起來進行規(guī)劃的,單純只是你和其他的人員規(guī)劃不會有太大意義。其中我們的任務拆解是非常講究藝術的,如果你沒有拆解好,可能會出現有的事情沒有人負責或者是有的事情由多人負責的情況。此外還有一個叫WBS的工具,你可以通過 WBS 把具體任務分解下去,跟蹤相關完成情況和狀態(tài)。

15、Will, Can, Must

問題場景:尋找做事情的優(yōu)先級和邊界
圖形結構:

基本解釋及使用:通過這個框架進行頭腦風暴,找到做事情的優(yōu)先級。

  • 我們可以做而且必須做的事情,要馬上去做;
  • 我們可以做而且想要做的事情,其實可以不著急去做;
  • 我們想做而且必須做,但是能力不夠去做的事情,我們就要尋找解決方案。
  • 這三個方向的交集就是我們最高優(yōu)先級要做的事情。

在團隊能力提高之后,“能做”的這個圈就會越來越大;隨著業(yè)務規(guī)模的擴大,必須做的事情會變多;隨著公司市值和愿景上升,想做的事情也會越來越多。所以這三個圈中間的交集交得越多越大,發(fā)展也就越好。

進一步分析:每一個人想做的事和他能做的事以及他必須要做的事三者之間,往往很難取得最終的一致,但我們不斷加強自己的能力,最終會是我們可做和必做事情越來越多,越來越容易(下面兩個圈交集變大),這樣才能有時間把想做的事情完成,這也就是我們一直學習的原因吧。

此外,常用的分析思維框架還有STP、雙因素理論、PEST、價值鏈分析、TAPS思維分析PREP觀點表達

其實無論使用哪種方法,記住,最終使用數據的是人,數據和這些思維框架都是用來幫助你看穿事情本質的,不要被眼前的數據所迷惑,不要迷信于工具,不斷探索追求實質,這才是數據分析人的最終歸宿

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容