數據化運營速成手冊
胡晨川
這是一本基于excel 2016的數據分析和運營技巧書
讓讀者正確地理解并應用數據分析
是這本書的目的
1. 全面認識數據圖表
1.1 數據圖表的基本構成
-
維度和指標
Measure/Dimension
分類變量/有序變量/數值變量/邏輯變量
-
寫標題的套路
用圖表直觀地反映信息,代替大段的文字和復雜的邏輯陳述,提高信息傳達的效率
標示性標題/描述性標題/指導性標題
考慮:
* 我最近做的重要決策大致上會反映在哪幾個指標?
* 最近我的第一關鍵指標是什么,與它最相關的指標是哪幾個?
* 業務的全局變化如何,與過去我們有哪些方面的改進或者退步?
* 目前的那些執行動作需要調整,對應的指標是什么?
-
圖形元素的本質
幾何對象和圖形屬性
-
坐標軸是傳達信息的關鍵
坐標軸上的變化,能讓數據撒謊
-
圖例的位置
告訴讀者各個圖形元素分別代表什么指標
-
輔助線能夠突出某些信息
出現在圖表中本身不表達任何既有數據,但能幫助觀察者形成認知和推斷的圖形元素
數據標注輔助線/數據推斷輔助線
數據標簽需謹慎使用
1.2 控制數據圖表中的信息量
可怕的不是出錯,而是產生混淆
圖形元素數、輔助線數、輔助坐標軸數一共不超過5
1.3 不需要作圖
短期內的了解型需求
-
多維度相互結合的需求
表格更有用
作圖傳達的信息非常有限時
圖表中的數據存在復雜的邏輯關系時
2. 建立數據圖表的認知
2.1 利用散點圖探究數據間的關系
散點圖最核心的價值在于發現變量間的關系
最基本的散點圖樣例
散點圖的制作
變種1: 添加平滑線
-
變種2: 利用氣泡圖觀察更多指標間的關系
5個變量是二維散點圖的極限
-
變種3: 用分類矩陣形成決策
波士頓矩陣,根據
相對市場占有率
和銷售增長率
兩個維度衡量企業的各種產品 散點圖的局限性
2.2 利用柱形圖將對比做到極致
柱形圖的核心思想就是對比
-
利用累加柱形圖對比數據結構的變化
有對比才有信息
多指標組合對比
用平均值優化單指標的對比
用瀑布圖觀察總量分解后的對比
-
如何正確對比數值指標與比率指標
柱形圖與折線圖結合的表達出一個指標的數值和變化率,保證刻度線一致,橫坐標表示時間
2.3 用折線圖觀察時間序列數據
折線圖核心思想是趨勢變化
-
如何觀察趨勢
利用趨勢線
趨勢變化的速率是否滿足需求
波動情況
指標的周期性變化
關注極值
關注結構性變化
-
探尋趨勢變化原因
定位問題
梳理事件
分析邏輯關系
-
得出結論
認識到記錄的重要性。有清晰的時間記錄,在我們對時間序列數據進行回溯時才有據可查
2.4 利用面積圖觀察數據結構的變化趨勢
動態的觀察數據結構的變化: 堆積面積圖
用于隊列分析: 堆積面積圖
2.5 用雷達圖進行靜態的多維對比
2.6 其他類型圖表
使用餅圖的6個坑
提升視覺沖擊力: 樹狀圖
量化流程各環節間的轉化率: 漏斗圖
數據圖表進階
3.1 數據圖表到底是什么
分清楚數據中的維度和指標
幾何對象就是點線面的結合
標注和坐標系
通過分面來展示數據的子集
3.2 如何正確地選擇圖表
3.3 數據圖表中的細節
圖表背景和繪圖區背景
-
坐標軸
坐標軸是否展示出了足夠的差別
范圍是否大于數據序列的4倍標準差
靈活使用輔助線
線性趨勢線的應用
-
應用移動平均趨勢線做時間序列的預測
在時間序列數據中,N期移動平均就是以期值為終點,計算過去N個值的算術平均數
添加信息增強線
用標注線指示必要的信息
3.4 讓圖表升級的高級技巧
-
運用組合圖表增加信息承載量
數據可視化的目的是減少觀察者思考的時間
運用子母圖增加圖表中的信息量
條件格式中的幾項實用功能
使用迷你圖表壓縮空間
用不等寬技術優化柱形圖和條形圖
用Bullet圖進行績效評價可視化
4 數據化運營的基礎知識
4.1 最基本的數據獲取能力
認知數據庫的一般構造
能閱讀最基本的取數代碼
用excel獲取數據
4.2 快速認知數據
仔細審核數據源的質量
-
提升數據集的質量
清理垃圾數據
-
處理空值的技巧
用最接近的數據替換它
用平均值替換
合理推斷。比如用移動平均數
-
異常值與異常字段的處理
數值特別夸張,文本特別長,NULL, 不匹配的數據類型
統一數據類型與單位
-
描述統計分析
-
觀察數據的一般水平
中位數
眾數
加權算術平均數
-
觀察數據的穩定性
任何風險衡量的模型,其本質都離不開衡量波動性,即方差與標準差
衡量兩個數據序列間相互波動的情況是有辦法的,即協方差
-
初步認知數據的分布特征
最大值,最小值,中位數,算術平均數,75%分位數和25%分位數
-
深入認知數據的分別特征
頻率分布圖
-
利用相關系數理解數據之間的關系
-
通過多維交叉深入認知數據集
多維分析就是通過多個維度的相互組合,發現數據內深層次的信息
4.3 幾套有用的分析思維框架
建立起體系化思維。有套路
-
66法則與SQVID原則
從誰/什么?有多少?在哪里?什么時候?怎么樣?為什么? 5W1H
SQVID:
簡單/精細(Simple/specific) 定性/量化(qualitative/quantization) 愿景/執行(vision/validate) 個別/對比(individual/compare) 變化/現狀(delta/status)
-
麥肯錫七步成詩
-
清晰的陳述要解決的問題
問題要具體存在
問題需要可執行
-
使用邏輯樹來分解問題
MECE ( Mutually Exclusive Collectively Exhaustive)
-
淘汰非關鍵問題
找到那些數量上只占20%,影響力卻是80%的重點問題
-
制定詳細的工作計劃
每個to do都必須有負責人和截止時間
-
進行關鍵分析
設立假設,然后通過數據進行檢驗
-
綜合分析結果,建立論證
尋找到一條邏輯主線, 將各個分散的結論和信息進行組合
寫一個精彩的故事打動決策者
-
4.4 創造指標應用指標
-
什么是指標
indicator
過程型指標
一般需要高頻的跟蹤(甚至是實時), 根據指標的變化,及時做出調整
結果型指標
一般從活動中抽象而來,適用于運營活動的評價
-
如何設計高質量的指標
信度
指標衡量某事物的準確性、精確性和穩定性
效度
指標衡量所獲得的信息,確實是研究者所期望獲得的信息
計算簡單快速、易理解、泛化性強,對業務敏感,可持續性
-
指標組合: 綜合指數
加權綜合指數
各個指標先標準化,轉化為統一單位
-
需要關注的核心指標
-
第一關鍵指標法構筑指標體系
找到第一關鍵指標,然后逐層分解
-
套用AARRR模型
用戶獲取(Acquisition) -> 用戶激活(Activation) -> 用戶留存(Retention) -> 用戶價值轉化(Revenue) -> 用戶推薦(Referral)
用戶生命周期價值
將從單個用戶端獲取的收入分攤到使用產品的每一天,將所有活躍用戶每天分攤到的金額進行匯總,就是當天的總的用戶價值;若當天用戶不活躍,將他分攤的金額計算為負值,將所有負值進行加總,就是損失的用戶價值。用柱形圖將這兩個方向的數據表現出來
-
pipeline衡量銷售流程
一種漏斗,衡量整個管道的轉化效率
-
4.5 運營活動的量化
-
優秀的運營活動的諸要素
明確的活動目標和預算
清晰的響應關系和執行流程
可靠的過程型指標
準確的結果型指標
科學合理的效果評價方式
知識的沉淀
聰明的負責人
-
需要哪些過程型和結果型指標
活動與指標最好是一對一關系
-
如何評價運營活動
活動是否有效
為達成目標我們的投入產出比是否合適
-
從縱向和橫向兩個角度全面對比
活動前后的數據對比,一定要跨滿一個業務周期
基本流程
產生問題
-
利用ICE方法評估方案
Impact(影響面大小) Confidence(提出者對執行效果的信心) 和 Easy(執行的難易度)
-
設計指標
指標要對問題敏感
準備工具
選擇對象
隨機分組
假設檢驗
形成結論
-
傳達部分
無效也是一個有價值的結論
-
一種更嚴謹的測試效果量化方法:DID
對比施予活動這個時間點后的實驗組和對照組在指標上的差別
對實驗組和對照組指標的數值差別進行顯著性檢驗,看是否有足夠里有判斷他們是存在差別的
difference in difference
-
相似活動間效果的對比
目標相同,時間相近可以對比
運營活動量化的總結
4.6 數據化運營的思維方式
信度和效度思維
平衡思維
分類思維
-
矩陣思維
重要-緊急矩陣
-
管道/漏斗思維
漏斗的環節不該超過5個,漏斗各環節的百分比數值、量級不要超過100倍
相關思維
-
遠近度思維
確定好核心問題后,分析其他業務問題與該核心問題的遠近程度,由近及遠,有計劃地分配自己的精力
-
邏輯樹思維
下鉆(分解)和上卷(匯總)
-
時間序列思維
距今越近的時間點,越要重視
同比
-
異常值出現時,必須重視
通過添加平均值線和平均值加減一倍或兩倍標準差線觀察
-
隊列分析思維
按一定規則,在某些維度上將觀察對象切分,組成一個觀察樣本,然后觀察這個樣本的某些指標隨著時間的演進而產生的變化
-
循環/閉環思維
不要用漏斗來衡量一個循環
-
測試/對比思維
決策前盡量做對比測試
測試時要注意參照組的選擇
-
指數化思維
遵循獨立和窮盡(MECE);注意各指標的單位,標準化之;權重和要等于1
-
極端化思維
極端化是一種簡化
-
反向思維
關注反常情況
4.7 運營數據報告必備要素
關鍵信息優先
只有單向的邏輯線
有選擇地進行維度下鉆
-
不要展示過多的數據圖
精簡圖表
附上明細數據集和制作過程
給出實質性的建議
5 快速提升量化分析能力
5.1 樸素貝葉斯模型
概率
0和1之間的數字,表示特定結果發生的可能性
幾率
某一特定結果發生與不發生的概率比
似然
兩個相關的條件概率之比。給定B發生的情況下A發生的幾率和A的整體幾率之比
貝葉斯公式
P(A|B) = P(B|A) * P(A)/P(B)
-
全概率公式
P(E|P) = P(P|E) * P(E) /[P(E)P(P|E) + P(~E)P(P|~E)]
-
讓大數定律給你自信
實驗次數足夠多時,某事件發生的概率一定會收斂于他的基本概率
-
窺一斑而見全豹:中心極限定理
一個大型樣本的正確抽樣與其代表的群體存在相似關系
5.2 使用假設檢驗進行理性的推斷
-
統計分布是一切推斷的基礎
這世界上的所有事件,其結果都遵從相對有限的幾個概率分布
正態分布;指數分布;卡方分布;BETA分布;POSSION分布;二項分布;T分布;F分布
-
以正態分布為例,闡述假設檢驗的過程
把一個不容易被推翻的假設當作原假設
拒絕接受原假設,取決于我們認為在原假設成立的前提下,實驗所得出的結論對應的概率為多小時是不正常的
-
雙側檢驗與單側檢驗
原假設“B版本的跳出率不比A版本低”,即"B>=A?"。這樣的原假設是有方向性的,即大于或者小于,這種假設被稱為單側檢驗。
原假設是"B=A?", 其備擇假設就是"B!=A", 稱為雙側檢驗
-
假設檢驗的細節補充
標準差與標準誤差的不同
假設檢驗的檢驗指標和其對應的分布并不是局限的
大數據不能替代統計推斷,也不能替代假設檢驗
-
關注兩類錯誤
拒絕了該接受的假設;接受了該拒絕的假設
針對某個業務問題建立一個原假設,然后努力手機信息去挑戰它,如果沒有充分的證據證明原假設錯誤,那么就選擇接受它
5.2 利用方差分析辨別方案的有效性
-
用戶激活措施的有效性判斷
方差分析的前提
每一組所對應的總體服從正態分布
-
各總體的方差相同
方差齊性分析檢驗
從每一總體中抽取的樣本是相互獨立的
-
運用置信區間增強數值估計的可靠性
數據若服從T分布或者正態分布,它的95%置信區間就是點估計值加減1.96個標準差
兩兩比較尋找最精確的結論
理解方差分析的思維
5.4 淺談回歸分析的應用
-
因變量與自變量的相關關系是回歸的基礎
只有在相關系數搞得兩個指標之間建立回歸模型才有意義
-
線性回歸建模的詳細過程
-
重視回歸建模前的分析過程
數據分析,不僅僅是對建模后的結果進行解釋,而是從業務理解,建模前的邏輯推理,模型的適用性分析,數據認知等,直到建模后的結果解釋,一整套的過程
觀察因變量與自變量的相關關系并進一步清洗數據
-
回歸建模的結果怎么來
最小二乘估計
-
利用現實數據建立模型并解讀結果
查柜回歸模型的 Adjusted R Square,即擬合優度
觀察方差分析板塊中的結果
需要看回歸模型的系數
利用多元回歸改進模型
-
線性回歸分析的注意點
5.3 用時間序列分解模型觀察波動
-
怎樣觀察時間序列數據
X軸和Y軸
起點和終點
觀察極值
轉折點
周期性
波動性
與參考性的對比
-
何為時間序列分解
T 長期趨勢
S 季節變動
C 循環變動
I 隨機波動
-
時間序列分解的步驟解析
用移動平均數分離出顯性的周期性波動
將業務周期效應和不規則變動進行區分
觀察數據波動的拐點,將時間序列分段
利用線性回歸,基于移動平均數計算長期趨勢
分離出循環效應和隨機波動
時間序列數據的預測值就是 長期趨勢 + 循環效應 + 周期效應
檢驗時間序列分解的效果
時間序列分解方法的應用局限性
5.6 如何優化調查問卷
-
態度型問題,增加選項以支撐量化分析
包含中間項, 即填寫中間項的人表示沒有態度
問題要有必要切貼合業務需求
-
設置過濾器,識別無效回答
設置互證的問題,即過濾器
-
避免雙重問題和一重半問題
雙重問題即一個提問隱含兩個問題
一重半問題即某個選項實際上暗含了兩個甚至多個選擇
動態地調查,設置問題庫以保障多次調查的質量
6 科學地決策
運籌學問題
6.1 從數據中形成決策
管理科學是將定量因素(quantitative factor) 有關的管理問題通過應用科學的方法(scientific approach)輔助制定管理決策(managerial decision making) 的一門科學(discipline)
6.2 線性規劃是什么
線性規劃是應用數據模型對所研究的問題進行表述
線性是指建模過程中的數學表達式的形式,即線性方程組
規劃就是要確定一組結論(一組數字),而不是一個結論(一個數字)
線性規劃一定要有目標,要有決策選項,要有約束條件,要有決策選項對目標的貢獻,要有量化指標或者數字依據
線性規劃只是規劃求解方法的一個細分項,還有整數規劃,非線性規劃,目標規劃
6.3 線性規劃建模的操作過程
建立邏輯清晰的表格
設置輸出單元格 目標單元格和可變單元格之間的運算關系
設置線性規劃建模參數
6.4 如何從數據中形成決策
6.5 4類典型且實用的線性規劃模型
資源分配模型
成本收益平衡模型
網絡配送模型
混合模型
6.6 線性規劃模型小結
取決于我們有沒有能力將現實問題抽象為線性規劃問題
7 應用優化的工具
8 工作經驗雜談
對業務的理解和思考,永遠高于分析技術的選擇