數據化運營速成手冊筆記

數據化運營速成手冊

胡晨川

這是一本基于excel 2016的數據分析和運營技巧書

讓讀者正確地理解并應用數據分析 是這本書的目的

1. 全面認識數據圖表

1.1 數據圖表的基本構成

  • 維度和指標

    Measure/Dimension

    分類變量/有序變量/數值變量/邏輯變量

  • 寫標題的套路

    用圖表直觀地反映信息,代替大段的文字和復雜的邏輯陳述,提高信息傳達的效率

    標示性標題/描述性標題/指導性標題

考慮:

* 我最近做的重要決策大致上會反映在哪幾個指標?

* 最近我的第一關鍵指標是什么,與它最相關的指標是哪幾個?

* 業務的全局變化如何,與過去我們有哪些方面的改進或者退步?

* 目前的那些執行動作需要調整,對應的指標是什么?
  • 圖形元素的本質

    幾何對象和圖形屬性

  • 坐標軸是傳達信息的關鍵

    坐標軸上的變化,能讓數據撒謊

  • 圖例的位置

    告訴讀者各個圖形元素分別代表什么指標

  • 輔助線能夠突出某些信息

    出現在圖表中本身不表達任何既有數據,但能幫助觀察者形成認知和推斷的圖形元素

    數據標注輔助線/數據推斷輔助線

  • 數據標簽需謹慎使用

1.2 控制數據圖表中的信息量

可怕的不是出錯,而是產生混淆

圖形元素數、輔助線數、輔助坐標軸數一共不超過5

1.3 不需要作圖

  • 短期內的了解型需求

  • 多維度相互結合的需求

    表格更有用

  • 作圖傳達的信息非常有限時

  • 圖表中的數據存在復雜的邏輯關系時

2. 建立數據圖表的認知

2.1 利用散點圖探究數據間的關系

散點圖最核心的價值在于發現變量間的關系

  • 最基本的散點圖樣例

  • 散點圖的制作

  • 變種1: 添加平滑線

  • 變種2: 利用氣泡圖觀察更多指標間的關系

    5個變量是二維散點圖的極限

  • 變種3: 用分類矩陣形成決策

    波士頓矩陣,根據相對市場占有率銷售增長率兩個維度衡量企業的各種產品

  • 散點圖的局限性

2.2 利用柱形圖將對比做到極致

柱形圖的核心思想就是對比

  • 利用累加柱形圖對比數據結構的變化

    有對比才有信息

  • 多指標組合對比

  • 用平均值優化單指標的對比

  • 用瀑布圖觀察總量分解后的對比

  • 如何正確對比數值指標與比率指標

    柱形圖與折線圖結合的表達出一個指標的數值和變化率,保證刻度線一致,橫坐標表示時間

2.3 用折線圖觀察時間序列數據

折線圖核心思想是趨勢變化

  • 如何觀察趨勢

    1. 利用趨勢線

    2. 趨勢變化的速率是否滿足需求

    3. 波動情況

    4. 指標的周期性變化

    5. 關注極值

    6. 關注結構性變化

  • 探尋趨勢變化原因

    1. 定位問題

    2. 梳理事件

    3. 分析邏輯關系

    4. 得出結論

      認識到記錄的重要性。有清晰的時間記錄,在我們對時間序列數據進行回溯時才有據可查

2.4 利用面積圖觀察數據結構的變化趨勢

  • 動態的觀察數據結構的變化: 堆積面積圖

  • 用于隊列分析: 堆積面積圖

2.5 用雷達圖進行靜態的多維對比

2.6 其他類型圖表

  • 使用餅圖的6個坑

  • 提升視覺沖擊力: 樹狀圖

  • 量化流程各環節間的轉化率: 漏斗圖

數據圖表進階

3.1 數據圖表到底是什么

  • 分清楚數據中的維度和指標

  • 幾何對象就是點線面的結合

  • 標注和坐標系

  • 通過分面來展示數據的子集

3.2 如何正確地選擇圖表

3.3 數據圖表中的細節

  • 圖表背景和繪圖區背景

  • 坐標軸

    坐標軸是否展示出了足夠的差別

    范圍是否大于數據序列的4倍標準差

  • 靈活使用輔助線

  • 線性趨勢線的應用

  • 應用移動平均趨勢線做時間序列的預測

    在時間序列數據中,N期移動平均就是以期值為終點,計算過去N個值的算術平均數

  • 添加信息增強線

  • 用標注線指示必要的信息

3.4 讓圖表升級的高級技巧

  • 運用組合圖表增加信息承載量

    數據可視化的目的是減少觀察者思考的時間

  • 運用子母圖增加圖表中的信息量

  • 條件格式中的幾項實用功能

  • 使用迷你圖表壓縮空間

  • 用不等寬技術優化柱形圖和條形圖

  • 用Bullet圖進行績效評價可視化

4 數據化運營的基礎知識

4.1 最基本的數據獲取能力

  • 認知數據庫的一般構造

  • 能閱讀最基本的取數代碼

  • 用excel獲取數據

4.2 快速認知數據

  • 仔細審核數據源的質量

  • 提升數據集的質量

    • 清理垃圾數據

    • 處理空值的技巧

      • 用最接近的數據替換它

      • 用平均值替換

      • 合理推斷。比如用移動平均數

    • 異常值與異常字段的處理

      數值特別夸張,文本特別長,NULL, 不匹配的數據類型

  • 統一數據類型與單位

  • 描述統計分析

    • 觀察數據的一般水平

      • 中位數

      • 眾數

      • 加權算術平均數

    • 觀察數據的穩定性

      任何風險衡量的模型,其本質都離不開衡量波動性,即方差與標準差

      衡量兩個數據序列間相互波動的情況是有辦法的,即協方差

    • 初步認知數據的分布特征

      最大值,最小值,中位數,算術平均數,75%分位數和25%分位數

    • 深入認知數據的分別特征

      頻率分布圖

  • 利用相關系數理解數據之間的關系

  • 通過多維交叉深入認知數據集

    多維分析就是通過多個維度的相互組合,發現數據內深層次的信息

4.3 幾套有用的分析思維框架

建立起體系化思維。有套路

  • 66法則與SQVID原則

    從誰/什么?有多少?在哪里?什么時候?怎么樣?為什么? 5W1H

    SQVID:

      簡單/精細(Simple/specific)
    
      定性/量化(qualitative/quantization)
    
      愿景/執行(vision/validate)
    
      個別/對比(individual/compare)
    
      變化/現狀(delta/status)
    
  • 麥肯錫七步成詩

    1. 清晰的陳述要解決的問題

      • 問題要具體存在

      • 問題需要可執行

    2. 使用邏輯樹來分解問題

      MECE ( Mutually Exclusive Collectively Exhaustive)

    3. 淘汰非關鍵問題

      找到那些數量上只占20%,影響力卻是80%的重點問題

    4. 制定詳細的工作計劃

      每個to do都必須有負責人和截止時間

    5. 進行關鍵分析

      設立假設,然后通過數據進行檢驗

    6. 綜合分析結果,建立論證

      尋找到一條邏輯主線, 將各個分散的結論和信息進行組合

    7. 寫一個精彩的故事打動決策者

4.4 創造指標應用指標

  • 什么是指標

    indicator

    過程型指標

      一般需要高頻的跟蹤(甚至是實時), 根據指標的變化,及時做出調整
    

    結果型指標

      一般從活動中抽象而來,適用于運營活動的評價
    
  • 如何設計高質量的指標

    信度

      指標衡量某事物的準確性、精確性和穩定性
    

    效度

      指標衡量所獲得的信息,確實是研究者所期望獲得的信息
    

    計算簡單快速、易理解、泛化性強,對業務敏感,可持續性

  • 指標組合: 綜合指數

    加權綜合指數

      各個指標先標準化,轉化為統一單位
    
  • 需要關注的核心指標

    • 第一關鍵指標法構筑指標體系

      找到第一關鍵指標,然后逐層分解

    • 套用AARRR模型

      用戶獲取(Acquisition) -> 用戶激活(Activation) -> 用戶留存(Retention) -> 用戶價值轉化(Revenue) -> 用戶推薦(Referral)

      用戶生命周期價值

         將從單個用戶端獲取的收入分攤到使用產品的每一天,將所有活躍用戶每天分攤到的金額進行匯總,就是當天的總的用戶價值;若當天用戶不活躍,將他分攤的金額計算為負值,將所有負值進行加總,就是損失的用戶價值。用柱形圖將這兩個方向的數據表現出來
      
    • pipeline衡量銷售流程

      一種漏斗,衡量整個管道的轉化效率

4.5 運營活動的量化

  • 優秀的運營活動的諸要素

    1. 明確的活動目標和預算

    2. 清晰的響應關系和執行流程

    3. 可靠的過程型指標

    4. 準確的結果型指標

    5. 科學合理的效果評價方式

    6. 知識的沉淀

    7. 聰明的負責人

  • 需要哪些過程型和結果型指標

    活動與指標最好是一對一關系

  • 如何評價運營活動

    活動是否有效

    為達成目標我們的投入產出比是否合適

  • 從縱向和橫向兩個角度全面對比

    活動前后的數據對比,一定要跨滿一個業務周期

    基本流程

    1. 產生問題

    2. 利用ICE方法評估方案

      Impact(影響面大小) Confidence(提出者對執行效果的信心) 和 Easy(執行的難易度)

    3. 設計指標

      指標要對問題敏感

    4. 準備工具

    5. 選擇對象

    6. 隨機分組

    7. 假設檢驗

    8. 形成結論

    9. 傳達部分

      無效也是一個有價值的結論

  • 一種更嚴謹的測試效果量化方法:DID

    1. 對比施予活動這個時間點后的實驗組和對照組在指標上的差別

    2. 對實驗組和對照組指標的數值差別進行顯著性檢驗,看是否有足夠里有判斷他們是存在差別的

    3. difference in difference

  • 相似活動間效果的對比

    目標相同,時間相近可以對比

  • 運營活動量化的總結

4.6 數據化運營的思維方式

  • 信度和效度思維

  • 平衡思維

  • 分類思維

  • 矩陣思維

    重要-緊急矩陣

  • 管道/漏斗思維

    漏斗的環節不該超過5個,漏斗各環節的百分比數值、量級不要超過100倍

  • 相關思維

  • 遠近度思維

    確定好核心問題后,分析其他業務問題與該核心問題的遠近程度,由近及遠,有計劃地分配自己的精力

  • 邏輯樹思維

    下鉆(分解)和上卷(匯總)

  • 時間序列思維

    • 距今越近的時間點,越要重視

    • 同比

    • 異常值出現時,必須重視

      通過添加平均值線和平均值加減一倍或兩倍標準差線觀察

  • 隊列分析思維

    按一定規則,在某些維度上將觀察對象切分,組成一個觀察樣本,然后觀察這個樣本的某些指標隨著時間的演進而產生的變化

  • 循環/閉環思維

    不要用漏斗來衡量一個循環

  • 測試/對比思維

    • 決策前盡量做對比測試

    • 測試時要注意參照組的選擇

  • 指數化思維

    遵循獨立和窮盡(MECE);注意各指標的單位,標準化之;權重和要等于1

  • 極端化思維

    極端化是一種簡化

  • 反向思維

    關注反常情況

4.7 運營數據報告必備要素

  • 關鍵信息優先

  • 只有單向的邏輯線

  • 有選擇地進行維度下鉆

  • 不要展示過多的數據圖

    精簡圖表

  • 附上明細數據集和制作過程

  • 給出實質性的建議

5 快速提升量化分析能力

5.1 樸素貝葉斯模型

概率

0和1之間的數字,表示特定結果發生的可能性

幾率

某一特定結果發生與不發生的概率比

似然

兩個相關的條件概率之比。給定B發生的情況下A發生的幾率和A的整體幾率之比

貝葉斯公式

P(A|B) = P(B|A) * P(A)/P(B)
  • 全概率公式

    P(E|P) = P(P|E) * P(E) /[P(E)P(P|E) + P(~E)P(P|~E)]

  • 讓大數定律給你自信

    實驗次數足夠多時,某事件發生的概率一定會收斂于他的基本概率

  • 窺一斑而見全豹:中心極限定理

    一個大型樣本的正確抽樣與其代表的群體存在相似關系

5.2 使用假設檢驗進行理性的推斷

  • 統計分布是一切推斷的基礎

    這世界上的所有事件,其結果都遵從相對有限的幾個概率分布

    正態分布;指數分布;卡方分布;BETA分布;POSSION分布;二項分布;T分布;F分布

  • 以正態分布為例,闡述假設檢驗的過程

    把一個不容易被推翻的假設當作原假設

    拒絕接受原假設,取決于我們認為在原假設成立的前提下,實驗所得出的結論對應的概率為多小時是不正常的

  • 雙側檢驗與單側檢驗

    原假設“B版本的跳出率不比A版本低”,即"B>=A?"。這樣的原假設是有方向性的,即大于或者小于,這種假設被稱為單側檢驗。

    原假設是"B=A?", 其備擇假設就是"B!=A", 稱為雙側檢驗

  • 假設檢驗的細節補充

    • 標準差與標準誤差的不同

    • 假設檢驗的檢驗指標和其對應的分布并不是局限的

    • 大數據不能替代統計推斷,也不能替代假設檢驗

    • 關注兩類錯誤

      拒絕了該接受的假設;接受了該拒絕的假設

      針對某個業務問題建立一個原假設,然后努力手機信息去挑戰它,如果沒有充分的證據證明原假設錯誤,那么就選擇接受它

5.2 利用方差分析辨別方案的有效性

  • 用戶激活措施的有效性判斷

    方差分析的前提

    • 每一組所對應的總體服從正態分布

    • 各總體的方差相同

      方差齊性分析檢驗

    • 從每一總體中抽取的樣本是相互獨立的

  • 運用置信區間增強數值估計的可靠性

    數據若服從T分布或者正態分布,它的95%置信區間就是點估計值加減1.96個標準差

  • 兩兩比較尋找最精確的結論

  • 理解方差分析的思維

5.4 淺談回歸分析的應用

  • 因變量與自變量的相關關系是回歸的基礎

    只有在相關系數搞得兩個指標之間建立回歸模型才有意義

  • 線性回歸建模的詳細過程

    1. 重視回歸建模前的分析過程

      數據分析,不僅僅是對建模后的結果進行解釋,而是從業務理解,建模前的邏輯推理,模型的適用性分析,數據認知等,直到建模后的結果解釋,一整套的過程

    2. 觀察因變量與自變量的相關關系并進一步清洗數據

    3. 回歸建模的結果怎么來

      最小二乘估計

    4. 利用現實數據建立模型并解讀結果

      • 查柜回歸模型的 Adjusted R Square,即擬合優度

      • 觀察方差分析板塊中的結果

      • 需要看回歸模型的系數

      • 利用多元回歸改進模型

  • 線性回歸分析的注意點

5.3 用時間序列分解模型觀察波動

  • 怎樣觀察時間序列數據

    • X軸和Y軸

    • 起點和終點

    • 觀察極值

    • 轉折點

    • 周期性

    • 波動性

    • 與參考性的對比

  • 何為時間序列分解

    • T 長期趨勢

    • S 季節變動

    • C 循環變動

    • I 隨機波動

  • 時間序列分解的步驟解析

    • 用移動平均數分離出顯性的周期性波動

    • 將業務周期效應和不規則變動進行區分

    • 觀察數據波動的拐點,將時間序列分段

    • 利用線性回歸,基于移動平均數計算長期趨勢

    • 分離出循環效應和隨機波動

時間序列數據的預測值就是 長期趨勢 + 循環效應 + 周期效應
  • 檢驗時間序列分解的效果

  • 時間序列分解方法的應用局限性

5.6 如何優化調查問卷

  • 態度型問題,增加選項以支撐量化分析

    包含中間項, 即填寫中間項的人表示沒有態度

  • 問題要有必要切貼合業務需求

  • 設置過濾器,識別無效回答

    設置互證的問題,即過濾器

  • 避免雙重問題和一重半問題

    雙重問題即一個提問隱含兩個問題

    一重半問題即某個選項實際上暗含了兩個甚至多個選擇

  • 動態地調查,設置問題庫以保障多次調查的質量

6 科學地決策

運籌學問題

6.1 從數據中形成決策

管理科學是將定量因素(quantitative factor) 有關的管理問題通過應用科學的方法(scientific approach)輔助制定管理決策(managerial decision making) 的一門科學(discipline)

6.2 線性規劃是什么

線性規劃是應用數據模型對所研究的問題進行表述

線性是指建模過程中的數學表達式的形式,即線性方程組

規劃就是要確定一組結論(一組數字),而不是一個結論(一個數字)

線性規劃一定要有目標,要有決策選項,要有約束條件,要有決策選項對目標的貢獻,要有量化指標或者數字依據

線性規劃只是規劃求解方法的一個細分項,還有整數規劃,非線性規劃,目標規劃

6.3 線性規劃建模的操作過程

  • 建立邏輯清晰的表格

  • 設置輸出單元格 目標單元格和可變單元格之間的運算關系

  • 設置線性規劃建模參數

6.4 如何從數據中形成決策

6.5 4類典型且實用的線性規劃模型

資源分配模型

成本收益平衡模型

網絡配送模型

混合模型

6.6 線性規劃模型小結

取決于我們有沒有能力將現實問題抽象為線性規劃問題

7 應用優化的工具

8 工作經驗雜談

對業務的理解和思考,永遠高于分析技術的選擇

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 年少的我們都很無謂,也許是因為無知懵懂也許是初生牛犢不怕虎,而人都要經歷三種階段,第一層是做個好人,保持善良勇敢,...
    遇見是意外之喜閱讀 319評論 0 0
  • 忽然之間和朋友聊起了初中時候的趣事,忽然之間想起了一個難忘的人…… 對于別的事情的回憶都很模糊卻唯獨對他的記憶...
    丸子_5c0a閱讀 128評論 0 0
  • 文/寸心悟? 2017這一年寫了很多文字也計劃了很多事情,但不置可否浪費了很多時間。很多計劃也沒有完成。 記得有人...
    寸心悟閱讀 960評論 5 18