????????數據分析小白往往在學了一大通數據分析工具,比如Excel/SQL/Python /java/SPSS什么的之后總感覺分析數據沒思路,一是沒有數據可供你分析,網上找的一堆數據都不是你“理想”的數據形態,因為學習用的數據好像都是恰好是解決學習的那個部分知識,別的問題都沒有,很“干凈";二是你自己爬數據或者找公司內部的數據,發現不是格式有問題就是完整度缺失,又或者沒法用一些成熟的方法去套。
????????這個時候可能就會想是不是自己還不會什么竅門或者方法論呢?一去4某度、某乎搜索會發現五花八門的答案,各種大拿的高贊答案說一樣都一樣,說不一樣好像都不一樣,甚至你會看到,有說統計方法論(比如描述分析、回歸分析、判別分析、時間序列)、商業方法論(PEST、波特五力模型、SWOT、4P、5W2H),還有說的簡單明了的,平均分析法、對比分析法、交叉分析法、趨勢分析法、結構分析法,也有名字高深點的,CRISP-DM、SEMMA、挖掘9律、DMAIC方法、AOSP-SM。
????????你會傻傻分不清到底誰說的才是對的呢?實際上,你的判斷需要基于對答主的職位和行業等背景,因為方法論本身是抽象的,具體到各個行業各個崗位經過長期實踐總結而來的一種流程或體系,所以因人而異,看你今后往哪個領域發展而著重搞懂這個領域的“方法論”。
????????從行業來說,商業領域和工業領域的數據類型、存儲方式、數據量不同,方法論自然不同。對于職位來說,對于業務運營只需要知道常用分析思路,比如對比、趨勢、占比、異常;對于初級數據分析師而言,先需要記住各種分析法,以及結合分析工具怎么實現;對于高級數據分析師而言,需要掌握商業方法論、回歸分析、判別分析、時間序列等等。
????????數據分析師和數據挖掘工程師又是不同的概念,對于數據挖掘工程師而言,不僅需要掌握各種數據挖掘模型,比如邏輯回歸、支持向量機、線性回歸、貝葉斯模型、決策樹模型、集成學習、神經網絡,還需要掌握真正的“方法論”,也就是CRISP-DM、SEMMA、挖掘9律等等。
????????為什么這么說?因為數據分析實際上并沒有業界普遍接受的方法論,甚至都不能叫方法論,只能說對某種分析方法大家各有各的叫法,比如數據分析師比較熟悉的理論——"AARRR模型",對用戶運營叫“增長模型”或是“海盜模型”,對數據分析師叫"AARRR模型"或漏斗模型,對數據產品經理來說叫“客戶生命周期模型”。甚至對這些方法來說只是解決某個局部問題的,相當于搭建一個網站,各種各樣的組件只能叫方法,有的人用了一系列組件把它總結一個流程,另一個也總結一個流程,但它們都不是公認的標準。然而對于數據挖掘(更常用于大數據或工業界),是有業界公認的完整解決項目標準的,比如CRISP-DM、SEMMA。做產品的、做用戶的、做數據的面向的對象不同,思路自然是不同的。所以作為數據分析小白應該正確甄別,各取所需。
????????下面我們詳細解釋一下我們能常見到的一些概念,你就能明白它們都是干什么用的,也就知道了你需要哪些、怎么用。
1.統計方法論(不是方法論,只是方法)
????????這類方法論主要包括描述分析、回歸分析、判別分析、時間序列分析、ARIMA模型、ABtest等從統計學來的術語。無論是數據分析還是數據挖掘都是從數據里發現某種規律,也就是從樣本數據(你所能得到的數據都是樣本數據)來推理總體數據(總體是永遠無法被全部看到的)的某些規律或特征,然后我們再利用這些規律來預測指導我們還未得到的但是想得到的另一部分樣本數據的特征,比如大數據殺熟,就是利用它掌握你已有的數據來判斷你的行為規律。而統計學是最早形成關于數據問題的研究的專門學問,所以現在很多方法大都來源于統計學。
????????賈俊平老師的《統計學》定義了數據分析方法可分為描述統計和推斷統計兩種方法,描述統計研究的是數據如何收集、處理、匯總、圖表描述、概括與分析等,推斷統計是研究如何利用樣本數據推斷總體數據。這可以說是最權威的定義了。
我們常說的描述統計分析都是這里的一方面,分別對數據的分布狀態、數字特征和隨機變量之間關系研究。我們需要根據數據類型和對象數量來確定所用方法。下面這張圖比較清楚展示各種方法:
????????統計推斷是基于描述性統計基礎上的方法,主要是參數估計、假設檢驗、隨機過程和判別分析,它解決問題的步驟與上面相比更加復雜和系統。下面這張圖展示了這些方法:
2.商業方法論(不是方法論,只是方法)
????????這類包含了很多成熟了方法模型,不僅有PEST、波特五力模型、SWOT、4P、5W2H,還有波士頓矩陣、SPACE矩陣、三四矩陣等等,這些分析模型大都是商業實踐總結出的經典模型,它們的實用性和針對性很強,從品牌、營銷、管理、戰略、用戶角度提煉出的抽象模型。它給我們提供了分析問題的思路,但是對大部分數據從業者來說是用不到的,而針對咨詢公司或大公司的管理者。這就是這些分析方法對數據從業者的定位,大家都需要了解,但是一輩子可能都用不到。還有一個問題是這些模型雖然也是基于數據,但是數據從業者計算、挖掘這種利用數據,而是管理者或專家基于數據的經驗判斷。下面這張圖展示了這些經典方法:
????????當然,如果你是”PPT“級別的數據分析師,這些商業模型套路是要準備的,顯得高大上,但是往往不“實用”。
3.常用“方法論”(不是方法論,只是方法)
????????接下來就是數據分析小白耳熟能詳的常用“方法論”了。如果功課做得好的,張口就來——平均分析法、對比分析法、交叉分析法、趨勢分析法、結構分析法、異常分析法、關聯分析、聚類分析、漏斗分析、杜邦分析等等,還有很多。對于運營、HR、財務、數據分析師等來說最容易使用也是最常使用的。但是有一個問題是什么時候用什么,該用哪些不該用哪些常常會讓人疑惑,也沒人告訴你有什么標準。但是作為數據分析自己還是需要一個分類標準,把經常性的方法整理歸類,方便日后再使用,你有了全部分析方法就會避免遺漏了分析角度。下面這張圖展示了這些方法的應用角度:
????????我們在分析數據時,往往應該從描述、比較、趨勢、占比、相關等角度進行,而且這些角度也不是孤立的,會產生多重作用和功能。我們分析趨勢也會進行比較,看結構時也會進行比較或者看趨勢。
3.挖掘方法論(業界公認的標準,是方法論)
????????厘清了上面的各種“方法論”之后,我們再來看實際“方法論”長什么樣。不同于上面五花八門的方法,下面這些數量不多,但是是用的比較成熟的理論。主要有CRISP-DM、SEMMA、挖掘9律、DMAIC方法、AOSP-SM等。先來看一個數據:
????????這張圖是著名的數據科學技術網站KDnuggets上民意調查得到的關于數據分析、數據挖掘的方法論(methodology)的排名。可以看到排在第一位的就是CRISP-DM,第三位SEMMA,第二位的“My own"表示的是自己的方法論。下面這張圖左邊是另一個數據科學網站的排名,你也可以看到CRISP-DM排在第一位,而且長期排在第一位。可以看到其實對于方法論,數據從業者其實是有特定指認的,不是所有的方法都叫方法論。
????????什么是CRISP-DM?它的全稱(cross-industry standard process for data mining), 即為"跨行業數據挖掘標準流程"。此KDD過程模型于1999年歐盟機構聯合起草的數據挖掘項目的標準化方法,也是業內公認的數據挖掘與分析的通用方法論。它的主要流程如下圖展示:
????????通過了解CRISP-DM,我們應該明白了所謂的方法論是什么,它是一個完整、通用、可行的流程和框架,無論是數據分析還是數據挖掘,都有這么一個商業理解、數據收集、數據處理、分析/建模、應用/部署的過程。
????????實際上,我們想找方法論無非就是想搞清楚我該做什么、怎么做、怎么確保它是正確的,也就是說想建立一套自己的分析/挖掘套路,那么其實對于數據分析師還是數據挖掘工程師都可以從先這個流程建立自己的框架。然后需要用到什么具體的方法可以從上面找,一步一步組合,就可以形成自己的方法論。下面結合上面的各種分析方法提供了一個簡要的流程框架:
????????需要注意的是,CRISP-DM是一個環形過程,而這個過程雖然是是線性過程,但實際上也需要反反復復驗證和調整。這里所有介紹都只是框架,把幾乎所有分析、挖掘方法都囊括進來。我將在后續文章里逐一介紹這些方法和模型如何使用,并且還會有完整案例。
????????最后歡迎大家關注我,我是拾陸,搜索公眾號“二八Data”,更多技術干貨持續奉獻。