數據分析方法論or數據挖掘方法論,搞數據你會多少種?

????????數據分析小白往往在學了一大通數據分析工具,比如Excel/SQL/Python /java/SPSS什么的之后總感覺分析數據沒思路,一是沒有數據可供你分析,網上找的一堆數據都不是你“理想”的數據形態,因為學習用的數據好像都是恰好是解決學習的那個部分知識,別的問題都沒有,很“干凈";二是你自己爬數據或者找公司內部的數據,發現不是格式有問題就是完整度缺失,又或者沒法用一些成熟的方法去套。

????????這個時候可能就會想是不是自己還不會什么竅門或者方法論呢?一去4某度、某乎搜索會發現五花八門的答案,各種大拿的高贊答案說一樣都一樣,說不一樣好像都不一樣,甚至你會看到,有說統計方法論(比如描述分析、回歸分析、判別分析、時間序列)、商業方法論(PEST、波特五力模型、SWOT、4P、5W2H),還有說的簡單明了的,平均分析法、對比分析法、交叉分析法、趨勢分析法、結構分析法,也有名字高深點的,CRISP-DM、SEMMA、挖掘9律、DMAIC方法、AOSP-SM。

????????你會傻傻分不清到底誰說的才是對的呢?實際上,你的判斷需要基于對答主的職位和行業等背景,因為方法論本身是抽象的,具體到各個行業各個崗位經過長期實踐總結而來的一種流程或體系,所以因人而異,看你今后往哪個領域發展而著重搞懂這個領域的“方法論”。

????????從行業來說,商業領域和工業領域的數據類型、存儲方式、數據量不同,方法論自然不同。對于職位來說,對于業務運營只需要知道常用分析思路,比如對比、趨勢、占比、異常;對于初級數據分析師而言,先需要記住各種分析法,以及結合分析工具怎么實現;對于高級數據分析師而言,需要掌握商業方法論、回歸分析、判別分析、時間序列等等。

????????數據分析師和數據挖掘工程師又是不同的概念,對于數據挖掘工程師而言,不僅需要掌握各種數據挖掘模型,比如邏輯回歸、支持向量機、線性回歸、貝葉斯模型、決策樹模型、集成學習、神經網絡,還需要掌握真正的“方法論”,也就是CRISP-DM、SEMMA、挖掘9律等等。

????????為什么這么說?因為數據分析實際上并沒有業界普遍接受的方法論,甚至都不能叫方法論,只能說對某種分析方法大家各有各的叫法,比如數據分析師比較熟悉的理論——"AARRR模型",對用戶運營叫“增長模型”或是“海盜模型”,對數據分析師叫"AARRR模型"或漏斗模型,對數據產品經理來說叫“客戶生命周期模型”。甚至對這些方法來說只是解決某個局部問題的,相當于搭建一個網站,各種各樣的組件只能叫方法,有的人用了一系列組件把它總結一個流程,另一個也總結一個流程,但它們都不是公認的標準。然而對于數據挖掘(更常用于大數據或工業界),是有業界公認的完整解決項目標準的,比如CRISP-DM、SEMMA。做產品的、做用戶的、做數據的面向的對象不同,思路自然是不同的。所以作為數據分析小白應該正確甄別,各取所需。

????????下面我們詳細解釋一下我們能常見到的一些概念,你就能明白它們都是干什么用的,也就知道了你需要哪些、怎么用。

1.統計方法論(不是方法論,只是方法)

????????這類方法論主要包括描述分析、回歸分析、判別分析、時間序列分析、ARIMA模型、ABtest等從統計學來的術語。無論是數據分析還是數據挖掘都是從數據里發現某種規律,也就是從樣本數據(你所能得到的數據都是樣本數據)來推理總體數據(總體是永遠無法被全部看到的)的某些規律或特征,然后我們再利用這些規律來預測指導我們還未得到的但是想得到的另一部分樣本數據的特征,比如大數據殺熟,就是利用它掌握你已有的數據來判斷你的行為規律。而統計學是最早形成關于數據問題的研究的專門學問,所以現在很多方法大都來源于統計學。

????????賈俊平老師的《統計學》定義了數據分析方法可分為描述統計和推斷統計兩種方法,描述統計研究的是數據如何收集、處理、匯總、圖表描述、概括與分析等,推斷統計是研究如何利用樣本數據推斷總體數據。這可以說是最權威的定義了。

我們常說的描述統計分析都是這里的一方面,分別對數據的分布狀態、數字特征和隨機變量之間關系研究。我們需要根據數據類型和對象數量來確定所用方法。下面這張圖比較清楚展示各種方法:

????????統計推斷是基于描述性統計基礎上的方法,主要是參數估計、假設檢驗、隨機過程和判別分析,它解決問題的步驟與上面相比更加復雜和系統。下面這張圖展示了這些方法:

2.商業方法論(不是方法論,只是方法)

????????這類包含了很多成熟了方法模型,不僅有PEST、波特五力模型、SWOT、4P、5W2H,還有波士頓矩陣、SPACE矩陣、三四矩陣等等,這些分析模型大都是商業實踐總結出的經典模型,它們的實用性和針對性很強,從品牌、營銷、管理、戰略、用戶角度提煉出的抽象模型。它給我們提供了分析問題的思路,但是對大部分數據從業者來說是用不到的,而針對咨詢公司或大公司的管理者。這就是這些分析方法對數據從業者的定位,大家都需要了解,但是一輩子可能都用不到。還有一個問題是這些模型雖然也是基于數據,但是數據從業者計算、挖掘這種利用數據,而是管理者或專家基于數據的經驗判斷。下面這張圖展示了這些經典方法:

????????當然,如果你是”PPT“級別的數據分析師,這些商業模型套路是要準備的,顯得高大上,但是往往不“實用”。

3.常用“方法論”(不是方法論,只是方法)

????????接下來就是數據分析小白耳熟能詳的常用“方法論”了。如果功課做得好的,張口就來——平均分析法、對比分析法、交叉分析法、趨勢分析法、結構分析法、異常分析法、關聯分析、聚類分析、漏斗分析、杜邦分析等等,還有很多。對于運營、HR、財務、數據分析師等來說最容易使用也是最常使用的。但是有一個問題是什么時候用什么,該用哪些不該用哪些常常會讓人疑惑,也沒人告訴你有什么標準。但是作為數據分析自己還是需要一個分類標準,把經常性的方法整理歸類,方便日后再使用,你有了全部分析方法就會避免遺漏了分析角度。下面這張圖展示了這些方法的應用角度:

????????我們在分析數據時,往往應該從描述、比較、趨勢、占比、相關等角度進行,而且這些角度也不是孤立的,會產生多重作用和功能。我們分析趨勢也會進行比較,看結構時也會進行比較或者看趨勢。

3.挖掘方法論(業界公認的標準,是方法論)

????????厘清了上面的各種“方法論”之后,我們再來看實際“方法論”長什么樣。不同于上面五花八門的方法,下面這些數量不多,但是是用的比較成熟的理論。主要有CRISP-DM、SEMMA、挖掘9律、DMAIC方法、AOSP-SM等。先來看一個數據:

????????這張圖是著名的數據科學技術網站KDnuggets上民意調查得到的關于數據分析、數據挖掘的方法論(methodology)的排名。可以看到排在第一位的就是CRISP-DM,第三位SEMMA,第二位的“My own"表示的是自己的方法論。下面這張圖左邊是另一個數據科學網站的排名,你也可以看到CRISP-DM排在第一位,而且長期排在第一位。可以看到其實對于方法論,數據從業者其實是有特定指認的,不是所有的方法都叫方法論。

????????什么是CRISP-DM?它的全稱(cross-industry standard process for data mining), 即為"跨行業數據挖掘標準流程"。此KDD過程模型于1999年歐盟機構聯合起草的數據挖掘項目的標準化方法,也是業內公認的數據挖掘與分析的通用方法論。它的主要流程如下圖展示:

????????通過了解CRISP-DM,我們應該明白了所謂的方法論是什么,它是一個完整、通用、可行的流程和框架,無論是數據分析還是數據挖掘,都有這么一個商業理解、數據收集、數據處理、分析/建模、應用/部署的過程。

????????實際上,我們想找方法論無非就是想搞清楚我該做什么、怎么做、怎么確保它是正確的,也就是說想建立一套自己的分析/挖掘套路,那么其實對于數據分析師還是數據挖掘工程師都可以從先這個流程建立自己的框架。然后需要用到什么具體的方法可以從上面找,一步一步組合,就可以形成自己的方法論。下面結合上面的各種分析方法提供了一個簡要的流程框架:

????????需要注意的是,CRISP-DM是一個環形過程,而這個過程雖然是是線性過程,但實際上也需要反反復復驗證和調整。這里所有介紹都只是框架,把幾乎所有分析、挖掘方法都囊括進來。我將在后續文章里逐一介紹這些方法和模型如何使用,并且還會有完整案例。

????????最后歡迎大家關注我,我是拾陸,搜索公眾號“二八Data”,更多技術干貨持續奉獻。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,936評論 6 535
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,744評論 3 421
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,879評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,181評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,935評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,325評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,384評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,534評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,084評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,892評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,623評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,322評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,735評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,990評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,800評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,084評論 2 375

推薦閱讀更多精彩內容

  • 雖然說方法論在工業大數據的重要性,不及業務行業理解那么重要,但是對于方法論的理解,尤其是澄清對于一些細節的誤解,對...
    黑盒理論閱讀 679評論 0 0
  • 不要用戰術上的勤奮來掩蓋戰略上的懶惰——雷軍 在數據分析這件事上,數據分析方法論就是戰略,數據分析法就是戰術。對于...
    辰智閱讀 1,632評論 0 3
  • 做大數據分析的三大作用,主要是:現狀分析、原因分析和預測分析。什么時候開展什么樣的數據分析,需要根據我們的需求和目...
    UIleader閱讀 1,329評論 0 1
  • 數據分析過程: 1、以事實為基礎提出假設,界定問題 2、將問題細分,形成互不重疊的子問題 3、進行數據收集與分析,...
    田浩沛閱讀 849評論 0 4
  • 作者:斌迪 在進入正題前,先來說說何為數據分析方法論。 方法論,我們可以理解為一種以解決問題為目標的理論體系或系統...
    sase_75de閱讀 454評論 0 0