????????很多轉行數據分析,學會一大堆數據分析工具,從Excel到Python,從PowerBI到Pyecharts,但是分析數據還是無從下手。究竟要分析什么,接著分析什么,得出什么結論,常常沒有頭緒。而且在換工作面試時,除了SQL,問的最多的就是你會什么模型,請你詳細解釋一下怎么用。
????????做過功課的,回答PEST模型、SWOT模型、波士頓矩陣、AARRR模型、RFM模型、帕累托模型這些說老掉牙的內容了。不是說它們沒用,而是:一、這些東西沒什么新意,做數據分析師是干嘛的?就是要你從數據里找出別人不知道的東西,大家都知道還需要你分析什么?畢竟你需要會點別人不會的;二是對不同的行業、不同的公司、不同的發展階段、不同的場景適用的模型都不一樣,你沒搞清你要工作的這家公司性質就胡亂說的話反而讓人家知道你很“虛”;三是一些模型作為數據分析師身份來說,既沒法實際使用,也沒機會去用,比如波士頓矩陣、PEST等等。因為這些常常是公司管理層才有資格用,而且他們不是基于數據,更多是基于經驗判斷。如果你來用,你的結論能可信嗎?
????????說到底還是你的分析知識工具庫太少了。當你面對數據的時候,必須能夠快速判斷可以做什么處理、得出什么結論、結論是否有可信度這樣一個分析體系。我們所說的“模型”就是這樣一個體系,實際上模型是指對于某個問題或客觀事物、規律進行抽象后的一種形式化表達方式,模型分類有很多種,有數學模型、程序模型、邏輯模型、方法模型、數據模型、算法模型、管理模型(來自"MBA智庫百科"),而我們這里所說的是“模型”不屬于任何一類,對能納入到數據分析決策中的都是我們需要的模型,主要包括數學模型、數據模型、算法模型、管理模型中的具體模型。
????????下面將要介紹的是經過實踐檢驗的、適用于數據分析師的模型。本文不會詳細解釋每個模型的細節,只是企圖先搭建一個框架,知道有哪些模型、什么場景下使用、說得清主要環節,后續會一一結合可視化工具PowerBI或Python具體實踐。換句話說,你知道的足夠多才有優勢,具體的用什么學什么就可以了。
????????接下來從利用數據程度的角度,來介紹28種模型。
第一類,基于理論邏輯的弱數據商業模型
????????這一類模型來源于市場營銷、戰略管理領域,是成熟商業公司、咨詢公司總結提煉的經典模型。面向對象往往是總裁、CEO,他們對此類模型的認知更加深刻,也只有他們才能推動這類模型結論的實施。對于數據分析師來說,在你的分析過程中可以使用,但是往往需要行業專家的指點,因為這些模型是弱數據支撐型,你沒有行業和專業認知得出的結論難具說服力。
1.PEST模型
????????內容:PEST模型或者PESTEL模型是從宏觀角度出發分析企業的主要外部環境因素,應用于公司設立或重大業務轉折時期。
????????使用對象:公司管理層、戰略咨詢專家、行業分析研究員。
????????缺陷:該模型角度看似是合理的,但實際上少數幾個因素就能決定行業的走向,這些因素影響多大沒有客觀衡量標準,使用時需要強有力的解釋。
2.波特五力模型
????????內容:這是用于行業戰略制定的競爭力分析模型,應用于處于穩定成熟期的公司,無論是提供服務還是產品,此時已占有市場份額,但面臨發展威脅。主要來自五種力量:同行業內現有競爭者的競爭能力、潛在競爭者進入的能力、替代品的替代能力、供應商的討價還價能力與購買者的議價能力。
????????使用對象:公司管理層、戰略咨詢專家。
????????缺陷:該模型更多是一種理論思考工具,而非可以實際操作的戰略工具。因為該模型基于制定戰略者需要了解整個行業的信息,顯然現實中是難于做到的;同行業之間只有競爭關系,沒有合作關系。但現實中企業之間存在多種合作關系。
3.SPACE矩陣
????????內容:SPACE矩陣有四個象限分別表示企業采取的進攻、保守、防御和競爭四種戰略模式。這個矩陣的兩個數軸分別代表了企業的兩個內部因素: 財務態勢(financial position,FP)和競爭優勢(competitive position,CP);兩個外部因素: 環境穩定性態勢(stability position,SP)和產業態勢(industry position,IP)。這四個因素對于確定企業總體戰略地位起決定性作用。
????????使用對象:公司管理層、戰略咨詢專家
????????缺陷:調研打分數據,考察因素固定,如果想靈活變動缺乏理論支持,應用到具體案例很難解釋。
4.SCP分析模型
????????內容:SCP 框架的基本涵義是,市場結構決定企業在市場中的行為,而企業行為又決定市場運行在各個方面的經濟績效。應用在行業或者企業受到表面沖擊時,分析可能的戰略調整及行為變化。
????????使用對象:公司管理層、戰略咨詢專家
????????缺陷:該框架對行業的假設基本上是靜態的,但實際行業發展是隨時變化的;需精通行業經驗。
5.戰略鐘模型
????????內容:戰略鐘模型將產品/服務價格和產品/服務附加值綜合在一起考慮,企業實際上沿著以下8種途徑中的一種來完成企業經營行為。其中一些的路線可能是成功的路線,而另外一些則可能導致企業的失敗。
????????使用對象:公司管理層
????????缺陷:該模型也是競爭戰略選擇工具,但是比前面幾個更好操作,更有針對性,但是數據分析師并不經常用得到。
6.三四矩陣
????????內容:在一個穩定的競爭市場中,參與市場競爭的參與者一般分為三類,領先者、參與者、生存者。優勝者一般是指市場占有率在15%以上,可以對市場變化產生重大影響的企業,如在價格、產量等方面;參與者一般是指市場占有率介于5%~15%之間的企業,這些企業雖然不能對市場產生重大的影響,但是它們是市場競爭的有效參與者;生存者一般是局部細分市場填補者,這些企業的市場份額都非常低,通常小于5%。這個模型用于分析一個成熟市場中企業的競爭地位。
????????使用對象:公司管理層、行業研究員
????????缺陷:由內容可知該模型一般用于分析競爭地位來確定自己接下來戰略,僅具有參考價值。
????????以上這些模型(1-6)都是戰略管理類模型,應用對象和使用對象都是特定的,使用要求較高。
7.4P/4C理論模型
????????內容:4P模型是營銷理論模型,即Product、Price、Place、Promotion。取其開頭字母,意思為產品,價格,地點,促銷。4C模型是從前者(站在企業立場)轉到客戶立場。
8.波士頓矩陣
????????波士頓矩陣認為一般決定產品結構的基本因素有兩個:即市場引力與企業實力。最主要的是反映市場引力的綜合指標——銷售增長率,這是決定企業產品結構是否合理的外在因素。企業實力包括市場占有率,技術、設備、資金利用能力等,其中市場占有率是決定企業產品結構的內在要素,它直接顯示出企業競爭實力。銷售增長率與市場占有率既相互影響,又互為條件:市場引力大,市場占有高,可以顯示產品發展的良好前景,企業也具備相應的適應能力,實力較強;如果僅有市場引力大,而沒有相應的高市場占有率,則說明企業尚無足夠實力,則該種產品也無法順利發展。相反,企業實力強,而市場引力小的產品也預示了該產品的市場前景不佳。通過以上兩個因素相互作用,會出現四種不同性質的產品類型,形成不同的產品發展前景:①銷售增長率和市場占有率“雙高”的產品群(明星類產品);②銷售增長率和市場占有率“雙低”的產品群(瘦狗類產品);③銷售增長率高、市場占有率低的產品群(問題類產品);④銷售增長率低、市場占有率高的產品群(金牛類產品)。
9.GE行業吸引力矩陣
????????該模型是對波士頓矩陣的改進,應用于投資組合、業務組合的企業經營模型。這個矩陣可以更細化的說明產品所在行業的狀況(比如波士頓矩陣中,偏向于現金牛的瘦狗中的產品,并不一定制定撤退戰略就是妥善的。并且就算明星業務中,靠上的與靠下的所需要投入的投資比重也是不一樣的)。九宮格中一旦企業在左上方三個格,一般情況下采用增長戰略,右下方一般采用停止。對角一般采用調整。
10.KANO模型
??????? KANO 模型是對用戶需求分類和優先排序的有用工具,以分析用戶需求對用戶滿意的影響為基礎,體現了產品性能和用戶滿意之間的非線性關系。應用于對顧客的不同需求進行區分處理,幫助企業找出提高企業顧客滿意度的切入點。根據不同類型的屬性特性與顧客滿意度之間的關系分為五類:基本(必備)型屬性——Must-be Quality/ Basic Quality 期望(意愿)型屬性——One-dimensional Quality/ Performance Quality 興奮(魅力)型屬性—Attractive Quality/ Excitement Quality 無差異型屬性——Indifferent Quality/Neutral Quality 反向(逆向)型屬性——Reverse Quality,亦可以將 'Quality' 翻譯成“質量”或“品質”。前三種需求根據績效指標分類就是基本因素、績效因素和激勵因素。
????????缺陷:需求會因人而異,要做的是滿足目標用戶人群中多數人的需求;需求會因為文化差異而不同,如國內的互聯網產品比國外的互聯網產品要做得好;需求會隨著時間變化。昨天的期望型需求,甚至魅力型需求,到今天可能已變成了必備型需求。
????????以上這些模型(7-10)都是市場、營銷模型,當你知道這些模型基本內容和用法,就知道使用模型得知道它的使用背景和定義域,并不是凡是模型就被數據分析拿來用。
????????接下來這幾個模型是數據分析師最常使用,也是最有效的工具模型。說它們是模型,實際是一種方法,它提供了解決問題的思路。
11.SWOT分析法
??????? SWOT分析方法從某種意義上來說隸屬于企業內部分析方法,即根據企業自身的條件在既定內進行分析。但是由于它的概念并不限定于企業分析,在解決任何問題都是可以拿來借鑒使用的。它將與研究對象密切相關的各種主要內部優勢S(strengths)、劣勢W (weaknesses)和外部的機會O (opportunities)和威脅T (threats)等,通過調查列舉出來,并依照矩陣形式排列,然后用系統分析的思想,把各種因素相互匹配起來加以分析,從中得出一系列相應的結論,而結論通常帶有一定的決策性。
12.邏輯樹分析法
????????把一個已知問題當成樹干,然后開始考慮這個問題和哪些相關問題或者子任務有關。每想到一點,就給這個問題(也就是樹干)加一個“樹枝”,并標明這個“樹枝”代表什么問題。一個大的“樹枝”上還可以有小的“樹枝”,如此類推,找出問題的所有相關聯項目。邏輯樹主要是幫助你理清自己的思路,不進行重復和無關的思考。
13.5W2H分析法
????????這種方法又叫七問分析法,用五個以W開頭的英語單詞和兩個以H開頭的英語單詞進行設問,發現解決問題的線索??梢哉f是最簡單又高效的數據分析方法。
(1)WHAT——是什么?目的是什么?做什么工作?
(2)WHY——為什么要做?可不可以不做?有沒有替代方案?
(3)WHO——誰?由誰來做?
(4)WHEN——何時?什么時間做?什么時機最適宜?
(5)WHERE——何處?在哪里做?
(6)HOW ——怎么做?如何提高效率?如何實施?方法是什么?
(7)HOW MUCH——多少?做到什么程度?數量如何?質量水平如何?費用產出如何?
14.麥肯錫七步法
????????這是麥肯錫公司根據他們做過的大量案例,總結出解決問題的思路,它和5W2H同樣是在面對突發狀況時最有效的思路。
????????以上(11-14)四個模型不同于前面的商業模型,而是思維模型。
15.消費者行為模型(從AIDMA、AISAS演變到SICAS)
1.AIDMA法則
??????? AIDMA法則,我們可以理解為,自消費者看到廣告信息開始,直至進行消費購買行為的心理引導過程。首先讓潛在消費者“注意”到廣告信息,并使其感到“興趣”而持續完成廣告信息的接收,然后產生嘗試購買或體驗的“欲望”,進而使潛在消費者對信息的“記憶”更加深刻,直至“行動”轉化成為購買行為。
圖片來源于網絡
2.AISAS法則
????????移動互聯網時代的到來使大家認識到,需要更加精準有效的獲取目標消費者的注意,可以通過用戶畫像實現興趣的精細化管理。進而達成,用戶向著主動利用搜索引擎探索、行動,并產生價值的分享擴散。而借助移動互聯網的崛起,新媒體也成為了整合營銷傳播中的又一主力媒體渠道。
圖片來源于網絡
3.SICAS法則
??????? SICAS建立了一套開放式的營銷效果評估模型,幫助品牌商家解決“我知道我的廣告費浪費了一半,但是卻不知道哪一半被浪費了!”,品牌商家首先要基于互聯網的產品形態建立全網觸點來實時感知消費者行為動態來敏捷指導、評估營銷決策,讓品牌信息能及時出現在消費者會關心會消費信息的地方,精細化銷售效果評估數據精確考核ROI,品牌商家不僅要關注消費者的分享行為,還要參與、引導消費者的分享行為。
圖片來源于網絡
第二類 基于指標計算組合的數據商業模型
16.用戶增長模型(AARRR模型/AIPL模型)
????????介紹完上面消費者行為三個模型后,再看下面AARRR模型,你會發現很眼熟,這也是現在凡是給你推薦模型的都會說到的用戶增長模型,又叫海盜模型、漏斗模型。
2.AIPL模型
說到AARRR模型不得不說網傳阿里巴巴所用的電商分析模型AIPL,它也來自上面的AIDMA營銷模型的變種。
A(Awareness,認知):品牌認知人群。包括被品牌廣告觸達和品類詞搜索的人。
I(Interest,興趣):品牌興趣人群。包括廣告點擊、瀏覽品牌/店鋪主頁、參與品牌互動、瀏覽產品詳情頁、品牌詞搜索、領取試用、訂閱/關注/入會、加購收藏的人。
P(Purchase,購買):品牌購買人群,指購買過品牌商品的人。
L(Loyalty,忠實):品牌忠誠人群,包括復購、評論、分享的人。
17.用戶價值模型(RFM模型)
??????? RFM模型是衡量客戶價值和創利能力的重要工具和標準,該模型通過一個客戶的近期購買行為R、購買的總體頻率F和花了多少錢M三項指標來描述該客戶的價值。
????????以上三個指標會將維度再細分出5份,這樣就能夠細分出5x5x5=125類用戶,再根據每類用戶精準營銷……顯然125類用戶已超出普通人腦的計算范疇了,更別說針對125類用戶量體定制營銷策略。實際運用上,我們只需要把每個維度做一次兩分即可,這樣在3個維度上我們依然得到了8組用戶。這樣,之前提的四個問題,就能很容易被解讀(編號次序RFM,1代表高,0代表低)?
重要價值客戶(111):最近消費時間近、消費頻次和消費金額都很高
重要保持客戶(011):最近消費時間較遠,但消費頻次和金額都很高,說明這是個一段時間沒來的忠誠客戶,我們需要主動和他保持聯系。
重要發展客戶(101):最近消費時間較近、消費金額高,但頻次不高,忠誠度不高,很有潛力的用戶,必須重點發展。
重要挽留客戶(001):最近消費時間較遠、消費頻次不高,但消費金額高的用戶,可能是將要流失或者已經要流失的用戶,應當給予挽留措施。
18.帕累托模型
????????很多人都知道世界上20%的人掌握了80%的財富,這就是著名的二八定律,它又叫帕累托法則,還衍生出了ABC分類法。現在主要用于產品分析、庫存管理、質量管理。
第三類 基于運籌/統計的強數據數學模型
19.ARIMA模型、GARCH模型
????????對某一個或者一組變量進行觀察測量,將在一系列時刻所得到的離散數字組成的序列集合,稱之為時間序列。時間序列分析是根據系統觀察得到的時間序列數據,通過曲線擬合和參數估計來建立數學模型的理論和方法。時間序列分析常用于國民宏觀經濟控制、市場潛力預測等方面。ARIMA模型,是實際案例中最常用的模型。
20.線性規劃模型
????????線性規劃模型是指一種特殊形式的數學規劃模型,即目標函數和約束條件是待求變量的線性函數、線性等式或線性不等式的數學規劃模型。它所描述的典型問題是怎樣以最優的方式在各項活動中間分配有限資源的問題。應用于經濟分析、經營管理中,為合理地利用有限的人力、物力、財力等資源作出的最優決策。下圖中是要找到最佳虛線的表達式來使得實心面積最大,約束條件就是組成實心面積的直線方程。
????????從實際問題中建立線性規劃模型一般有以下三個步驟:1.根據影響所要達到目的的因素找到決策變量;2.由決策變量和所在達到目的之間的函數關系確定目標函數;3.由決策變量所受的限制條件確定決策變量所要滿足的約束條件。
第四類 基于機器學習的強數據算法模型
21.線性回歸模型(linear Regression,LR)
????????線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法,運用十分廣泛。其表達形式為y = w'x+e,e為誤差服從均值為0的正態分布。通過最小二乘法或者梯度下降法求解出系數矩陣,從而得到線性回歸方程來對新樣本進行預測。線性回歸模型與線性規劃模型有什么區別呢?其實都是在求線性方程表達式,但是應用對象不同、求解目的不同。
????????上面這個模型表示的是通過圖上的數據(過去數據)來擬合一個線性回歸表達式,如果給你新的數據x,可以通過這個表達式預測出y是多少。
22.邏輯回歸(Logistic Regression, LR)模型
????????邏輯回歸模型是在線性回歸的基礎上加了一個激活函數SGMOID,使得原本回歸求得的結果縮小到(0,1)之間,從而實現分類預測的作用。
????????從上面左圖可以看到深藍色點代表類別為0,淺藍色點代表類別為1,雖然我們將這些點畫出散點圖也通過顏色知道它的類別,但是我們用什么標準還衡量它為什么為0或1呢?如果來了新的點怎么預測他的類別呢?靠直觀感受是不行的,因此用數學表達式來作為衡量模型:
????????第一步,對左邊的數據點擬合一個線性回歸表達式;
????????第二步,將表達式整理變換得到z,再將z帶入到SIGMOD函數(也叫激活函數)中,得到0到1之間的值,將這個值看作概率,離1越近表示越有可能分類為1,離0越近表示越有可能分類為0。
????????其實用左圖直觀感受可知直線上方的點離直線越遠,它被分為1或0的證據就越強烈。
23.KNN模型(K個最近鄰nearest neighbor)
??????? KNN模型的模型思想可以簡單歸結為“物以類聚,人以群分”,上面邏輯回歸對分類不同的點通過SIGMOD函數來區分。而這個模型則是通過點與點之間距離遠近來區分。對上面同一批數據點用KNN來劃分:
????????第一步,先選取n個中心點(一般有多少個類選多少個,當然也可以選擇多個,這里選4個),計算所有數據與這四個點的距離;
????????第二步,將每個距離從大到小排序,越大離這個點近,越有可能跟這個中心點類別相同,我們就把中心點的類別賦值給這個點。但是不是簡單通過一個中心點判斷,你可以選擇K個離它最近的中心點,采用投票法或平均法得出它的類別。
????????上面的圖表名,KNN把大部分點都能分對,但是對處于兩圓交界或者異常點區分能力很差。所以在實際分類建模時一般效果不如邏輯回歸。
24.貝葉斯模型(Bayes)
????????這是來自統計學的數據分析模型,基于著名的貝葉斯定理。在我們日常做決策的時候,往往都會有這樣一種感覺,當我對問題一無所知的時候,對做決策毫無把握,全靠猜,但是給了你一些信息之后,你對某個答案的把握就大一些。但是怎么衡量你的把握大小呢?貝葉斯定理說的就是你這個做決策過程的量化。
????????這個模型沒有明確的表達形式,它依據的就是圖上的貝葉斯定理公式。它主要應用于隨機變量x,y為離散型變量。
25.SVM模型(支持向量機,support vector machine)
????????這是來自數學領域的數據分析模型,是計算復雜度、理解復雜度都很高的模型。
????????與線性回歸一樣,都是求出一條直線作為分割線,但是這個表達式的求解不是用線性回歸的方式,這里的系數(1.088,-1)也是錯誤的,實際是未知的,可以用(a,b)代替;它也像線性規劃問題,需要同時滿足約束條件才能求出系數,但是又不是簡單的線性約束。
????????那它是怎么求出這個表達式的系數(a,b)呢?,實際上是通過計算離分割線最近的點,使得這些點到分割線的距離之和最大,上面的圖可以看到計算點到直線的距離就是關于系數(a,b)的函數。為什么要使得這些點到分割線的距離之和最大?這些點是哪些點?
????????上面這張圖可以看到,從分割線1到分割線3,隨著分割線的不斷移動,點到直線的距離之和越來越?。▓D上可能不直觀但是實際計算可知),但是分類的錯誤數卻是在增加的,這說明在這個二維平面上有很多可以將這些點分隔開的線,但是把點盡可能多的分開的線只有一條,那就是點到直線的距離之和最小的直線,而這些點叫支持向量,它們是在計算過程中不斷迭代找到的。
????????實際上后面的求解過程還很復雜,在這里無法一一解釋清楚,感興趣的可以進一步了解。通過與前面幾個分類模型相比,你也可以看到它不僅找出分割線,還力求找到最佳的那一條,因此它在深度學習模型研究大火之前是最佳數據挖掘模型之一。
26.決策樹模型(decision tree,DT)
????????決策樹模型的使用的原理跟貝葉斯定理很像,但是它使用的不是條件概率而是條件經驗熵,它也不是像貝葉斯模型那樣一次性求出所有條件概率乘積,得到結果為1的概率和結果為0的概率,兩者相比較,而是一步一步篩選哪些條件是最有效的,其次是哪個,無效的條件就丟掉,這樣既提高準確率,也提高效率。這跟我們的決策行為也是相符的,雖然我們從一無所知到知道一些信息,但是對這些信息也需要加以甄別,哪個是對結論支持最有力的證據才使用哪個。
????????可以看到決策樹模型和之前的決策樹七步法思考方式有相似性,都是一步一步判斷得到最終結論,但是前者是感性判斷,這里是通過數值計算。
27.集成學習模型(ensemble learning,EL)
????????集成學習模型實際上不是具體算法,而是一種策略,是在前面幾種模型基礎上集合而成的,前面都是單個模型,而集成學習就是將多個單模型放在一起進行分類預測。俗話說就是:“三個臭皮匠定個諸葛亮”。一個單模型可能預測不準,但是多個模型通過投票或者平均,就能提高分類準確率。集成模型也是在深度學習模型研究大火之前是最佳數據挖掘模型之一。
28.神經網絡模型(neural network,NN)
????????神經網絡模型源自計算機科學家對生物學領域的神經網絡得到的啟發,人類大腦有著復雜的神經網絡,每個神經元連著很多神經,當腦子有一個想法會產生電信號,電信號在神經中傳導到達神經元經過神經元細胞的處理轉化得到另一個信號再通過神經網絡傳給下一個神經元,這樣一層一層傳遞就能調動身體各部分配合來完成動作。
????????因此,神經網絡把每個因素(又叫特征、隨機變量,就是前面例子說的x,y)當做電信號,系數矩陣當做傳導神經,激活函數當做神經元。如下圖:
????????可以看到三層神經網絡跟邏輯回歸模型很像,可以把邏輯回歸模型看作是單層神經網絡來理解,多層神經網絡就是不斷增肌神經元,擴大系數矩陣。邏輯回歸模型我們是要得到一個系數a和偏值b,但是我們要得到的神經網絡模型,就是得到很多個a和b,叫做系數矩陣W,有了系數矩陣W就固定了表達式形式。神經網絡模型的形式是曲線。不像線性回歸,它可以更好的擬合所有數據,從而達到更準確的分類。
????????如果要枚舉所有模型,那是不現實的,數據分析和挖掘還有很多模型可用,這里只是列舉了常見的28種。對于初學者來說足夠了,也可以作為參考,隨時查看。
????????最后總結一下:
第一類,基于理論邏輯的弱數據商業模型,可以在分析內外部因素時使用,更多偏重理論和思維。
第二類,基于指標計算組合的數據商業模型,用在具體的用戶、產品方面的分析,使用簡單又有理論支持。
第三類,基于運籌/統計的強數據數學模型,這類模型使用約束條件嚴格,往往效果不會太好,用于銷量預測、成本控制。
第四類,基于機器學習的強數據算法模型,這類模型常常用作回歸和分類預測,完全基于數據計算得出結論,數據量大和質量好會得到很有效的結論,是現在使用越來越多的模型。
????????最后歡迎大家關注我,我是拾陸,搜索公眾號“二八Data”,更多技術干貨持續奉獻。