數據分析從最開始的圖表分析出發,到更有技術含量的數據挖掘,其目的都是在讓數據更好地指導在各行各業中更好地指導業務應用。前面的每種思維就像不同角度的工具一樣,在不同方向上讓數據發揮作用。在最后講到的證析思維,就將像一串項鏈一樣,把前面的珍珠都穿起來,從源頭出來,來說明數據分析是如何從問題到數據,再從數據到答案的。
證析——用數據說話的藝術
證析思維其實就是用數據說話的思維,通過數據來描述問題,同時也通過數據來解答問題。數據能夠發揮作用的地方很多,從商業領域到生產領域,從科學研究領域再到體育文藝領域。
下面的這個就是在2016年巴西里約奧運會,是數據在體育領域大發光彩的一年,運動員的每個動作都能夠被采集成數據,然后加以分析,給出應該調整方向的例子:
從世界冠軍見證析魅力
從奧運的例子能夠看出,通過量化運動員的在出手速度和角度上的數據,并且再進行過對比,發現了應該調整的方向,進一步做出整改,于是得到了滿意的結果。這一套流程下來,讓數據發揮了閉環反饋的作用。這個正是證析思維的應用。
證析,是驗證和分析兩個詞的組合,其含義是量化證據進行分析以影響決策的具體實踐,這個概念出自鄭毅的.《證析:大數據與基于證據的決策》。
看起來這個概念,比較晦澀,其實就是講的是在決策過程中讓數據來說話。通過用數據說明問題,是理性思考,具有科學性,同時也有依據。
證析看待問題的思路
證析的目的是解決問題,因此在開展證析以前,需要正確的理解問題。在生產生活中,隨著情況和條件的不同,會有多種多樣的問題存在,然而按照5W1H邏輯,可以將問題分為WHAT、WHEN、WHO、WHERE,WHY和HOW六類。
首先是對象問題,即WHAT,問題是要明確如選擇的對象,比如采購什么產品、投資什么標的等。第二是時間問題,即WHEN,這個問題需要明確一個具體的時間,比如什么時間下單,工作的工序安排等。第三是人選問題,即WHO,這里是要確定人員,比如選誰出場,多少個人的成本最低。第三是地址問題,即WHERE,這里是需要確定具體的地址,比如怎么選址的路徑才最短,成本才最低等。再下面是原因激吻,即WHY,這里需要找到時間發生的原因,明白為什么會產生,并對相關對象進行分解和剖析。最后是方法問題,即HOW,這里是要明確一套做事的做法,比如制定最優的解決方案。
問題驗證的方式
在證析的過程中,當明確了問題的歸屬后,就需要對問題進行驗證。不論哪種問題的類別,可以將所需的答案,把問題分成定性和定量兩類。
定性問題是是否屬實的問題,即有或者沒有。在比如有沒有咳嗽癥狀、是否有出口資格,是否能夠得獎等等。盡管定性問題是聚焦在一個具體的事件上,看似與數字無關,但是可以將有無的情況有個0-1變量來體現,有是1,無則是0。
在定量問題中,就需要了解問題的具體的數據,問題從有沒有進一步到了有多少。比如血液的指標是多少,銷售額是多少錢,得獎的概率是多少等等。
對問題可以分為定性和定量兩類,同樣要來解釋和驗證問題所需的證據,也可以分成定性和定量兩類。
驗證的流程
證析的目的是解決問題,因此整個證析的流程,也是圍繞如何解釋問題,如何發現解決方案而進行。
首先是界定問題,即明確問題是什么5W1H中哪一類的,以及問題是定性還是定量的。當明確以后,將問題進行數字化轉化,對定量問題,需要知道得出答案的數據,還需要哪些數據,同樣作為定性問題,除了明確證據數據來源外,還需要把定性問題進行定量化轉化,如把是否的問題轉成0-1變量。
完成問題后,就需要去收集證據,這里既包含了定性的證據,也包含了定量的證據,證據來源也是豐富多彩的,可以說收集證據是在證析過程中最花時間和精力的,獲取了證據后還要進一步整理。
當完成了證據的收集和整理,就是對證據進行分析,通過對比和拆分,去得出問題的結果。
當產生問題的結果后,還需要將結果放到實際的情況中去應用返回。同時有的時候,還要不斷重復這個過程,此時問題的驗證是一個PDCA循環問題,在反復的過程中,不斷尋求更好的答案。
界定問題
在界定問題環節中,當明確了5W1H和是定性定量的性質后,接下來就是要將現實中的問題轉換成數學問題,問題可以是邏輯關系也可以是數據。
比如對房價是否下降而言,其背后就是一個對比的式子,即未來房價<現在房價的假設是否成立,進一步地量化則可以轉成未來房價低于現在房價的概率。
當明確了問題以后,就是要知道影響問題的因素,這些因素會在后面的證據收集環節去獲取,比如對房價而言,就涉及到了人口變化,人力資源價格,貨幣,土地價格,建筑材料價格等等,這些都需要在后面去進行收集。
證據收集
在界定問題中明確了需要收集的證據后,就開始了相關證據的收集。由于證析是屬于定量分析,因此證據都將以數據的形式被收集,在應用的過程中也是以數據的形式而存在的。
對證據而言,首先是明確相關證據;及影響的因素的指標。以房價是否上漲的問題為例,設計到的方面有:人口、貨幣、土地、剛才、水泥,以及人力資本等要素。對這些要素而言,人口包括,人口數量,人口流入流出情況,人口未來預測;貨幣包括,貨幣數量,M2增速,未來存量貨幣預測;土地包括,土地供應量,土地供應量預測;鋼材包括,鋼材價格,鋼材產量,鋼鐵產能,鋼鐵價格預測;水泥包括:水泥價格,水泥產量,水泥產能,水泥價格預測;人力資本包括:人口結構,消費水平,工資水平,人力資本價格預測。
當明確了相關的指標后,就要到不同的渠道上去獲取這些數據,這里包括了國家數據庫,上市公司財報,資本市場數據,公開信息,以及專業的數據庫等等。當完成證據的收集后,就將這些數據按照相應的標準格式整合在一起,并進行數據處理,為后續的對證據的分析做準備。
證據分析
完成了證據收集后,就要著手對證據進行分析,這里需要根據問題本身,找到合適的方式分析證據,從而對問題本身進行證實或證偽。
這里有三種方式用于分析證據,分別是經驗判斷,即把每個證據加起來進行綜合判定,第二是統計推斷,用統計的方式來發現問題成立時的指標數據的分布,如果達到了閾值就可以認為數據是成立的。第三是用數據挖掘的方式,通過分類或者預估模型進行判斷。
證據分析模式
對房價問題而言,經驗判斷就是用戶支撐房價上漲的證據條數對比支撐房價下跌的證據條數,看那個占上風。統計推斷就是,根據過去條件的滿足情況,來看房價上漲時間的占比,同時再根據當前的條件滿足情況,來推測上漲可能性。而數據挖掘則是直接從歷史數據中,得到一個關于求未來房價低于現在房價的概率公式,這個公式可以表示為:未來房價低于現在房價的概率=f(人口)+f(土地)+f(貨幣)+f(鋼材)+f(水泥)+f(人力資本)+f(其他)。當輸入相關的數據后,就能知道概率大小。
得出結果
獲取了證據的相關數據后,就將通過分析模型得出的問題的結果,問題結果可以有兩種呈現方式,第一是定性的方式,即是否,是什么的具體答案,另外一種方式是定量,即呈現出具體的數據。
在房價問題中,定性的結果就是下降還是上升。定量的結果就是未來房價低于當前房價的概率,如果概率大于50%對應的就是下降,而小于等于50%對應的就是上漲。
應用反饋
當得到證析的結果后,就要將結果在實際場合中應用,以來確定證析的結果是否有效。
對于結果的判斷,首先是在是時間上進行對比,時間上的結果對比可以把證析結果與當前情況進行對比,以判斷是否有效。同時針對預測性的結果,也要放在未來進行對比。
在空間維度上,還需要進行對比。通常一組數據不能夠完全說明證析的結果就是有效的。需要分次分組進行多輪的對比,以確定證析的有效。同時,在這個重復驗證的過程中,也有通過假設檢驗來說明結果具有統計意義的情況,這樣可以排除證析的結果是屬于小概率事件。
當完成對比和驗證后,還可以將證析的過程和證據的選取過程不斷重復進行,通過這個PDCA的循環,不斷來優化證析的邏輯和方法,以提升結果的準確性。
證析思維總結
證析思維是對數據分析整個邏輯的梳理和總結,即應該如何讓數據分析的思維落地,并且發生作用。證析思維中,包括了從問題到答案的全部流程,也包括了從方案到落地的所有過程,并以解答問題,獲取證據為主線,將其余五種思維互相穿插,大家共同的探求問題的答案。
證析思維不僅僅可以用于數據分析的問題,對于解釋其他的問題也同樣適用,在其他資料中出現的解決問題的七步法和麥肯錫方法都有體現到證析思維的整體邏輯,可以說證析思維是一種通用的解決問題的方式。
證析思維首先是界定問題,要明確解決什么問題,其中要將現實問題轉換成數學模型,明確是求絕對值還是相對值,與此同時還需要知道影響問題的因素。第二步是收集證據,即根據前面找出的影響問題的因素去獲取相關數據,并且對數據處理為可以進行分析的形式。第三步是分析證據,其實就是用拆分和對比的方式,并借助相關的模型來對問題的進行證實或者證偽。第四步是得出結果,即根據對證據的分析,來得到問題的結果。其實很多時候對數據分析的問題要求不高的話,到第四步就可以結束了。有時為了提高對問題解答的可靠性和科學性,還需要進行應用反饋,即將結果和實際情況進行對比,進一步地還可以對分析過程進行調整和優化。
房價問題就是一個典型證析思維的應用,股票漲不漲就是在界定問題,然后收集歷史價格,財務數據以及其他經濟數據就是收集數據。分析數據就是用前面收集的一系列數據來證明股票價格和影響因素的關系。最后在得出結果中,用當前的關系來推斷未來股價是否上漲,最后再在未來將實際值和預測值進行對比較,并且重新調整分析步驟,這就應用反饋。
原文轉發,功德無量!