《深入淺出數據分析》之門外漢的數據分析方法論

說真的,盡管自己一直都清楚數據的重要性,尤其是在大學的時候看了涂子沛的《大數據時代》。更是堅定了對于數據重要性的看法,然而,逗比的是即便清楚它的重要性,但是在實操的工作中確依舊對數據似懂非懂。后面分析自己的問題得出兩個結論,一個在于不知道選擇什么樣的數據進行分析;另一個是不知道這些數據的準確性,即如何剔除劣質數據。即便是現在看完了《深入淺出數據分析》這本厚書,也還是對數據的具體實操,以及選擇上依舊還是有困惑。就算如此,還是在這里整理一下,看這本書之后的感受,以及書中所提到的個人覺得比較重要的知識。

首先,談一下做數據分析的大致流程:

1.了解需求,確定數據分析的目標

2.建立數據分析模型,選擇目標數據類型

3.收集&整理數據,融入分析模型

4.觀察數據,建立可視化模型

5.得出數據結論,提出參考建議

上面的5個步驟,是我在看這本書中的案例所總結出來的步驟,整個步驟提煉,讓我想起了之前關于用戶研究的整個流程和步驟。從大致上來說,這個5個步驟算是萬能的,在很多的工作流程中都可以套用,只需要稍微變形。關于為什么總結出的是這5個步驟模型,一個是書上內容的梳理大致如此,另一個是個人工作經驗的總結。確定目標,這個自然不言而喻,大家都能體會到它的重要性,尤其是工作的人,對這個我相信體會是特別深刻的。對于學生而言,這個可能就沒有特別深的體會了,畢竟現在學校教育本身更多在意的是結果,而非目標,如若硬是要囊括進來,其實也是可以的,結果也是一種目標的體現。

重點說一下建立模型這一塊吧。至于為什么說這個是重點,主要來源于個人工作中的體會。所謂的模型,其實相當于個人在分析一個問題時的方向和框架,這個框架的好壞最后也導致了你分析出來的結論的優劣,以及是否能具備說服力。這也讓我想起,今年1月份在杭州參加用戶研究入門培訓中蓉姐講到的一個真實案例,一個工作經驗豐富的人和一個剛入職場經驗不夠的人去分析電商的統一個功能,經驗豐富的前輩建立的模型是“品牌-導購-基礎”這樣一個模型,而缺乏經驗的童鞋所建立的模型,則更多的是一個功能性質的模型。這兩個模型最終的結果是,品牌模型導出了為什么其它的競品要去做一個這樣的功能,而功能性質的模型并不能導出有效的結論,甚至于無法導出結論。再回過頭來看,模型這個東西的價值也就可想而知。其實,建立模型就是建立一個參考系,對于參考系我相信大家都不陌生,尤其是學理科的童鞋,物理學中非常多的提到了這樣一個東西。在我們生活中也好,工作中也好,我們在評價一個東西的優劣的時候,其實在我們心中都有一個參考系,也就是所謂的評判標準,這個標準決定了我們如何去看一個東西,再高一點還有如何去看待一個人。這些也其實是我們的三觀的體現,表明我們如何去看待所有的一切。我們后面所做的一切,都是為了讓結論更加靠近我們的模型,然后去評估這個東西離我們的標準是遠是近,從而找到合理的解決方案。

其次,在關于3和4個步驟,更多的是一些體力活的東西。這兩個步驟的過程中,重要的就是更好的使用工具。在看《深入淺出數據分析》中,書里重點介紹了兩個數據分析的工具,一個是強大的Excel;一個叫做R,可以處理比較復雜的,離散的,多類型的數據。然而,實際的操作其實Excel也在一定程度上滿足了我們絕大部分的需求,當然對于一個專業做數據分析的從業者而言,這些只不過是基礎中的基礎,他們還會使用更加強大的數據分析工具,比如SPSS,Tableau等。具體,后面介紹的兩個軟件,我是不知道怎么用,大家有興趣的可以自己去百度,或者找這方面的前輩去咨詢學習,或者自己買書看。另外,關于分析整理數據,還有一個高效和整理大規模離散數據的方法就是學會使用數據庫,通過使用MySQL語句去組合和調用數據庫中所存儲的龐大數據。最后還要講到的,就是這本書中經常采用的數據可視化圖形主要就是散點圖,這個圖的作用是可以很好的看出大部分數據所處的區域,同時在一定程度上,可以對具備線性特點的數據,通過回歸線進行預測,所謂的回歸線其實簡單來看就是通過高中所學二元一次函數(y=a+bx)去預測結果。對于那些覺得學校所學東西無用論的童鞋,在遇到這種問題的時候,你就得感謝你之前在學校的學習了。當然,對于學渣的我現在也只能感嘆當時沒有很好的去學好數學,如今才深刻體會到數學的巨大價值,可以幫助你更加高效,更加科學的理解問題,并解決問題。在預測的時候,其實也會存在誤差,所以我們在利用回歸線做預測的時候,也必須清楚這個誤差的存在,這樣才能避免盲目的預測,以及預測結果的不準到底是否為模型不對這樣的一些問題。

講到這里,也差不多要結尾了。也就到了,談談第5個步驟了,數據分析的最終導向了。數據分析目標是找到問題,數據分析的目的是解決問題和驗證假設,所以當然我們最后對數據進行了大量的處理之后,必然要有結論的導向以及建議的提出。這樣我們的數據分析才具備最終的價值和意義,再借用不知道哪本書看到的一句話來結尾吧,“沒有結論和建議導出的數據分析,不是叫做數據分析”。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容