數(shù)據(jù)分析可以分為兩種:一種類似產品經理,一種偏向數(shù)據(jù)挖掘。前者更加注重業(yè)務,對業(yè)務能力要求比較高,例如需要了解一些常用的營銷和管理理論,有一定的傳播學基礎,對數(shù)據(jù)十分敏感,而后者則更加注重技術,對算法和代碼的能力比較高,得有一定的計算機基礎。下文僅介紹第一種類似產品經理的數(shù)據(jù)分析師需要了解的知識和技術,希望能夠給想入坑的同學一點啟發(fā)。由于本人能力有限,也只是個人學習,如有錯誤,歡迎指正。
01數(shù)據(jù)分析|方法論
PEST分析法:用于行業(yè)分析。
政治(P):政治體制、經濟體制、財政政策、、稅收政策、產業(yè)政策、投資政策、專利數(shù)量、國防開支水平、政府補貼水平、民眾對政治的參與度。
經濟(E):GDP及增長率、進出口總額及增長率、利率、匯率、通貨膨脹率、消費價格指數(shù)、居民可支配收入、失業(yè)率、勞動生產率。
社會(S):人口規(guī)模、性別比例、年齡結構、出生率、死亡率、種族結構、婦女生育率、生活方式、購買習慣、教育狀況、城市特點、宗教信仰。
技術(T):新技術的發(fā)明和進展、折舊和報廢速度、技術更新速度、技術傳播速度、技術商業(yè)化速度、國家重點支持項目、國家投入的研發(fā)費用、專利個數(shù)、專利保護情況。
以互聯(lián)網行業(yè)為例:
5W2H分析法:可用于用戶行為分析、業(yè)務問題專題分析。
以用戶購買行為為例:
邏輯樹分析法:業(yè)務問題專題分析。
以利率增長為例:
4P營銷理論:可用于公司整體經營情況
以公司業(yè)務為例:
用戶行為理論:可用于用戶研究分析,以網站分析為例:
02數(shù)據(jù)分析師|知識技術的學習
統(tǒng)計學基礎:
統(tǒng)計數(shù)是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結論的科學。
例如我們需要知道水平條形圖和垂直條形圖有什么區(qū)別,有哪些方法可在一張條形圖上體現(xiàn)多批數(shù)據(jù),頻數(shù)和頻數(shù)密度的區(qū)別,如何使用直方圖,箱線圖是什么等等這些比較基礎的理論知識。另外,統(tǒng)計學還告訴了我們數(shù)據(jù)是如何被收集的,數(shù)據(jù)的整體分布是怎樣的,數(shù)據(jù)的相關與回歸、時間序列分析和預測等等。這些在網易公開課上有不錯的教程:http://open.163.com/special/opencourse/statistics.html,另外我也幫你整理了一些常用的統(tǒng)計量和概率分布:
SQL(數(shù)據(jù)庫):
當我們去到公司,公司的數(shù)據(jù)不可能像我們自己的pc那樣就存在我們的本地上,每個公司一般都有自己的數(shù)據(jù)庫,那么如何把數(shù)據(jù)從這些數(shù)據(jù)庫中調出來,然后整成我們希望的樣子呢,這些問題就需要SQL來解決了。零基礎學習SQL可以閱讀這里:https://www.w3cschool.cn/sql/
Python或R:
這是兩種解釋性語言,就跟英語一樣,有自己的單詞和語法,我們只需要把單詞記住,語法熟練,就可以寫我們自己的英文作文了。R是專門用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的,使用起來更直接,而Python則更廣泛,基本上爬蟲、數(shù)據(jù)分析、數(shù)據(jù)挖掘、人工智能、web建站等所有的事情都能做。個人建議對自己要求比較高的同學都可以了解。
03如何用Excel|做數(shù)據(jù)分析
我把Excel單獨做一章的原因主要是百分之90的同學都會選擇用它來做數(shù)據(jù)分析,它的優(yōu)點無非就是簡單易用,除去函數(shù)和一些高級的應用,完全不用寫代碼。但缺點也就很明顯了,不靈活,并且無法處理很大的數(shù)據(jù)量。下面我以數(shù)據(jù)分析常用的六步曲對它進行一個簡單的介紹:
Step1 明確分析目的和思路:
首先,我們應根據(jù)自己的需求,選用上面某一或多種數(shù)據(jù)分析方法論的方法。
Step2 數(shù)據(jù)收集:
各個公司數(shù)據(jù)庫、公開出版物(中國統(tǒng)計年鑒、中國社會統(tǒng)計年鑒、中國人口統(tǒng)計年鑒、世界經濟年鑒、世界發(fā)展報告)、互聯(lián)網、市場調查。
二維表轉換為一維表:利用數(shù)據(jù)透視表和數(shù)據(jù)透視圖向導
導入數(shù)據(jù):
導入文本數(shù)據(jù):數(shù)據(jù)-自文本
導入網站數(shù)據(jù):數(shù)據(jù)-自網站
不同題目問卷錄入方法:數(shù)值題、單選題、多選題(二分法、多重分類法)、排序題、開放性文字題:
Step 3 數(shù)據(jù)處理:
數(shù)據(jù)清洗:
重復數(shù)據(jù)的處理:
方法一:數(shù)據(jù)-排序和篩選-高級-高級篩選(可選擇出不重復的數(shù)據(jù))
方法二:開始-條件格式-突出顯示單元格規(guī)則-重復值(可用顏色標出重復的數(shù)據(jù))
方法三:插入-數(shù)據(jù)透視表(可知道重復數(shù)據(jù)的重復次數(shù))
方法四:數(shù)據(jù)-數(shù)據(jù)工具-刪除重復值
方法五:開始-排序和篩選-降序-次數(shù)靠前大于1的就是重復值
缺失數(shù)據(jù)處理:
定位輸入:開始-編輯-查找和選擇-定位條件(例如定位到所有空值)
方法一:用一個樣本統(tǒng)計量的值代替缺失值,多用樣本平均值
方法二:直接刪去
查找替換:開始-編輯-查找和選擇-查找(替換)
數(shù)據(jù)加工:
字段分列:數(shù)據(jù)-數(shù)據(jù)工具-分列
字段合并:百度用下函數(shù)
字段匹配:兩個不同的表匹配到一起,百度用下簡單函數(shù)
數(shù)據(jù)計算:=B2*C2
開始-編輯-自動求和
復雜點的函數(shù)計算百度或用Python
數(shù)據(jù)分組:百度用下函數(shù)(VLOOKUP)
數(shù)據(jù)轉換:
行列互換:開始-剪貼板-粘貼-選擇性粘貼-勾上轉置
多選題錄入數(shù)據(jù)方式之間的轉換(百度用下函數(shù))
數(shù)據(jù)抽樣:百度用下隨機函數(shù)等函數(shù)
Step 4 數(shù)據(jù)分析:
對比分析法
與目標對比:完成值vs目標值
不同時期對比:上個月vs本月
同級部門、單位、地區(qū)對比:部門A、部門B、部門C、部門D
行業(yè)內對比:本公司、對手A、對手B、對手C
活動效果對比:活動前vs活動后
分組分析法:確定組數(shù)
確定組距=(最大值-最小值)/組數(shù),也可以視情況不等距分組
結構分析法:結構相對指標(比例)=(總體某部分的數(shù)值/總體總量)*100%,例如市場占有率=(某種商品銷售量/該種商品市場銷售總量)*100%
平均分析法:算術平均數(shù)、眾數(shù)、中位數(shù)等
交叉分析法:一維轉換為二維
綜合評價分析:5個步驟
三大特點:
0—1標準化:
權重確定方法:目標優(yōu)化矩陣表
上表,假如動手能力比人品重要,則C2為0,人品比創(chuàng)新意識重要,則D2為1,其余同理,最后算出教育背景合計0只是我們的假設,其當然也很重要,因為0無法算,所以統(tǒng)一全加1。某指標權重=(某指標新的重要性合計得分/所有指標新的重要性合計得分)*100%
杜邦分析法:
例如找A用戶增加,但A市場占有率下降的原因:
漏斗圖分析法:
矩陣關聯(lián)分析法:以用戶滿意度為例
發(fā)展矩陣:
改進難易矩陣:
舉一反三:
高級數(shù)據(jù)分析方法:
Tip:Excel對于一些數(shù)據(jù)的清洗、處理和分析除了重點掌握數(shù)據(jù)透視表之外,也可下載易用寶、方方格子、慧辦公等第三方插件,非常好用啊。
Step5 數(shù)據(jù)展現(xiàn):
除了Excel的數(shù)據(jù)可視化之外,現(xiàn)在用的最多的就是Tableau了,它是一款既能生成一般的統(tǒng)計圖表,也能夠用于數(shù)據(jù)展現(xiàn)的可視化軟件,并且支持多種數(shù)據(jù)來源的數(shù)據(jù)導入,只需點點鼠標,就可輕松做出很多可交互的圖表,可以去官網看看它的教學視頻。
Step6 撰寫數(shù)據(jù)分析報告:
標題頁-目錄-前言-正文-結論與建議-附錄。
04大佬的數(shù)據(jù)分析|講解和案例
找數(shù)據(jù)網站:http://hao.199it.com/
垂直領域的統(tǒng)計工具平臺:iOS:七麥數(shù)據(jù)、禪大師、APPduu;安卓:酷傳
第三方統(tǒng)計平臺:友盟、TakingData、AppAnnie、騰訊云分析、百度移動統(tǒng)計、神策數(shù)據(jù)、諸葛IO、GrowingIO
https://www.zhihu.com/question/20129061「數(shù)據(jù)分析師的具體工作職責和工作內容有哪些?」
https://www.pmcaff.com/discuss/index/315805294081088「數(shù)據(jù)分析師的日常工作有哪些?如何入門數(shù)據(jù)分析?」
鏈家網的租房數(shù)據(jù)做些有意思的事情?https://zhuanlan.zhihu.com/p/24554589
豆瓣讀書分析報告https://zhuanlan.zhihu.com/p/24420062
爬取6.6w+豆瓣電影之后的分析故事https://zhuanlan.zhihu.com/p/24133117
生活中的數(shù)據(jù)犀利哥之一:開篇及選車https://zhuanlan.zhihu.com/p/20604082?refer=hemingke
生活中的數(shù)據(jù)犀利哥之二:排隊https://zhuanlan.zhihu.com/p/20604263?
生活中的數(shù)據(jù)犀利哥之三:找座https://zhuanlan.zhihu.com/p/20605096?
生活中的數(shù)據(jù)犀利哥之四:看趨勢https://zhuanlan.zhihu.com/p/20640434?
生活中的數(shù)據(jù)犀利哥之五:找錯因果關系https://zhuanlan.zhihu.com/p/25629403
生活中的數(shù)據(jù)犀利哥之六:快遞員送貨https://zhuanlan.zhihu.com/p/25555346
北上廣深哪里過得更瀟灑https://zhuanlan.zhihu.com/p/20355743?
滄海橫流,看行業(yè)起伏(2015年)https://zhuanlan.zhihu.com/p/20559922?
和頤事件之后: 怎么定酒店更有安全感?https://zhuanlan.zhihu.com/p/20893016?
老鹿玩數(shù)據(jù)——不光是求婚神器(一)https://zhuanlan.zhihu.com/p/20712815?
老鹿玩數(shù)據(jù)——不光是求婚神器(二)https://zhuanlan.zhihu.com/p/20756963?
《春節(jié)自救指南》之數(shù)據(jù)分析https://zhuanlan.zhihu.com/p/24943568?
如何判斷一場知乎live的質量?https://zhuanlan.zhihu.com/p/25118397
豆瓣5.6分的《西游伏妖篇》有水軍嗎?https://zhuanlan.zhihu.com/p/25047215
怎樣才能以最少的錢租個靠近地鐵的房子?https://www.zhihu.com/question/44724619/answer/192049017
「上海富了周圍,北京坑了周圍」https://www.zhihu.com/question/26673732/answer/183836709
如何不吹牛地形容北京有多大?https://www.zhihu.com/question/29554848/answer/169811236
路人甲:為什么知乎的眾多答主答題后獲得的贊是在「一覺睡醒」后才發(fā)現(xiàn)的呢?https://www.zhihu.com/question/39272910/answer/164289608
大數(shù)據(jù)對物流管理有什么影響?https://www.zhihu.com/question/23197748/answer/203163681
約會聚餐如何正確選擇餐館?https://zhuanlan.zhihu.com/p/28224566
路人甲:如何評論華為官方對閃存事件的回復https://www.zhihu.com/question/58645911/answer/159594099
小蚊子數(shù)據(jù)分析_新浪博客http://blog.sina.com.cn/xiaowenzi22
05參考書目|推薦書目
參考書目:
《誰說菜鳥不會數(shù)據(jù)分析》《深入淺出統(tǒng)計學》《深入淺出數(shù)據(jù)分析》《Excel數(shù)據(jù)處理與分析實戰(zhàn)技巧精粹》《路人甲:數(shù)據(jù)分析修煉手冊》
推薦書目:
入門:《誰說菜鳥不會數(shù)據(jù)分析》《深入淺出數(shù)據(jù)分析》《深入淺出統(tǒng)計學》《深入淺出SQL》(深入淺出系列很通俗,全案例講解,可以當小說看)
Excel:《Excel數(shù)據(jù)處理與分析實戰(zhàn)技巧精粹》
R:《R語言實戰(zhàn)》
Python:《Python編程-從入門到實踐》《利用Python進行數(shù)據(jù)分析》
SQL:《SQL必知必會》《SQL基礎教程》《MySQL必知必會》
Tableau:《人人都是數(shù)據(jù)分析師:Tableau應用實戰(zhàn)》
高階和應用:《精益數(shù)據(jù)分析》《數(shù)據(jù)之美》《數(shù)學之美》《數(shù)據(jù)可視化之美》《啤酒與尿布》《增長黑客》《增長黑客實戰(zhàn)》《網站分析實戰(zhàn)》