超詳細的數(shù)據(jù)分析入門手冊,快來pick一下!

數(shù)據(jù)分析可以分為兩種:一種類似產品經理,一種偏向數(shù)據(jù)挖掘。前者更加注重業(yè)務,對業(yè)務能力要求比較高,例如需要了解一些常用的營銷和管理理論,有一定的傳播學基礎,對數(shù)據(jù)十分敏感,而后者則更加注重技術,對算法和代碼的能力比較高,得有一定的計算機基礎。下文僅介紹第一種類似產品經理的數(shù)據(jù)分析師需要了解的知識和技術,希望能夠給想入坑的同學一點啟發(fā)。由于本人能力有限,也只是個人學習,如有錯誤,歡迎指正。

01數(shù)據(jù)分析|方法論

PEST分析法:用于行業(yè)分析。

政治(P):政治體制、經濟體制、財政政策、、稅收政策、產業(yè)政策、投資政策、專利數(shù)量、國防開支水平、政府補貼水平、民眾對政治的參與度。

經濟(E):GDP及增長率、進出口總額及增長率、利率、匯率、通貨膨脹率、消費價格指數(shù)、居民可支配收入、失業(yè)率、勞動生產率。

社會(S):人口規(guī)模、性別比例、年齡結構、出生率、死亡率、種族結構、婦女生育率、生活方式、購買習慣、教育狀況、城市特點、宗教信仰。

技術(T):新技術的發(fā)明和進展、折舊和報廢速度、技術更新速度、技術傳播速度、技術商業(yè)化速度、國家重點支持項目、國家投入的研發(fā)費用、專利個數(shù)、專利保護情況。

以互聯(lián)網行業(yè)為例:

5W2H分析法:可用于用戶行為分析、業(yè)務問題專題分析。

以用戶購買行為為例:

邏輯樹分析法:業(yè)務問題專題分析。

以利率增長為例:

4P營銷理論:可用于公司整體經營情況

以公司業(yè)務為例:

用戶行為理論:可用于用戶研究分析,以網站分析為例:

02數(shù)據(jù)分析師|知識技術的學習

統(tǒng)計學基礎:

統(tǒng)計數(shù)是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結論的科學。

例如我們需要知道水平條形圖和垂直條形圖有什么區(qū)別,有哪些方法可在一張條形圖上體現(xiàn)多批數(shù)據(jù),頻數(shù)和頻數(shù)密度的區(qū)別,如何使用直方圖,箱線圖是什么等等這些比較基礎的理論知識。另外,統(tǒng)計學還告訴了我們數(shù)據(jù)是如何被收集的,數(shù)據(jù)的整體分布是怎樣的,數(shù)據(jù)的相關與回歸、時間序列分析和預測等等。這些在網易公開課上有不錯的教程:http://open.163.com/special/opencourse/statistics.html,另外我也幫你整理了一些常用的統(tǒng)計量和概率分布:

SQL(數(shù)據(jù)庫):

當我們去到公司,公司的數(shù)據(jù)不可能像我們自己的pc那樣就存在我們的本地上,每個公司一般都有自己的數(shù)據(jù)庫,那么如何把數(shù)據(jù)從這些數(shù)據(jù)庫中調出來,然后整成我們希望的樣子呢,這些問題就需要SQL來解決了。零基礎學習SQL可以閱讀這里:https://www.w3cschool.cn/sql/

Python或R:

這是兩種解釋性語言,就跟英語一樣,有自己的單詞和語法,我們只需要把單詞記住,語法熟練,就可以寫我們自己的英文作文了。R是專門用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的,使用起來更直接,而Python則更廣泛,基本上爬蟲、數(shù)據(jù)分析、數(shù)據(jù)挖掘、人工智能、web建站等所有的事情都能做。個人建議對自己要求比較高的同學都可以了解。

03如何用Excel|做數(shù)據(jù)分析

我把Excel單獨做一章的原因主要是百分之90的同學都會選擇用它來做數(shù)據(jù)分析,它的優(yōu)點無非就是簡單易用,除去函數(shù)和一些高級的應用,完全不用寫代碼。但缺點也就很明顯了,不靈活,并且無法處理很大的數(shù)據(jù)量。下面我以數(shù)據(jù)分析常用的六步曲對它進行一個簡單的介紹:

Step1 明確分析目的和思路:

首先,我們應根據(jù)自己的需求,選用上面某一或多種數(shù)據(jù)分析方法論的方法。

Step2 數(shù)據(jù)收集:

各個公司數(shù)據(jù)庫、公開出版物(中國統(tǒng)計年鑒、中國社會統(tǒng)計年鑒、中國人口統(tǒng)計年鑒、世界經濟年鑒、世界發(fā)展報告)、互聯(lián)網、市場調查。

二維表轉換為一維表:利用數(shù)據(jù)透視表和數(shù)據(jù)透視圖向導

導入數(shù)據(jù):

導入文本數(shù)據(jù):數(shù)據(jù)-自文本

導入網站數(shù)據(jù):數(shù)據(jù)-自網站

不同題目問卷錄入方法:數(shù)值題、單選題、多選題(二分法、多重分類法)、排序題、開放性文字題:

Step 3 數(shù)據(jù)處理:

數(shù)據(jù)清洗:

重復數(shù)據(jù)的處理:

方法一:數(shù)據(jù)-排序和篩選-高級-高級篩選(可選擇出不重復的數(shù)據(jù))

方法二:開始-條件格式-突出顯示單元格規(guī)則-重復值(可用顏色標出重復的數(shù)據(jù))

方法三:插入-數(shù)據(jù)透視表(可知道重復數(shù)據(jù)的重復次數(shù))

方法四:數(shù)據(jù)-數(shù)據(jù)工具-刪除重復值

方法五:開始-排序和篩選-降序-次數(shù)靠前大于1的就是重復值

缺失數(shù)據(jù)處理:

定位輸入:開始-編輯-查找和選擇-定位條件(例如定位到所有空值)

方法一:用一個樣本統(tǒng)計量的值代替缺失值,多用樣本平均值

方法二:直接刪去

查找替換:開始-編輯-查找和選擇-查找(替換)

數(shù)據(jù)加工:

字段分列:數(shù)據(jù)-數(shù)據(jù)工具-分列

字段合并:百度用下函數(shù)

字段匹配:兩個不同的表匹配到一起,百度用下簡單函數(shù)

數(shù)據(jù)計算:=B2*C2

開始-編輯-自動求和

復雜點的函數(shù)計算百度或用Python

數(shù)據(jù)分組:百度用下函數(shù)(VLOOKUP)

數(shù)據(jù)轉換:

行列互換:開始-剪貼板-粘貼-選擇性粘貼-勾上轉置

多選題錄入數(shù)據(jù)方式之間的轉換(百度用下函數(shù))

數(shù)據(jù)抽樣:百度用下隨機函數(shù)等函數(shù)

Step 4 數(shù)據(jù)分析:

對比分析法

與目標對比:完成值vs目標值

不同時期對比:上個月vs本月

同級部門、單位、地區(qū)對比:部門A、部門B、部門C、部門D

行業(yè)內對比:本公司、對手A、對手B、對手C

活動效果對比:活動前vs活動后

分組分析法:確定組數(shù)

確定組距=(最大值-最小值)/組數(shù),也可以視情況不等距分組

結構分析法:結構相對指標(比例)=(總體某部分的數(shù)值/總體總量)*100%,例如市場占有率=(某種商品銷售量/該種商品市場銷售總量)*100%

平均分析法:算術平均數(shù)、眾數(shù)、中位數(shù)等

交叉分析法:一維轉換為二維

綜合評價分析:5個步驟

三大特點:

0—1標準化:

權重確定方法:目標優(yōu)化矩陣表

上表,假如動手能力比人品重要,則C2為0,人品比創(chuàng)新意識重要,則D2為1,其余同理,最后算出教育背景合計0只是我們的假設,其當然也很重要,因為0無法算,所以統(tǒng)一全加1。某指標權重=(某指標新的重要性合計得分/所有指標新的重要性合計得分)*100%

杜邦分析法:

例如找A用戶增加,但A市場占有率下降的原因:

漏斗圖分析法:

矩陣關聯(lián)分析法:以用戶滿意度為例

發(fā)展矩陣:

改進難易矩陣:

舉一反三:

高級數(shù)據(jù)分析方法:

Tip:Excel對于一些數(shù)據(jù)的清洗、處理和分析除了重點掌握數(shù)據(jù)透視表之外,也可下載易用寶、方方格子、慧辦公等第三方插件,非常好用啊。

Step5 數(shù)據(jù)展現(xiàn):

除了Excel的數(shù)據(jù)可視化之外,現(xiàn)在用的最多的就是Tableau了,它是一款既能生成一般的統(tǒng)計圖表,也能夠用于數(shù)據(jù)展現(xiàn)的可視化軟件,并且支持多種數(shù)據(jù)來源的數(shù)據(jù)導入,只需點點鼠標,就可輕松做出很多可交互的圖表,可以去官網看看它的教學視頻。

Step6 撰寫數(shù)據(jù)分析報告:

標題頁-目錄-前言-正文-結論與建議-附錄。

04大佬的數(shù)據(jù)分析|講解和案例

找數(shù)據(jù)網站:http://hao.199it.com/

垂直領域的統(tǒng)計工具平臺:iOS:七麥數(shù)據(jù)、禪大師、APPduu;安卓:酷傳

第三方統(tǒng)計平臺:友盟、TakingData、AppAnnie、騰訊云分析、百度移動統(tǒng)計、神策數(shù)據(jù)、諸葛IO、GrowingIO

https://www.zhihu.com/question/20129061「數(shù)據(jù)分析師的具體工作職責和工作內容有哪些?」

https://www.pmcaff.com/discuss/index/315805294081088「數(shù)據(jù)分析師的日常工作有哪些?如何入門數(shù)據(jù)分析?」

鏈家網的租房數(shù)據(jù)做些有意思的事情?https://zhuanlan.zhihu.com/p/24554589

豆瓣讀書分析報告https://zhuanlan.zhihu.com/p/24420062

爬取6.6w+豆瓣電影之后的分析故事https://zhuanlan.zhihu.com/p/24133117

生活中的數(shù)據(jù)犀利哥之一:開篇及選車https://zhuanlan.zhihu.com/p/20604082?refer=hemingke

生活中的數(shù)據(jù)犀利哥之二:排隊https://zhuanlan.zhihu.com/p/20604263?

生活中的數(shù)據(jù)犀利哥之三:找座https://zhuanlan.zhihu.com/p/20605096?

生活中的數(shù)據(jù)犀利哥之四:看趨勢https://zhuanlan.zhihu.com/p/20640434?

生活中的數(shù)據(jù)犀利哥之五:找錯因果關系https://zhuanlan.zhihu.com/p/25629403

生活中的數(shù)據(jù)犀利哥之六:快遞員送貨https://zhuanlan.zhihu.com/p/25555346

北上廣深哪里過得更瀟灑https://zhuanlan.zhihu.com/p/20355743?

滄海橫流,看行業(yè)起伏(2015年)https://zhuanlan.zhihu.com/p/20559922?

和頤事件之后: 怎么定酒店更有安全感?https://zhuanlan.zhihu.com/p/20893016?

老鹿玩數(shù)據(jù)——不光是求婚神器(一)https://zhuanlan.zhihu.com/p/20712815?

老鹿玩數(shù)據(jù)——不光是求婚神器(二)https://zhuanlan.zhihu.com/p/20756963?

《春節(jié)自救指南》之數(shù)據(jù)分析https://zhuanlan.zhihu.com/p/24943568?

如何判斷一場知乎live的質量?https://zhuanlan.zhihu.com/p/25118397

豆瓣5.6分的《西游伏妖篇》有水軍嗎?https://zhuanlan.zhihu.com/p/25047215

怎樣才能以最少的錢租個靠近地鐵的房子?https://www.zhihu.com/question/44724619/answer/192049017

「上海富了周圍,北京坑了周圍」https://www.zhihu.com/question/26673732/answer/183836709

如何不吹牛地形容北京有多大?https://www.zhihu.com/question/29554848/answer/169811236

路人甲:為什么知乎的眾多答主答題后獲得的贊是在「一覺睡醒」后才發(fā)現(xiàn)的呢?https://www.zhihu.com/question/39272910/answer/164289608

大數(shù)據(jù)對物流管理有什么影響?https://www.zhihu.com/question/23197748/answer/203163681

約會聚餐如何正確選擇餐館?https://zhuanlan.zhihu.com/p/28224566

路人甲:如何評論華為官方對閃存事件的回復https://www.zhihu.com/question/58645911/answer/159594099

小蚊子數(shù)據(jù)分析_新浪博客http://blog.sina.com.cn/xiaowenzi22

05參考書目|推薦書目

參考書目:

《誰說菜鳥不會數(shù)據(jù)分析》《深入淺出統(tǒng)計學》《深入淺出數(shù)據(jù)分析》《Excel數(shù)據(jù)處理與分析實戰(zhàn)技巧精粹》《路人甲:數(shù)據(jù)分析修煉手冊》

推薦書目:

入門:《誰說菜鳥不會數(shù)據(jù)分析》《深入淺出數(shù)據(jù)分析》《深入淺出統(tǒng)計學》《深入淺出SQL》(深入淺出系列很通俗,全案例講解,可以當小說看)

Excel:《Excel數(shù)據(jù)處理與分析實戰(zhàn)技巧精粹》

R:《R語言實戰(zhàn)》

Python:《Python編程-從入門到實踐》《利用Python進行數(shù)據(jù)分析》

SQL:《SQL必知必會》《SQL基礎教程》《MySQL必知必會》

Tableau:《人人都是數(shù)據(jù)分析師:Tableau應用實戰(zhàn)》

高階和應用:《精益數(shù)據(jù)分析》《數(shù)據(jù)之美》《數(shù)學之美》《數(shù)據(jù)可視化之美》《啤酒與尿布》《增長黑客》《增長黑客實戰(zhàn)》《網站分析實戰(zhàn)》

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,983評論 6 537
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,772評論 3 422
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,947評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,201評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,960評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,350評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,406評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,549評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 49,104評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,914評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,089評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,647評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,340評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,753評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,007評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,834評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,106評論 2 375

推薦閱讀更多精彩內容