學習數據分析入門書籍整理

Part 1 | 入門版

適合對數據分析的入門者,對數據分析沒有整體概念的人,常見于應屆畢業生,經驗尚淺的轉行者。

HeadFirst類的書籍,一向淺顯易懂形象生動,可以對分析概念有個全面的認知。——Simon

《深入淺出數據分析》:把這本書放在第一順序,是因為它真的很簡單,但是能夠讓你對數據分析的一些基本概念有大致的了解。即便是你毫無數據分析經驗,一兩天也足夠讀完整本書了。這本書的實操性并不強,所以也不建議你去跟著實踐,了解作者傳達出來的數據分析基本思想和原則就OK了,這對你建立宏觀的視野,和接下來的學習很有幫助。

另外,書中提到的一些案例,比如提升化妝品銷量、分析星巴克銷量、生產線最優解、網站ABtest、競品分析、薪資預測等等,看起來很簡單,但其實都是工作最常見的一些分析場景。這對數據思維的養成,非常有幫助。

個人覺得書中最有用的一些點:

統計學概念在數據分析中的作用:比如方差、標準差、相關系數、均方根誤差等; 集中數據分析的基本方法:假設檢驗、回歸分析、誤差分析等; 統計圖形分析:散點圖、直方圖等來探索數據中隱藏的規律; 數據庫以及數據整理。

這本書很讓你掌握數據分析技術,過一遍即可。

《誰說菜鳥不會數據分析》:不僅講解了一些常見的分析技巧,并附帶excel的一些知識及數據分析再公司中所處的位置,對職場了解亦有一定幫助。

《赤裸裸的統計學》:作者年輕時是個追求學習意義的學霸,后來自己從統計學中發掘了很多可以應用到生活的地方。這也是本書的主旨,結合生活講解統計知識,生動有趣。可以避免統計學一上來就大講貝葉斯概率和隨機分析的枯燥。

統計數字會撒謊:知名度高,但是還沒看過…

Part 2 | 進階版

具有一定的行業針對性,要求具備一定的分析常識,適合網站分析師,商業分析師以及數據產品經理。

《深入淺出統計學》: HeadFirst類書籍,可以幫助你快速了解統計方面的知識。——Simon

非常非常基礎的統計書,適合任何一個沒有基礎的小白,文科生也能看懂。有人說這本書簡直太簡單了,但是對于數據分析來說,需要用到的恰好是這些最簡單的東西。比如基本的統計量,基本上每個分析項目中都會用到。比如基本的概率分布,總體與樣本的概念、置信區間、假設檢驗、回歸分析,我去,都是為數據分析定制的統計學知識。

所以強烈推薦這本,其他的比較深度的書,并不建議在入門的階段去啃,一方面是很多難以理解,二是即便你花大力氣學習了,入門的階段你也不怎么能在實踐中使用。當然多學一些是沒有壞處的,但你需要知道在什么時候學習哪些東西性價比最高。或者你自我感覺良好,誓要學最難的,從入門到放棄,得不償失。

總結起來,需要重點了解的統計學知識如下:

基本的統計量:均值、中位數、眾數、方差、標準差、百分位數等; 概率分布:幾何分布、二項分布、泊松分布、正態分布等; 總體和樣本:了解基本概念、抽樣的概念;

這本書非常的簡單,但是基本的數據分析的一些方法都有了,你需要做的,是利用之前學過的Python 的一些庫(pandas、Numpy、matplotlib)來實現這些數據分析的方法、實現基本的可視化來進行圖形化的分析。——DataCastle

《MySQL必知必會》:這本也是我當年學習SQL的入門書,薄冊子一本,看起來很快。SQL是個性價比很高的技能,簡單而強大。任何想進一步提高自己數據分析技能的產品/運營/分析師 同學,都建議點亮這個技能點。——Simon

這本書把SQL寫的非常簡單,沒辦法,SQL確實也很簡單。其實pandas 就已可以實現很多數據管理的工作,而了解SQL 的意義在于融入到實際的數據使用的場景。比如企業的數據,多是以數據庫的形式存儲起來的,那么如果你需要去調用你需要的那部分數據,那么SQL就是必須的技能。如果你在最開始就想用公司的數據來練習,那么你可以把這本書的閱讀放到最前面。(當然,如果你不回遇到數據提取的問題,SQL這部分也可以暫時不管,對具體的數據分析沒有影響,等到你真正需要用到SQL的時候再學習。)

MySQL本身比較簡單,對于數據分析師來說,只需要掌握基本的語句和技巧,能夠進行基本的數據提取和處理就能夠應對一般的數據分析需求了。

書中重點掌握以下幾個點:

SELECT語句:讓你能夠去提取你需要的那部分數據; DELETE和UPDATE:知道怎么實現數據的增、刪、改; 數據過濾:where、and、or、通配符等過濾方式; 數據的匯總和分組、數據庫連接:應對更加復雜的數據和相關聯的數據; 子查詢:查詢中的查詢。

當然還是希望你去公司的數據庫找一些數據來進行練習,如果不方便的話,也可以直接用上述UCI數據集中的數據來進行實踐。

如果遇到問題,可以去菜鳥教程查詢相關操作。

MySQL 教程 | 菜鳥教程

好了,恭喜,你已經基本入門了。到此,你就完全可以去進行一個完整的數據分析項目了,如果你沒有頭緒,可以去找一些行業的分析報告來看看,找一找分析的思路。能夠獨立完成一些項目,通過數據分析能夠得出一些深刻的結論,能夠給人以可視化的形式將結果描述出來,能夠基于歷史數據對未來的一些情況進行預測,那么一般的數據分析崗位,完全可以勝任了。

互聯網增長的第一本數據分析手冊:GrowingIO出的一本數據分析的增長手冊,為大家提供常見的分析手段講解,如漏斗分析,同期群分析等等。可在GrowingIO技術論壇中免費下載。

《利用Python進行數據分析》:這應該是最經典的數據分析書之一了,作者是pandas 庫的作者WesMcKinney 。所以這本書對于pandas 的理解,應該是非常深刻的,而利用梳理介紹的pandas、bumpy、matplotlib 等庫,應對一般的數據分析,完全足夠了。

書中應該重點掌握的一些點:

IPython Notebook 的使用:最適合小白的代碼編寫環境,非常容易上手; 科學計算庫 Numpy:數組和矢量計算、學會利用數組進行數據處理; 數據處理及分析工具 pandas:數據查詢,缺失值、重復值、異常值的處理,數據的合并與規整化,基本的描述性分析及可視化; 可視化工具 matplotlib:用這個庫,基本的數據可視化問題皆可以解決了。

看上去是不是很簡單,這本書就是教會你如何開始使用Python 進行數據分析,當然首推的就是pandas ,不僅可以做數據的預處理,還能夠做基本的數據分析和可視化。這個庫一定是你開始入門的時候需要重點學習的,其次用Numpy 進行數組的計算、利用matplotlib 進行可視化的描述性分析,也是同步需要掌握的東西。

但是,這個部分光看書是遠遠不夠的,你可以盡量去找一些可以練手的數據集,來實際操作和調用這些庫的功能,確保熟練數據分析中最常用的函數和模塊。如果糾結去哪找練手的數據,推薦UCI經典數據集。

關于pandas、Numpy、matplotlib 網上應該可以搜索到很多有用的資料、教程,可以看一看別人的使用技巧、應用場景,并通過練習轉化成自己的經驗。

因為Python 庫的更新迭代非常快,這本書里額一些內容其實已經“過時”了,這里也非常建議你去查看一些官方的文檔,基本上你需要的都能查到。

pandas 官方教程文檔

Numpy 官方教程文檔

matplotlib 官方推薦教程文檔

另外,在進行一些數據處理、數據分析的時候,你可能需要去了解一些更細節的Python 的用法,這里就不推薦書了,因為你沒必要去系統地學,按照這個菜鳥教程看看或者查詢相關的用法就OK了。

Python3 教程 | 菜鳥教程

Part 3 | 高階版

更高階的數據相對來說專業性較強了,如涉及到企業內部數據治理,數據結合的業務分析,數據可視化等。當然,還有數據挖掘算法之類的更深入的東西,這塊沒有研究就不瞎推薦了

《精益數據分析》:此書優勢在于將企業分成了幾個大的行業類別,并分門別類的講解了每個行業的商業模式特點及分析技巧,對使用者的分析能力要求較高,且必須具備相應的業務知識。——Simon

書中主要講到各種產品中用到的指標和模型,這是一本寫給產品經理的書,其中并沒有具體的數據分析技術,涉及到的更多是數據驅動型產品的一些思路。

比如怎么將數據驅動的產品落地,怎么為產品設計數據指標,哪些指標對于產品迭代優化更有效,如何依靠數據分析來驅動用戶增長等等。——DataCastle

《數據之美》:本書通過世界上最好的數據工作者的示例,向讀者展示處理數據的方法。本書使得讀者可以站在優秀的數據設計師、管理者和處理者的肩上,去仔細審視涉及到數據的一些最有趣的項目。

《決戰大數據》:阿里巴巴前數據副總裁車品覺老師所著,講解了阿里巴巴在企業內部治理數據過程中的新的,所講“存-通-用”數據管理三板斧和“從數據化運營到運營數據”,字字珠璣,可堪借鑒。

《The Wall Street Journal Guide to Information Graphics》:華爾街日報負責商業分析的人做的可視化指南,精華且實用,之前做的讀書筆記可供參考【華爾街日報是這樣做數據可視化的(1)】

《數據科學實戰》:這本書應該是數據分析和數據挖掘(機器學習)之間的橋梁。從探索性的數據分析開始,通過數據分析的思維,引出了機器學習的基本算法:回歸分析、k近鄰、k均值。接著通過不同的應用場景分別介紹了最常見的機器學習算法,以及在真實場景的應用。

對于做了一段時間數據分析工作的人,這無疑是進階更高維度的好書,很難有一本書,能夠讓你從簡單的數據分析平滑地渡到機器學習和數據挖掘,這本書我認為是這方面做的最好的一本。

所以如果你在做一些探索性的分析遇到瓶頸之后,自然而然會進入數據挖掘和機器學習算法的坑,因為只有更高級的算法和模型,才能夠支撐大規模的數據的預測。

下面列出一些書中有意思也比較有用的點:

了解探索性數據分析,為更高級的需求打好基礎; 了解機器學習的基本算法、k近鄰、k均值等; 用樸素貝葉斯方法做垃圾郵件的過濾; 線性回歸和邏輯回歸的分析方法; 如何從數據中獲取結論,從數據挖掘競賽開始; 構建自己的推薦系統; 數據泄漏與模型評價,如何篩選模型。

Part 4 | 推薦關注

在知乎上有不少數據分析及Growth的大牛,在這里推薦幾位我熟悉的,經常會寫一些相關的文章:

覃超,前Facebook 早期工程師,關于增長黑客寫了許多優秀的文章;

鄒昕,Facebook 用戶增長數據分析,在數據分析方面很有見解;

范冰,【增長黑客】一書作者,人非常有趣,同事也非常推薦【增長黑客】這本書;

曾加,螞蟻金服 BI-數據分析,數學方面的牛人;

何明科,專注于數據和互聯網產品,許多回答很值得細看

對于推薦的書籍來講,有一位前輩能對這本書有所評價并告訴后輩的,無異于考試時書上畫了重點,所以,關于數據分析的書,有這么一篇就夠了。

但是關于產品的書,從網上找到的書單涉及到的書太多,因為產品經理需要對各個方面都有所了解,要對各個領域都列出個書單的話,也沒時間看,畢竟人的精力是有限的,還是要有所選擇。

這里想講一個選書的方法,將每一位大牛列出的書單視作他們的一個產品,將產品領域各位大牛的書單做個競品分析,列出每個書單的相同點,也就是找出每份書單都會出現的書,對于新人來說,從這些書中開始讀,準沒錯。

產品崗位是近幾年才逐漸有了系統化的培訓,在之前魚龍混雜的時代有人出了一本書各個產品人一定都有所涉獵,而那個時候產品可選擇的書籍并不多,這些人中又漸漸了出了大神,值得被多位大神站臺的書籍,就是對內容最好的保障。

一個真心喜歡工作的2年產品新人,目前學習的方法是通過書籍掌握基礎脈絡再通過碎片化的文章往不同的方向延伸,期望只通過能力而不通過公司的背景和光環被人認可。



來源:36大數據

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,461評論 6 532
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,538評論 3 417
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,423評論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,991評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,761評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,207評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,268評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,419評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,959評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,782評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,983評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,222評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,653評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,901評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,678評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,978評論 2 374

推薦閱讀更多精彩內容