給大數據入行者的,建議和書單

入行必讀:與大數據相關的工作職位有哪些?

國內某知名互聯網公司,有關數據分析師崗位的,要求描述:

1. 計算機、統計學、數學等相關專業本科及以上學歷;

2. 具有深厚的統計學、數據挖掘知識,熟悉數據倉庫和數據挖掘的相關技術,能夠熟練地使用SQL;

3. 三年以上具有海量數據挖掘、分析相關項目實施的工作經驗,參與過較完整的數據采集、整理、分析和建模工作;

4. 對商業和業務邏輯敏感,熟悉傳統行業數據挖掘背景、了解市場特點及用戶需求,有互聯網相關行業背景,有網站用戶行為研究和文本挖掘經驗尤佳;

5. 具備良好的邏輯分析能力、組織溝通能力和團隊精神;

6. 富有創新精神,充滿激情,樂于接受挑戰

其中,前三條屬硬件要求。一般而言,對于有專業基礎(計算機、統計學、數學等相關專業)的同學,入行需要3個月以上的學習與準備時間;而對于非專業背景的轉行者來說,入行可能需要更久一點,建議6-12個月的預留時間是合理的。而要成為一個熟練的大數據從業者,2-3年以上的項目和行業經驗則是在所難免。

數據分析是一種工具,在金融、互聯網、電子商務、公共服務、醫療健康等領域都有著廣泛的應用。職位上,偏業務的,有數據分析師、數據產品經理、數據挖掘師等;偏技術的,有大數據工程師、架構師、算法工程師等。晉升通道,是業務主管/數據中心主任、CIO/CDO/CTO、VP、首席數據科學家。可見,數據分析對專業背景和知識素養都有相當的要求,再加之大數據在數學和計算機領域的交叉屬性,從事大數據都有一定的門檻限制。

要不要轉行?

要不要轉行,實際上涉及到職業規劃的問題。對此,曾有位哲人發表見解,”最重要的人際關系,是自己與自己的關系,知道自己要什么,不要什么“。這在轉行問題上,也是一樣。相對于10年以上的職業生涯,拿半年時間用來學習該項技能,還是挺劃算的。

讀到這兒,可能有人會說了,轉行會讓之前幾年的經驗積累統統作廢。而實際上,小編認為不必過于擔心,因為無論轉到哪一行,社會經驗和人生理念是都會發揮作用的。而之前的人際關系也類似“山不轉水轉”的問題,很難界定說哪類人際關系有用,哪類無用——基于這個道理,應全部視作有用。

人生的機會并不多,即使到了30歲,對大多數人來說,這也只是職業生涯的前半部分,完全不必縮頭縮腦患得患失。要知道,不怕失去,才有可能收獲更多。如果有了明確的發展規劃,何不義無反顧地投入到新的開始呢?!

如何轉行?

明確了要不要轉行之后,就又回到如何轉行的問題上來了。

如果你尚未畢業,建議先打好基礎,學好概率與數理統計、數值分析、多元分析、泛函分析、軟件工程等,可以選修軟件工程、數據庫原理、一到兩門編程語言; 同時掌握分析工具(如spss/R/matlab)原理;有時間的話,可以參加一些數據建模方面的大賽,對自己能力提升和職業生涯會很有幫助。

如果,你已經是一個從業者。要想跨入數據分析師,也許很多情況下你只能從“工人”做起(這意味著在很大長一段時間內,你的工作內容都可能比較枯燥,做的也都是沒有“技術”含量的內容),但當你慢慢成為“熟練工”時,隨著行業知識和技能的積累,你也會走上“數據設計師”之路。開始從事“高大上”或更有技術含量的工作。

一、至少花三個月掌握技術

正所謂“磨刀不誤砍柴工”,作為一個技術工種 ,至少花3-6個月的時間學習大數據分析相關基礎知識,是不過分的。時間分配如下:

1、花1個月時間,學習數據庫、sql知識,推薦《 深入淺出 SQL(中文版)》;

2、花1-2個月時間,學習基礎的統計學知識,搜集統計學學習資料,列個統計學書單;

3、花1個月時間,學習最基礎的數據挖掘模型, 推薦《數據挖掘導論( PDF 中文完整版)》;

4、花1個月時間,掌握一門基礎的挖掘軟件。

基礎夯實之后,還要保持持續的學習能力。堅持學習各類知識,不僅限于技能層面。

二、選擇感興趣的行業

如果,你還沒畢業。

可以在結合熱門行業的基礎上,分析自己的興趣。選定一個行業后,可以通過互聯網,熟悉所行業對應的商業模式。有機會,也可以參加一些同行的沙龍或分享,以了解該崗位的人都在做什么 。并對比自己當前的知識儲備,有針對性地補充知識。

如果,你已是從業者。

選擇本行業或相關行業,會讓你的行業經驗和業務知識,更好地發揮優勢。

三、開始尋找機會

對于跨行業轉入的同學,當你做好上述準備的時候。就可以著手找個機會了:

1、內部轉崗

2、選擇中、小型公司,先入門,再修行。

幾點建議

1)勤動手,多實踐:

看書和看視頻是學不會數據分析的。多參加一些項目,擼起袖子玩數據(make your hands dirty)。通過校內大賽增加實踐機會,入行時候找一份能接觸到數據的崗位(任何崗位都可以,市場、運營之類的職位很多)。

工具先從一個容易上手的學起,excel/spss/sql都可以,順手就行,后續可以再學高級工具如R或者python,用到專精同樣有殺傷力。

2)終身學習:

前面已經講過了,即便用一段時間掌握了大數據分析相關基礎知識,也還是要在之后的從業生涯里,保持持續的學習力。

因為,大數據是一個實踐性很強的學科,從實際工作中獲取的知識和能力是學校里無法獲得的,企業最終看重的,也是一個人的實際工作能力。你可以在學習社區通過分享和交流,補充課外知識和get新技能。

推薦的書籍

1.《統計學習基礎 數據挖掘、推理與預測》

盡管應用的是統計學方法,但強調的是概念,而不是數學。《統計學習基礎:數據挖掘、推理與預測》內容廣泛,從有指導的學習(預測),到無指導的學習;從神經網絡、支持向量機,到分類樹、提升等主題,應有盡有,許多例子還附以彩圖,是同類書籍中介紹最全面的。計算和信息技術的飛速發展帶來了醫學、生物學、財經和營銷等諸多領域的海量數據。理解這些數據是一種挑戰,這導致了統計學領域新工具的發展,并延伸到諸如數據挖掘、機器學習和生物信息學等新領域。

2.《模式分類》第二版

除了保留了第1版的關于統計模式識別和結構模式識別的主要內容以外,讀者將會發現新增了許多近25年來的新理論和新方法,其中包括神經網絡、機器學習、數據挖掘、進化計算、不變量理論、隱馬爾可夫模型、統計學習理論和支持向量機等。

3.《推薦系統實踐》

過大量代碼和圖表全面系統地闡述了和推薦系統有關的理論基礎,介紹了評價推薦系統優劣的各種標準(比如覆蓋率、滿意度)和方法(比如AB測試),總結了當今互聯網領域中各種和推薦有關的產品和服務。

4.《深入搜索引擎–海量信息的壓縮、索引和查詢》

理論和實踐并重,深入淺出地給出了海量信息數據處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在于不僅僅滿足信息檢索理論學習的需要,更重要的是給出了實踐中可能面對的各種問題及其解決方法。

5.《概率論與數理統計》

這本書不用過多介紹了吧,普遍大學里大一時期的教科書,只恨當年沒聽課啊,現在正在慢慢啃。

6.《大數據:互聯網大規模數據挖掘與分布式處理》

主要內容包括分布式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統。

7.《Web數據挖掘》

信息檢索領域的書籍,該書深入講解了從大量非結構化Web數據中提取和產生知識的技術。書中首先論述了Web的基礎(包括Web信息采集機制、Web標引機制以及基于關鍵字或基于相似性搜索機制),然后系統地描述了Web挖掘的基礎知識,著重介紹基于超文本的機器學習和數據挖掘方法,如聚類、協同過濾、監督學習、半監督學習,最后講述了這些基本原理在Web挖掘中的應用。《Web數據挖掘》為讀者提供了堅實的技術背景和最新的知識。

8.《數據之巔》

對大數據追根溯源,提出當前信息技術的發展,已經讓中國獲得了后發優勢,中國要在大數據時代的全球競爭中勝出,必須把大數據從科技符號提升成為文化符號,在全社會倡導數據文化。

9.《深入淺出統計學》

本書涵蓋的知識點包括:信息可視化、概率計算、幾何分布、二項分布及泊松分布、正態分布、統計抽樣、置信區間的構建、假設檢驗、卡方分布、相關與回歸等等,完整涵蓋AP考試范圍。

10.《矩陣分析》

本書從數學分析的角度論述矩陣分析的經典方法和現代方法,取材新,有一定的深度,并給出在多元微積分、復分析、微分方程、量優化、逼近理論中的許多重要應用。主要內容包括:特征值、特征向量和相似性,酉等價和正規矩陣,標準形,Hermite矩陣和對稱矩陣,向量范數和矩陣范數,特征值和估計和擾動,正定矩陣,非負矩陣。

11.《統計學習方法》

本書全面系統地介紹了統計學習的主要方法,特別是監督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦回歸與最大熵模型、支持向量機、提升方法、em算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最后一章總結外,每章介紹一種方法。敘述從具體問題或實例入手,由淺入深,闡明思路,給出必要的數學推導,便于讀者掌握統計學習方法的實質,學會運用。為滿足讀者進一步學習的需要,書中還介紹了一些相關研究,給出了少量習題,列出了主要參考文獻。

12.《機器學習導論》

對機器學習的定義和應用實例進行了介紹,涵蓋了監督學習。貝葉斯決策理論。參數方法、多元方法、維度歸約、聚類、非參數方法、決策樹。線性判別式、多層感知器,局部模型、隱馬爾可夫模型。分類算法評估和比較,組合多學習器以及增強學習等。

《機器學習及其應用》:全書共分14章,內容涉及因果推斷、流形學習與降維、遷移學習、類別不平衡學習、演化聚類、多標記學習、排序學習、半監督學習等技術和協同過濾、社區推薦、機器翻譯等應用,以及互聯網應用對機

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容