數據分析讓我通過數據,以“上帝視角”看世界,這是我選擇數據分析行業的主要原因。
本文從以下幾點為你梳理轉行數據分析的思路,
- 人人都可以轉行數據分析么?
- 數據分析行業升級路線
- 轉行數據分析的學習路線以及資源
花了一周時間打磨這篇文章,為的是盡可能客觀真實地給你一個轉行數據分析的思路,如果你覺得本文有幫到你,那就點贊支持一下吧,俗話說,光收藏不點贊都是耍流氓噠
01 人人都可以轉行數據分析么?
我學的專業是電路與系統,就是設計電路的,一直學到碩士(只要喜歡,轉行永遠不遲)。
畢業后我去了一家世界500強企業從事搭建手機通信芯片里面一個小電路的工作,干了一年半,在轉行的念頭中掙扎了半年,然后裸辭回家,思考人生。
待業家中7個月,期間干了很多事兒,也想清楚了很多事兒,便一頭扎進大數據行業,用了一年從excel都用不太溜的小白成長為數據分析主管(偏數據挖掘)。
轉行窮三年,一點都沒錯,如果用薪資概括我的轉行歷程,就是這樣的
轉行前月入五位數 --> 轉行初期五位數的第一位直接抹掉 --> 現在把轉行初期*400%
這就是我的轉行經歷,說來三言兩語,但其中坎坷只有自己知道,所以我開通了這個專欄,分享我的技術學習路線以及相關知識點解讀,希望能夠幫助你避開大坑,少走彎路。
另外,有很多朋友問我:現在轉行是不是太遲了?轉行大數據行業是不是太難了?
這些朋友中有前同事,有一起寫作的戰友,也有剛畢業的大學生,我想,讀到這篇文章的你或多或少也會有這樣的疑問和擔憂。
所以,我特別想分享兩個我的觀點:
只要喜歡,轉行永遠不遲:生命那么長,怎么會因為做了幾年某個方向的工作,就把自己的標簽貼牢了呢?就我個人經歷而言,我花了7年學習電路專業知識,花了1.5年從事電路設計工作,到頭來還是扎進了另一個毫不相干的行業。
別被高大上的名詞唬住,大數據的逼格沒有你想象的那么高:即使是偏技術的數據挖掘端,我們平時大多數時間也是在清洗數據,而不是你想象的在鼓搗AI。就我個人經歷而言,轉行之前我的知識全在硬件方面,軟件一竅不通(excel都用不咋溜),但只要你愿意在別人打游戲追劇逛街的時候,默默學習相關知識,你也可以攻下“大數據”。
02 數據分析行業升級路線
進入數據分析行業兩年,平時會面試一些同學,我發現一個共性:
大部分應屆生,或者轉行的同學,對于數據分析行業的理解有較大偏誤(或者干脆沒想過……)
所以我單獨提一章出來,從一個從業者的角度說說對數據分析行業的理解,希望能讓“數據分析行業”在你腦海中有一個清晰的地圖,也希望能夠幫助陷入轉行掙扎的你看清方向。
數據分析行業是大數據行業的兒子,他的兄弟姐妹包括:數據采集、數據工程、數據產品等,簡單來說,他們之間是這樣協作的:
- 數據采集端主要負責采集相關數據,這些數據既可以來自埋點,也可以來自爬蟲,采集量的話,比如我所在公司主攻電商大數據,就京東平臺而言,月產品抽樣采集量一般在三千萬左右。
- 數據工程端簡單來說主要負責結構化存儲海量數據,使得采集到的數據以及歷史數據以最優化的方式被存儲以及調用,涉及到的知識點在于數據庫方面,從最基礎的SQL到Hadoop集群、分布式存儲、NoSQL等。
- 數據分析端主要負責將待挖掘的數據清晰、挖掘、分析,給出數據背后的洞察和建議,此方向又可細分為偏業務的數據分析和偏技術的數據挖掘,后面我們細講。
- 數據產品端也可以理解為懂數據分析的產品經理,此方面我涉獵不多,就不多做評價啦。
下面重點講一講數據分析端
數據分析較為新興,因此其崗位職責劃分也是各家有各家的說法,不過總體可以概括為以下兩個方向:
- 偏業務的數據分析方向
- 偏技術的數據挖掘方向
我們分別說一說
偏業務方向
數據分析師(偏分析),此方向更看重邏輯思維,比如你思考框架的完整性、思維的靈活性。相比于比較傳統的商業分析師、行業分析師,除了對業務的深入理解之外,你需要有對數據有更敏銳的嗅覺。
此方向是大多數人轉行大數據行業的起點,你需要熟練office軟件、excel等,薪資在大數據行業中處于中下水平。數據分析師(偏數據),此方向更看重數據處理基礎,比如從數據庫中按需求取數、按需求統計數據等,相比偏分析的數據分析師,你需要更加熟練excel、sql等,當然,對業務的理解也非常重要,因為有時候你從數據出發的建議對分析端會有巨大幫助。
此方向是從數據分析師向數據挖掘等技術崗升級的路線之一,你需要熟練sql、excel等,薪資相對偏分析的數據分析師有一定提升,但天花板不夠高。
偏技術方向
數據挖掘工程師,此方向更看重數據技術,比如統計學基礎、數據庫操作(SQL等)編程基礎(python等)、機器學習基礎(分類模型等),同時你還需要對業務有一定程度的理解(要不怎么挖掘數據呢?)。數據挖掘工程師的主要工作是利用已有的算法模型,對業務數據進行清洗、建模、分析(用輪子)
此方向薪資遠大于數據分析師,天花板也較高,不過升級有一定難度。算法工程師,此方向更看重理論基礎,比如機器學習算法原理、相關數學原理等。算法工程師的主要工作一般是研究算法、為公司的相關業務需求優化算法(造輪子、修輪子、優化輪子)。
此方向薪資非常高,天花板也高,不過一是升級難度大,二是市場需求沒有數據挖掘等方向大,一般是大型大數據公司才會需要這個崗位,比如BAT(中小公司由于成本問題,一般用輪子就好,最多稍稍優化一下已有的輪子)
這就是目前數據分析行業的升級地圖,希望能夠幫助迷茫的你看清數據分析行業的樣子,更快找到適合自己的發展方向,少走彎路。
p.s. 以上技能要求我給的是最低要求,實際你應該掌握包括但不限于我給出的技能要求
03 學習路線、方法和資料
相信我,只要你愿意在別人打游戲追劇逛街的時候,默默學習,你也可以攻下“大數據”,我的這條路是普適的,你也可以。
0基礎轉行數據分析,雖然買了很多課程、看了很多回答,我還是走了很多彎路,回想起來,如果有人能在那時給我一條清晰的升級路線和學習方向,我至少可以節省6個月的學習時間,所以當我有能力為后來者點明方向時,我會盡我所能為后來者理清學習方向。
下面是我的學習路線,為避免你看糊涂,我把我走的彎路去掉了,只留下從0到1這條直直的學習路線,如果你想轉行數據分析,多看幾遍,以后你會來感謝我的!
基礎篇(適用于初級數據分析師)
1. excel
- 關鍵知識點:excel基本函數(sumif,countif,left,rand等)、lookup(vlookup/hlookup),數據透視表
- 學習時長:一周(一天4小時算)
- 學習資源:個人不建議一來就搞一本厚厚的大部頭,根據我說的關鍵知識點,自行搜索用法+練習即可
2. sql
- 關鍵知識點:增刪改查,特別是條件查詢(where, group by, order by等)
- 學習時長:一周半(一天4小時算)
- 學習資源:
- 免費的學習網站codeacademy,跟著sql基礎課程敲了一遍即可,現在這個網站需要科學上網才可以注冊和訪問
- 《sql必知必會》不用全讀,根據關鍵知識點學習即可
- 自行搜索用法+練習
3. python
-
關鍵知識點:numpy,pandas,matplotib,seaborn包的熟練使用
- 注意,python可以干的事兒太多了,從web開發到算法模型,瞄準你的目標-數據分析,專注學我說的這幾個包就可以了
- 學習時長:6周(一天4小時算)
- 學習資源:
- 《利用python進行數據分析》,主講numpy和pandas用法,瀏覽一遍,用作工具書
- 按照我給的關鍵知識點,自行搜索相關包的官方說明,非常詳盡(初級英語閱讀能力)
4. 統計學
- 關鍵知識點:概率論、假設檢驗、分布(泊松、二項、正態等)、統計抽樣等
- 學習時長:3周(一天4小時)
- 學習資源:《深入淺出統計學》比較適合小白入門,書很厚,別怕,都是圖
進階篇(適用于中級數據分析師、數據挖掘工程師)
5. 數學知識
-
關鍵知識點:
- 線性代數:線性代數:矩陣運算,矩陣特征(秩、跡、特征值特征矩陣、相似矩陣、正定矩陣、逆矩陣、非奇異、行列式)、線性相關,向量空間,向量范數,矩陣范數,最小二乘法,最大似然估計
- 微分:極限,導數,偏導數,泰勒展開,梯度下降法,牛頓法
- 凸優化:凸優化:基本概念(凸集合,凸函數,上境圖,凸組合,凸包),凸優化(拉格朗日對偶性,對偶問題,KKT條件,拉格朗日乘數法)
學習時長:4周(一天4小時算,最好學過高等數學)
學習資源:根據我給出的關鍵知識點,對著教材學習或自行搜索知識點關鍵詞學習
6. 數據挖掘算法
- 關鍵知識點:分類、回歸、聚類、關聯規則挖掘、降維等
- 學習時長:4周先把分類回歸理論和代碼搞定,剩下4周搞定后面的,理論理解更重要
- 學習資源:
- 《統計學習方法》經典,主講分類算法,偏理論推導
- 《機器學習實戰》過癮,對著《統計學習方法》來一套,保證你對理論明明白白
- 《機器學習》周志華老師的,也是經典
- 以上所有算法的代碼實操+理論解讀也可以參考我的GitHub
7. 神經網絡
- 暫略
最后說幾個學習過程中的大坑:
- 想把所有板塊的知識學完再學下一個:錯!舉個例子,python可以做的事情太多了,你要把python學完再進行下一步么?怎么辦?學我說的關鍵知識點就夠了。
-
先學技術,在搞分析:錯!分析比技術門檻低得多,如果你想轉行數據分析,建議從偏分析的數據分析師入手,比如自己寫個分析報告作為敲門磚,技術可以在工作后利用下班時間學習。
剩下的坑待補充
相信我,只要你愿意在別人打游戲追劇逛街的時候,默默學習,你也可以攻下“大數據”。
04 專欄更新計劃
開通這個專欄,目的在于把我這兩年的學習精華送給你,跟著我的專欄一步步學習,你也可以從數據分析小白變成獨當一面的能手。
文章結構
1. 基于學習時間線的技術學習文章
- excel關鍵函數解讀與練習:待更新
- sql增刪改查語法解讀與練習:待更新
- python關鍵函數解讀與練習:numpy, pandas、可視化已更新,leetcode練手已更新
- 數據挖掘算法:所有算法的代碼實操+理論解讀已更新
- 神經網絡:待更新
2. 趣味數據分析
- 爬取拉勾數據并分析:想成為大數據人才?你得擁有這些能力!
- 共享單車需求分析
- 餐廳小費分析
- 待更新
3. 經驗建議類
- 本文
- 待更新
以上便是專欄文章結構以及更新計劃,動動手關注專欄,讓我們一起探索大數據的樂趣吧!