先掛上一張大概一年前就火了的數據科學的技能列表圖,乍一看很像地鐵圖,極客范兒們會不會默默地把它當作桌面呢。一看到十大類的這么多技能,又興奮又壓力,如此高能還是不要經常看比較好。1.基礎-2.統計-3.編程-4.機器學習-5.NLP-6.可視化-7.大數據-8.資料擷取-9.數據清洗-10.工具箱,在數據分析相關領域從事1年左右應該就可以涉獵其中的7個點左右,但應該做不到每一項都很深,畢竟技能很多,有些點,如果把其中一項搞透就很大拿了。
把上面的技能籃轉化成路線的話,可以簡化一些,畢竟成長是需要一步一步腳踏實地積累的,有幾下四個主要的方面。
1.從問題出發
以結果為導向,以項目為目標是最快的學習一項技能的方法,如果自己沒辦法提出一個感興趣的題目,可以先去Kaggle上,看看一些公司都在關注什么項目,看看一些隊長們都是怎么分析問題的。在這同時,可以練習Python的各種Package,一些主要機器學習算法的應用實例,還有編程能力,這時可以快速學習一本‘Learn Python the Hardest Way’,學過編程的人都知道語言都是相通的,會了一門掌握了骨骼,其他的語言就可以通過熟悉和練習‘語法’和‘單詞’進行運用,當然每種語言還有它的特有魅力,可以單獨修煉。
2.分析能力
第一步只是一個快速了解大體流程的環節,數據科學家最值錢的地方是分析能力以及將分析與商業實踐結合的能力。這里不一定非要是數學專業的,但統計學還是至關重要的,不僅有分析問題的整套思路,而且統計學還在很多機器學習算法的發展中起著重要作用,在日后用算法的時候也會更加得心應手。商業意識可以看看麥肯錫的報告,既能鍛煉一種分析問題的邏輯,還能培養洞察趨勢的敏銳。
3.硬件技能
技術還是王道,在具有較強的分析能力的基礎上,要掌握一些技能,才能更好地與數據愉快地玩耍,更快更準更高效。大家熟知的Hadoop,SQL,Python,R等等,數據可視化也是很重要的一方面,R的入門要比D3.js要簡單一些。可視化和分析能力是相輔相成的,當你有了分析結果時,你需要更準地傳達給相關者,當你還在分析中,有效的可視化,可以幫助你打開思路,發現問題所在。
4.課程
學習是一個人一生唯一的職業。算法,數據結構,文本分析,圖像分析,數據挖掘,定量分析,決策分析,競爭分析,預測分析,數據管理,優化和啟發等等。雖然我不打游戲,但是上面的技能圖讓我有種和其他游戲者一樣的興奮感,當你一關一關地把這些有用的技術,先進的思想收入囊中,一點點充實你的裝備庫,就會覺得強大了很多,不僅可以打小怪獸,甚至可以去火星救援了。
這條路很美,值得堅持五年,十年,二十年,都會一直很有趣。