我在之前介紹北美各種和數據分析相關職位要求的時候,從技術層面上列舉了一些數據科學家需要的技能。我們現在進一步討論下這個職業需要的不同方面技能。
首先談談數據科學家的教育背景。數學、統計、計算機或其它定量分析學科(電子工程,運籌學等)的本科以上學歷是必須的。根據2015年的統計數據,美國的數據科學家有48%有博士學位,44%有碩士學位,只有8%是本科。
研究生博士期間的課題最好偏向機器學習,數據挖掘或預測模型。其次需要的是數據庫操作技能。在工作中通常需要用SQL從數據庫讀取數據。所以能熟練使用SQL是基礎。對于統計或者數學專業的學生,在校期間可能不需要使用SQL,因此不太熟悉。這沒有關系,我也是工作以后才開始使用SQL的。但你要確保自己至少精通一種程序語言,之后遇到需要用到的新語言可以迅速學習。在學校期間的主要目的不是學會畢業后所需的全部技能,這是不可能完成的任務。高等教育(本科,研究生和博士)后應該具有的是基本的專業知識和自學能力。數據科學和很多其它領域一樣,需要終身學習。
有很多人問,要成為優秀的數據科學家是不是一定需要博士?這個問題很難用簡單的是或者不是來回答。我看到的大多數優秀數據科學家確實都有博士學位,其余也都是碩士。我并不是要說高學歷是成為優秀數據科學家的必要條件,其實真正重要的不是那個學歷本身,而是拿到那個學歷的過程,以及會選擇獲許這些學位的人共有的一些特質。
在美國,一般情況下,如果你拿到數理專業的博士學位,至少說明一個問題,就是你對學習的東西有興趣。這樣成天在電腦前面分析數據,編寫程序的生活,對于那些對此不感興趣的人來說必定是難以想象的痛苦。其次是研究生期間系統的理論訓練。很多人可能覺得模型背后的數理知識不重要,只要會用模型就可以。統計軟件使得很多模型使用者不需要知道具體的模型原理。
了解模型原理是否能夠幫助你更好的使用模型?當然會有幫助。但問題是這個幫助有多大?是不是值得我們花幾年時間去學習?學習很多東西的好處是很難用短期去衡量的。我沒有嚴格的分析,只是個人覺得了解模型原理是必要的。
我很喜歡一個詞“匠人精神”,也很樂意將“數據科學家”稱為匠人,這是一種精益求精的精神。當然這種精神和學位沒有必然聯系,有本科畢業而對數據科學很感興趣,自己學習也能夠對這個學科有很深的理解。但大多數對這個領域感興趣又具有“匠人精神”的人都有相關領域的更高等學歷。最后,當然就是學習的能力。即使拿到博士學位,也不意味著學完了所有知識,而是具備進一步自學的能力,可以自己看懂數新方法的論文,也就是具備了在這個領域發展的自學能力。總的來說,這個領域的高學歷現象并不能說明學歷是必要條件,也不是充分條件。真正重要的是興趣、匠人精神和自學能力。
編程能力也是數據科學家需要的基本技能。熟練使用一種編程語言是必須的,如R,Phython,C等。有人可能會問,只會SAS夠不夠?個人意見是:不夠。這里不想對SAS過多評價。我的建議是大家至少要熟悉一門開源語言。當然,這些都只是工具,工具是解決問題的手段,而非目的。你必須要有一個能用來進行數據分析的工具,偏好因人而異,但你選擇工具的時候最好考慮工具的靈活性和可擴展性。
接下來就要提到具體的分析技能。數據科學家應該掌握高等概率統計,能夠熟練進行t檢驗,開方檢驗,擬合優度檢驗,方差分析。能夠清楚的解釋Spearman秩相關和Pearson相關之間的區別。熟悉抽樣,概率分布,實驗設計相關概念。了解貝葉斯統計(很快就能在白板上寫下貝葉斯定理)。知道什么是有監督學習,什么是無監督學習。知道重要的聚類,判別和回歸方法。知道基于罰函數的模型,關聯法則分析。如果從事心理相關的應用的話(如消費者認知調查),還需要知道基本的潛變量模型,如探索性因子分析,驗證性因子分析,結構方程模型。
這個單子還可以一直列下去。看起來是不是不只一點嚇人?我說過,數據科學家不是一個低門檻的行業,之前需要接受的訓練對于沒有興趣的人來說是無比痛苦的。還有,單子是動態的,因為你在工作過程中還是需要不斷學習。這些技能只是讓你能夠很好的開始。再次強調自學能力和成為一個終生學習者是優秀的數據科學家的必要條件。
除了技術能力以外,還需要其它一些非技術的能力。這些包括將實際問題轉化成數據問題的能力,這一過程需要交流,也就要求良好的交流溝通能力。關注細節,分析是一個需要細心和耐心的職業。還有就是展示結果的能力,如何讓沒有分析背景的客戶理解模型的結果,并且最終在實踐中應用模型的結論?!皵祿茖W家技能表”中總結了數據科學家需要的各方面技能。
總而言之,關于數據科學家有三個關鍵詞:數據,科學和藝術。
數據是基礎;科學是工具;藝術是紐帶,最終通過藝術將數據和科學結合得出的結果轉化成相關領域的可應用知識,解決問題,真正產生價值。
在實際應用中,以需要解決的問題為導向的思維方式很重要,否則分析很容易淪落為手段淹沒目的的過程,很多分析行業的人就會犯這個錯誤,一味追求高大上的模型,酷炫的可視化,而忘了分析的根本目的是為了解決問題。說到這里,大家應該對這個行業有了一些概念性的了解,可能有小伙伴會問:你這么強調數據科學是為了解決問題的,那么都解決哪些問題呢?之后有時間我會寫下數據學科家都解決哪些問題。