Pooja Ramesh 兩年前辭去了她在Intel公司的工程師工作,隨后結婚并搬到了Denver,在這之后她花了一些時間去尋找一份新的工作。
事實上,她在去年秋天花十二個星期進行了數據科學家的職業培訓,而這份職業現在已經成為 2016 年最熱門的職業之一。
“一切都很順利”,Ramesh 說道。她曾經兼職為 Galvanize 公司的數據科學項目工作,這些項目探究如何使用數據科學更快速地探測到乳腺癌。
“我當時負責進行統計分析,但是我并不知道它原來可以歸類到數據科學中。直到去年秋天我參加了培訓,我才意識到我曾經做的就是數據科學家的工作。”
數據科學家是傳統的例如數據分析師、經濟學家、統計學家、計算機科學家等職業的奇妙融合,它被 Glassdoor 網站評為美國 2016 年最好的工作。
但它遠遠不止是收集數據和分析數據。它是為了那些擁有好奇心、那些具有直覺的和不僅僅只是想要解決問題而是想要打破砂鍋問到底的人所準備的工作。它是科學與藝術的交融。
數據科學的崛起要歸功于數據采集數量的爆炸式增長——也就是我們常說的大數據,也要歸功于公司對于掌握新數據類型的需要,這種新數據類型是來自于手機、圖像、人類行為甚至是手寫筆跡的數據的混合體。
“時代發展至今,所有的公司都具有了網絡上的實體,因此它們都需要一些了解如何管理和存儲數據的人才,從而幫助他們更好地做出商業決策”,Glassdoor 網站的首席經濟學家 Andrew Chamberlain 這樣說道。“數據科學家成為最熱門的工作并不奇怪,因為它是我們現在看到的最火熱和發展最快的工作之一。”
這種工作類型已經以某種形式存在許多年了,Masum Muttalib 說道,他所管理的團隊中有超過二十位數據科學家,他們都工作于 Broomfield 的 Level 3 Communication 公司。
“數據科學確實是這段時間非常流行的詞匯,但是其中所使用的方法和工具已經出現有一段時間了”,Level 3 Communication 公司負責微觀經濟及運籌學的負責人 Muttalib 說道,“數據科學早在本世紀初期就已經在第三等級中被使用了。”
他指出,更加便宜和快速的電腦的出現、許多開源的工具及軟件的使用極大地推動了這一工作的迅速流行。
“日益普遍且成本不斷降低的數據科學使得我們可以回答更多在以前看起來過于復雜的問題”,Muttalib 說道,“現階段可用的專業領域知識和進行一次測試所需要的花費的總體水平下降得非常快速,因此這是一個完全可以進入的領域。如今,組建一個小型團隊并不是天方夜譚,但在十到十五年前這是不可能實現的。”
Colorado 州雇傭數據科學家人數最多的公司之一是 datalogix 公司,但自從去年這家來自 Westminster 的公司被 Oracle 公司收購之后,它已經被改名為 Oracle Data Cloud 公司。它希望未來的員工所掌握的不僅僅是能夠使其成為一名優秀數據科學家的研究型工具,而是其他更多的東西。
“我詢問他們曾經面臨過哪些沖突以及他們是如何解決它的。我十分希望找到一些最終能夠在沖突中達成一致的人”,Oracle 數據云公司前首席數據科學家 Robin Opie 說道。他管理著大約九十名數據科學家。
“這個世界并不僅僅是由數字構成的。數字向人們提供了做出更好的決策的信息”,他說道,“分析者不可能了解所有的現實情況,因而如果他們不理會那些對這個世界有不同看法的人們所提出的現實情況,那么他們將會失去很大一部分信息。”
另一種數據科學家所需要的能力是能夠將數據的含義傳達給公司,否則的話,數據將毫無用處。
“想要成為一個有效率的數據科學團隊,你必須能夠與世界的其他地區進行對接,” Opie 說道。
增長還來自于渴望雇傭到數據科學家的非科技行業。在 Glassdorr 網站上,諸如 Kohl’s、AAA auto club 和Publisher’s Clearing House 都在招聘數據科學家。
根據一份 RJ Metrics 公司的報告,Microsoft、Facebook 和 IBM 這三家科技公司,雇傭了最多的數據科學家,分別是 272 人、132 人和 98 人。
過去的一個月,Anthem 保險公司在Denver發布了大量的和數據科學有關的工作招聘需求。但很快這家公司就表示,工作地點是彈性的,居住在美國其他地區的人們也可以前來應聘。
“數據科學在過去的幾年中已經在零售業、互聯網商業和金融科技領域發展得十分成熟。他們已經發展得很壯大了,我們必須利用這些優勢”,Anthem 公司健康護理分析部門前首席數據科學家 Shwan Wang 說道,“我們更希望找到在健康護理行業工作且熟悉數據科學的人,但我們知道這只有有限的供給,因此這并不是一件容易的事情。”
數據科學的趨勢是從沿海城市開始的,那里是更多科技公司的所在地。這一趨勢同樣帶來了數據科學教育機構的崛起,例如 General Assembly,它是一家技術員培訓機構。它于 2011 年創辦于紐約,現今擁有世界范圍內的十九個分校區。它計劃今年秋天開始在 Denver 校區提供數據科學課程。
位于 Denver 的 Galvanize 公司在 2014 年末收購了 San Francisco 的 Zipfian 學院并且將Zipfian 學院的數據科學課程整合到了它的其他校區中。自 2014 年起,從它的加利福尼亞校區畢業的畢業生中,94% 的人已經找到了工作,平均薪酬為11萬4千美元。
數據科學這一概念花了較長的時間才傳入 Denver。Galvanize 公司在Denver的第一次數據科學課程是去年秋天才開始的。
“實際上,在現階段我們很多學生正在做的工作就是運用他們數據方面的知識教育引導整個市場,”Joshua Bernhard 說道,他在 Galvanize 公司進行數據科學教學工作。“在Denver,各個行業的人們當下并不知道他們能夠對數據做些什么,因為這里從來沒有出現像我們的學生一樣有經驗的人。”
盡管如此,Ramesh 在畢業兩周以來并沒有遇到什么困難。她已經參加了五次面試并且已經得到了兩份工作的聘用 。她還沒有做出決定,但她并不后悔花費額外的十二周的時間去訓練自己成為一名數據科學家。
“我所學到的是當我看到一組數據時,我知道應該馬上做什么,以及我應該去尋找什么”,她說道,“如果我沒有參加這個項目的話,我不可能培養出這樣的直覺。我不可能知道居然還有如此多的技術可以從數據中提取信息。你會發現你所能做到的事情超乎你的想象。”
Tamara Chuang:tchuang@denverpost.com or visit dpo.st/tamara
美國 1 月 8 日數據科學家招聘信息
工作招聘人數:1736 人
基本薪酬中位數:11萬 6840 美元
Glassdoor網站“ 2016 年美國最好的 25 個職業”排名:第一名
Glassdoor網站“ 2015 年美國最好的 25 個職業”排名:第九名
來源:Glassdoor
什么是數據科學家?
數據科學家不只是收集和分析數據,他們還要找到對于公司來說什么是重要的并解決公司如何能夠盈利的問題。如今的數據來源已經不再局限于文本數據,而是可以來自于圖像、人類行為以及手寫筆跡。憑借著計算機的性能以及對開源軟件的廣泛使用,數據科學家可以將多種類型的數據結合起來從而找到新舊問題的解決方案。
薪酬
在 Glassdoor 網站“美國 2016 年最好的 25 個工作”的榜單中,它將數據科學家排在了第一位。截止 1 月 8 日,美國有 1736 個這樣的工作招聘,這些工作的薪酬中位數是 11 萬 6840 美元。根據位于Denver,專職培訓數據科學家的 Galvanize 公司的消息,從它們位于 California 州的項目畢業的畢業生自 2014 年以來擁有 94% 的就業率和平均 11 萬 4 千美元的起始薪酬。Galvanize 公司在去年秋天開辦它們在Denver的第一個培訓班,因此在Denver的就業率和薪酬的統計信息暫時空缺。
十萬美元這一水平的薪酬十分誘人,但是它只包括了東西海岸的工作,因此它們可能無法反映Denver的薪酬現狀。現在工作于 Oracle 數據云公司的 Robin Opie 說,它的公司為了能夠招到頂級的數據科學家,給出了非常具有競爭力的薪酬。但整體來說,Denver地區的薪酬傾向于比東西海岸的薪酬低 10% 至 15% 。Robert Half Technology 是一家負責專業招聘的公司,在它的 2016 年薪酬指南中它指出,數據科學家的薪酬增幅在上年度科技型職業的薪酬增幅中排名第二位,并預測Denver的數據科學工作的起始工資在 11 萬 4232 美元至 16 萬 1130 美元這一區間。
如何開始
我們鼓勵探索精神,但是你還需要一些計算機科學、統計學、數學分析的知識背景。你必須學會如何編寫代碼和程序。
好消息:高性能計算機的價格已經不再是無法承受的了,并且你可以使用各種開源的軟件。
工具和編程語言包括 Hadoop、Hive、R 和 Python。
本地的許多數據科學家會定期碰面。在 Meetup.com 上,可以看到在Denver和 Boulder 地區有許多討論數據科學和大數據的聚會。
入門級別的課程可以在一些大型的公開課網站上找到,例如在 Coursera 上,花費 470 美元你可以獲得時長為九節課的數據科學引導課程。
在Denver也有更加昂貴的課程,例如 Galvanize 公司 1 萬 6 千美元的課程或者 General Assembly 公司 1 萬 4500 美元的課程,都提供十二個星期的沉浸式體驗教學及本地校友團體的工作對接。
數據科學家在做什么?
“數據科學家分析互聯網流量信息并尋找可能帶來可疑活動的標準行為及異常行為的匹配模式,這能夠幫助攔截大范圍的零售信用卡威脅或者是分布式拒絕服務攻擊,使其無法危害一個在線游戲平臺。”
-Masum Muttalib,第三等級通訊公司微觀經濟學及運籌學負責人。他是一個二十人數據科學家團隊的負責人。
“如果我們知道你最近在 King Soopers 的網站上點開了 Chobani 酸奶的一元返現活動,我們就能自動地優先排列出未來在其他商店中你可能感興趣的任何和酸奶有關的優惠活動。”
-Bijal Shah,Ibotta公司前首席分析師。該公司推出的手機應用可以給在雜貨店或是零售店購買的商品返現。
通過結合黑色星期五和剁手星期一的郵件標題及相應點擊率的結果,EendGrid 公司發現那些寫有“50% 折扣”的郵件并不比那些寫著“20% 折扣”的郵件表現得更好,而那些在標題中完全不提及任何折扣信息的郵件點擊率反而最高。
-Victor Amin,SendGrid 公司的一名數據科學家。他每天為他的客戶發送數以百萬封的郵件。
數據科學家能夠快速地在乳腺癌活體組織切片的玻片中找到非正常生長的細胞,從而準確定位有絲分裂活動并指導病理學家觀察幻燈片的特定區域,從而節約時間并進行二次會診。
-Pooja Ramesh,最近畢業于 Galvanize 公司的畢業生。他將數據科學運用到了他的乳腺癌研究項目中。
健康護理行業將病人們的數據,例如處方信息、醫生觀察意見以及保險信息分開來保存。數據科學能夠將病人們的記錄整合起來,從而告知醫生或是病人某種處方藥是否需要補充。
-Shawn Wang,Anthem 公司健康護理分析部門前首席數據科學家。
當顧客瀏覽我們的數字頻道時,我們能夠向其推送高度個性化和高度相關的產品。