由于數據科學的龐大和復雜,如果你沒有相關的實習經歷的話,成為數據科學家的道路將會更加艱巨和困難。即使是經驗豐富的人,實習也是轉型進入數據科學領域的一種有效方式。
那么,尋找數據科學實習有哪些技巧?本文總結了數據科學實習中需要了解的關鍵提示、技巧和資源。
對大數據【數據分析,數據挖掘】概念都是模糊不清的,該按照什么線路去學習,學完往哪方面發展,想深入了解,想學習的同學歡迎加入大數據學習qq群:458345782,有大量干貨(零基礎以及進階的經典實戰)分享給大家,并且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系 。
1. 熟悉基礎的數據科學術語
在開始申請實習之前,第一步是什么?當然是了解數據科學是什么。
為什么你想從事數據科學工作?是因為你喜歡編程、數學、統計還是因為其所提供的機會?或者你是否只是順應潮流,因為數據科學和機器學習正是大勢所趨?
1.1 什么是數據科學?
每天生成的數據量正在呈指數級增長。在過去十年中,數據來源以及收集和存儲數據的能力已經取得了極大的進步。公司正在使用各種工具和技術來挖掘數據中的模式并收集有用的見解。簡而言之,這就是數據科學的全部意義所在。
?數據為我們所做的一切提供動力。
——Jeff Weiner,領英CEO
數據科學涉及使用各種技術來理解數據并構建預測模型以做出業務決策。數據科學的一些流行應用包括欺詐檢測、體育分析、航空公司航線規劃等。
因此,如果數據科學是關于從數據中獲取洞察力和發現模式,那么數據科學家和統計學家之間有什么區別?
1.2 數據科學家?vs 統計學家
數據科學家和統計學家都使用這些數據從中獲得有用的見解。統計學家專注于識別數據中的關系,而數據科學家則致力于使用關系并建立模型來預測未來結果。數據科學家的目標是建立一個高精度的通用模型。
統計學家經常使用R、Excel或MATLAB等工具,因為它們有許多用于數據分析的庫。另一方面,數據科學家主要使用Python,Apache Spark等來探索數據和構建模型。下面是一個很酷的信息圖,總結了這兩個角色之間的差異:
1.3 數據科學領域中的通用術語
機器學習:機器學習是利用算法(如線性回歸,邏輯回歸,決策樹等)從數據中學習并做出明智的決策。例如,根據過去的貸款人的數據來預測他們是否還會申請貸款。
深度學習:深度學習是機器學習的一個子集,旨在模仿人類的決策能力。例如,識別給定圖像中的對象,或將圖像分類為貓或狗。
自然語言處理(NLP):NLP是數據科學的一個分支,負責分析、理解和從文本數據中獲取信息。你在亞馬遜上看到的所有評論,或者每天瀏覽的所有帖子,NLP技術會對其進行分析并理解用戶的情緒。NLP是目前數據科學領域最熱門的領域之一。
計算機視覺:顧名思義,計算機視覺使機器能夠看到和理解周圍環境。有沒有注意到Facebook如何自動建議圖片中的標簽?或者自動駕駛汽車如何檢測道路上的物體?這些是計算機視覺的主要例子。這是另一個將在未來幾年內出現大量工作的領域。
推薦引擎:曾經使用過Flipkart或Amazon的任何人都是推薦引擎的一部分。 這包括分析過去的用戶行為以提供相關的建議。“購買此產品的客戶也購買了”或“根據您過去的購買情況推薦給您”是推薦工作的示例。
2. 開啟你的數據科學之旅
如果你是一個沒有行業經驗的新生,實習是在數據科學中發揮作用的最佳方式。與經驗豐富的人合作,可以為你提供獲得行業經驗的機會。那么,第一次數據科學實習需要哪些基本技能?
注意:我們將重點關注你的綜合能力,而不是典型的數據科學實習面試所需的軟技能(如良好的態度,信心等)。
2.1 理解統計學和概率
統計和概率是數據科學所需的基本核心技能。如果沒有對這兩者的充分理解,你將不會在這個領域(或面試過程中)取得很大進展。從分析數據并做出有價值的推論到理解模型的工作原理,統計和概率的基本概念被整合到數據科學生態系統中。
我們可以利用許多統計技術和概率分布來理解給定數據的結構。以下是你在處理數據科學問題時將要使用的一些重要主題:
1. 描述統計學
? 1.1 平均值、中值、眾數
? 1.2 方差和標準差
2. 概率
? 2.1 伯努利試驗&概率質量函數
? 2.2 中心極限定理
? 2.3 正態分布
3. 推論統計
? 3.1 置信區間
? 3.2 假設檢驗
? 3.3 相關系數
你可以從這里了解到統計和概率這兩個領域中的一些常見面試問題。?
2.2 優秀的編程技能(任何編程語言)
是的,你需要了解編程才能成為數據科學家,沒有逃避它的后路。AutoML(自動機器學習)正在逐漸被業界接受,但是現在,除了技術過硬的編碼技能之外別無選擇。
目前用于數據科學的兩種最流行的編程工具是Python和R。你必須至少熟悉其中一種。這些都是開源編程語言,并擁有一個日益增長的大型活躍社區。
R主要用于探索性工作,是統計分析任務的首選,它有一個相對較大的統計軟件包庫。另一方面,Python是機器學習和深度學習任務的首選,它有許多機器學習和深度學習庫和包。
如今,Python在業界的歡迎度肯定是更高了。如果你想學習高級機器學習主題,當然還有深度學習,這是一個簡單的選擇。Python提供的靈活性在這些任務中是無與倫比的。R是一個非常熟練的工具,用于進行探索性分析,包括產生一些非常有洞察力和美學上令人愉悅的情節。
2.3 基本的機器學習算法
如果你已經了解了統計學和概率的基礎知識,并且已經掌握了編碼技能,那么下一步就是學習機器學習的基礎知識。熟悉常見的機器學習算法,如線性回歸、邏輯回歸、決策樹、隨機森林、樸素貝葉斯、k近鄰和支持向量機(support vector machines)。
試著關注一種算法并理解每種技術背后的直覺。擁有算法的理論知識及其工作方式與能夠實現算法同樣重要。如果你知道算法的工作原理,那么理解算法的各種參數,調整這些參數以及決定使用哪種算法與哪種類型的數據將會更加容易。?
3.?制作電子檔案(在線數據科學檔案)
你已經努力學習所有這些新概念。現在應該學習如何展示自己的技能,從而補充所學。
僅統計、編程和機器學習的知識可能不會讓你獲得實習機會。你需要建立自己的數字形象。展現自己的巨大潛力以及在數據科學之旅中獲得的技能。讓大家知道你的能力!
在本節中,我們將介紹制作你的電子檔案的不同方法。
3.1 負責的項目
學習任何東西的最好方法是將知識付諸實踐。與其說“我知道這種技術”,不如將其在項目中展示出來。構建端到端的項目可讓你了解數據科學家在日常角色中可能面臨的各種可能性和挑戰。
你可以查找與自己感興趣的領域相關的開源項目。如果你是小說的忠實粉絲,就可以用自然語言處理來分析你最喜歡的作家的作品。這表明了你對數據科學的熱情,并為你未來的就業提供了優勢。
以下是一些實踐問題,可以從中獲得一些寶貴的實踐經驗:
·?機器學習
o?大型超市銷售?
(https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?utm_source=blog&utm_medium=internshiparticle)
o?貸款預測?
(https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?utm_source=blog&utm_medium=internshiparticle)
·?自然語言處理
o?情緒分析
(https://datahack.analyticsvidhya.com/contest/linguipedia-codefest-natural-language-processing-1/?utm_source=blog&utm_medium=internshiparticle)
o?笑話評級
(https://datahack.analyticsvidhya.com/contest/jester-practice-problem/?utm_source-blog&utm_medium=internshiparticle)
·?推薦引擎
(https://datahack.analyticsvidhya.com/contest/build-a-recommendation-engine-powered-by-ibm-cloud/?utm_source=blog)
·?計算機視覺
o?Intel場景分類
(https://datahack.analyticsvidhya.com/contest/practice-problem-intel-scene-classification-challe/?utm_source=blog&utm_medium=internshiparticle)
o?人臉計數挑戰
(https://datahack.analyticsvidhya.com/contest/vista-codefest-computer-vision-1/?utm_source=blog&utm_medium=internshiparticle)
3.2 創建GitHub檔案
你還應該在此階段開始構建GitHub配置文件。這基本上是你的數據科學簡歷,全世界的人都可以查閱。
大多數數據科學招聘人員和訪調員都會查看候選人的GitHub資料,以評估他/她的潛力。在處理項目時,可以同時列出GitHub上的問題陳述和代碼。以下是一個小清單,你可以在下次將代碼添加到GitHub:
·?添加問題陳述
·?制作清晰的自述文件
·?編寫清楚的代碼
·?在代碼中添加評論
·?盡可能多的添加個人/課程項目
·?如果到達一定的級別,則可以參與開源項目?
3.3 寫博客
撰寫文章是一個推動數據科學事業的大秘訣,這有助于我們以更加清晰明了的方式理解該技術。
各種社區上,大家很樂意與你分享他們的想法和反饋。當你將文章公開發表時,人們經常會分享他們的觀點,例如“添加實際與預測的可視化可能會有所幫助”,這可以幫助你進行改進。
Quora可以被視為寫博客的另一種選擇。將復雜的主題分解為易于理解的單詞有助于你掌握主題并精細調整結構化思維技能。
起初,你可以撰寫一些基本主題,例如使用thematplotlib庫的數據探索,實踐問題的方法和解決方案,你完成的MOOC的摘要或注釋等。
3.4 創建并優化領英個人資料
LinkedIn是世界上最大的職場網絡平臺。即使你是一個新人或者仍在讀研究生院,你也應該學習使用LinkedIn。
招聘人員經常使用LinkedIn來驗證你的個人資料,或在有機會的情況下與你聯系。你可以將其視為第二份簡歷或紙質簡歷的數字版本。如果你申請實習但個人資料未更新(或不存在),你可能會錯過機會。
根據申請的實習優化你的LinkedIn個人資料。更新你過去的經歷(如果有的話)、教育水平、所做的項目和興趣。如果你尚未創建配置文件,請立即執行。你還應該通過與數據科學領域的人員建立聯系來開始構建社交網絡。
領英里有很多極具影響力的人,他們會提供許多有用的發展建議。所以這一步請務必要做。
4. 你的數據科學簡歷
應包含(或不應包含)哪些內容?
你的簡歷基本上是職業生涯的亮點。這是招聘人員/招聘經理看到的第一件事,所以制作完美的簡歷絕對是開啟實習的關鍵。
即使你擁有實習要求部分列出的所有技能,如果簡歷未達標,很可能無法接受面試。
你必須,并且絕對必須花費大量時間來創建和完善簡歷。
那么,在做這件事時要記住哪些關鍵事項?
確保簡歷是最新的,并且沒有任何拼寫錯誤。檢查兩次,甚至三次。讓同事或朋友從招聘人員的角度對其進行審核。
在創建或更新簡歷時,請始終牢記這一點:寫下你所知道的,知道你寫的是什么。
還記得你在大學的第一年做的項目嗎?如果是大約在2-3年前,你可能已經不記得細節了,要么對其進行深入它,要么不在簡歷上添加它。有10個你無法談論的項目對于招聘人員來講是危險信號!你所掌握的所有技術技能都是如此。
5. 準備數據科學實習面試
獲得數據科學實習的最大挑戰無疑是面試過程。鑒于你之前沒有此領域的工作經驗,招聘人員會看到簡歷的哪些方面?你應該在簡歷和實際面試中展示哪些技能?
這是很重要的問題!如何駕馭這些棘手的問題一定會影響你實習的機會。
當然,你將提到正在處理(或正在進行中)的項目。但除此之外,無論來自何種背景,面試官都會熱衷于考驗你。本節將介紹你需要關注并準備面試的關鍵事項。
5.1 結構化思維
在復雜的數據科學世界中,構建思想的能力是一項寶貴的技能。面試官會判斷你是否有能力將問題陳述分解為更小的步驟。你是怎么做到的,這就是金礦的所在。
對于任何給定的問題陳述,有必要確定最終目標是什么。下一步是了解你提供的數據,并確定達到最終目標所需的流程。所有這一切都發生在有限的時間范圍內(畢竟面試官沒有一整天的時間了解你)。你是否看到擁有結構化思維心態的重要性?
為了檢查你的結構化思維技巧,你會被問到一個問題——目前發送了多少封郵件?或者班加羅爾的道路上有多少輛紅色汽車?印度每天售出多少支香煙?
例如,如果想了解上個月信用卡投資組合中的收費突然增加的原因,我們會將其放在類似于以下的結構中:
這些問題都沒有固定的答案。那你怎么解決它們呢?首先要明白的是,面試官并不期望得到確切的數字答案。相反,他們試圖了解你如何看待問題以及獲得最終答案的方法。要求使用筆和紙(或白板)是個好主意,這樣你就可以逐步展示自己的想法。
5.2 對于你所申請公司的了解
我們經常聽到招聘人員如何在沒有閱讀面試的工作描述的情況下就過來面試。
在決定申請工作之前,你必須知道公司的工作內容和愿景。別無他法。
我們的建議是多研究公司,了解他們的工作。你覺得自己如何適應?你能直接看到你的技能可以產生的影響嗎?你還必須徹底查看職位描述并在面試中提出問題,以了解你對公司的適應性。這將節省你和公司的時間。
建議閱讀下面的指南,其中詳細列出了準備數據科學面試時可能涵蓋的主要話題:
·?The Most Comprehensive Data Science & Machine Learning Interview Guide You’ll Ever Need
(https://www.analyticsvidhya.com/blog/2018/06/comprehensive-data-science-machine-learning-interview-guide/?utm_source=blog&utm_medium=internshiparticle)
6. 增加被選中的機會
在本節中,我們為你提供了一些額外的提示和技巧,以提高你被選中的機會。
6.1 高級機器學習
沒有什么比看著你自信地回答先進的機器學習問題更能打動面試官了。掌握先進的機器學習知識肯定會給你帶來優勢。
確保你已經掌握了我們之前討論過的基本機器學習主題(統計數據,概率,回歸,樹算法等)。然后,你可以安全地跳轉到高級機器學習算法、推薦系統、時間序列預測算法等。
在職業生涯的這個階段,沒有必要詳細了解所有算法。相信你會發現3-4種非常有用的技巧,這些需要你好好學習,并在面試中闡述你的想法。你應該對算法及其背后的數學有一個公平的理解。可以根據自己的興趣選擇特定字段,并探索該領域中的各種技術。
舉個例子,如果你對時間序列感興趣,可以開始探索不同的預測技術、平穩性的概念,甚至選擇一個關于時間序列的項目并進行研究。或者,如果自然語言處理是你感興趣的領域,可以了解如何從基于文本的數據中提取特征,可以在文本數據上使用哪些算法等等。?
6.2 參與數據科學競賽
這為你的簡歷增添了巨大的優勢,增加了實習的機會。完成項目后,證明知識不僅限于書籍。你已經明確嘗試將理論學習轉化為現實世界的數據集——這是你的好奇心、熱情和學習意愿非常高的確定標志。
首先,我們鼓勵你參加數據科學競賽。從AV的DataHack平臺或Kaggle上列出的黑客馬拉松開始。這些平臺提供了模仿真實場景的問題陳述,從而讓你對行業有了非常珍貴的感受。
你還可以與來自世界各地的頂級數據科學家競爭(并從中學習)。這可以作為自身進步的良好晴雨表。繼續練習,你會驚奇地發現你的排名會上升的如此之快。實踐是數據科學之王。
7. 在實習期間會學會什么?
實習可以為你提供哪些教科書、MOOC和視頻不能所不能提供的知識?
實踐經驗。
7.1 如何解決實際項目
在實習期間,你將參與真實的項目。這是非常寶貴的經驗。一旦加入,就可能會發現自己已經進去端到端的數據科學生命周期,包括定義問題陳述和構建模型。
如果你之前參加過數據科學競賽,將對數據科學家遇到的不同挑戰有所了解。
但是,這些競賽中提供的問題陳述和數據集與現實場景非常不同。數據集在行業中是混亂和非結構化的。在構建任何模型之前,需要進行大量的數據清理工作。
事實上,如果70-80%的任務涉及數據清理,請不要感到驚訝。
你將學習如何構造問題陳述,理解解決問題所需的域和數據,然后找出提取數據的來源。下一步是深入研究。了解其他數據科學家為解決類似問題所采取的方法。
這將讓你對什么應該運作良好以及什么不值得投入時間有一個清晰的認知。雖然數據科學鼓勵進行實驗,但你從經理那里獲得的創作自由度是有限的。過濾掉你知道不會事先工作的方面。
7.2 講述數據故事的方式(探索性數據分析)
人們通常花費更多時間來構建模型而不是理解數據。這其實是不行的。
真正理解擁有的數據是非常重要的。數據集中存在很多級別和隱藏方面,我們經常忽略這些級別和隱藏方面來構建模型。這是你在實習期間學到的東西(但應事先做好準備)。
花盡可能多的時間探索數據!繪制圖表,找到模式,然后好好鉆研,就像它是世界上最好的工作(它真的是!)。嘗試了解分布,查找影響目標變量的因素并進行推斷。建立假設,將數據可視化,找到見解,最重要的是,與隊友討論發現的問題。
7.3 團隊合作
數據科學實習的好處是可以與非常聰明和支持的人合作。當你朝著最終目標努力時,數據科學項目需要同事之間的協作和協調。
在團隊中工作的最好的部分是總是有人討論你的想法(并澄清疑慮)。團隊合作不僅可以幫助你建立自己的軟技能,還可以磨練技術技能,真是個雙贏的組合!?
7.4 在這個領域獲得實踐經驗
當你開始數據科學求職時,很可能會發現大多數公司都要求在域中獲得一些經驗。你應該了解公司正在處理的問題,并考慮可以做出貢獻的方式。與正在從事項目的人討論想法。
你還應該嘗試了解公司中其他人的角色。可以與不同團隊的人員進行交流和討論。例如,與營銷團隊交談,了解是否可以考慮解決問題的數據驅動解決方案。充分利用機會,提出相關問題并向團隊學習。