作者:wrchow ?
浙江大學計算機碩士,通過自己的努力終于拿到了心儀的offer(搜狗Web數據挖掘助理研究員),實現了從事互聯網數據挖掘的夢想。他對數據挖掘這個行業的興趣,以及為了進入這個行業所做的準備和努力,非常值得想進入這一行業的在校生或朋友們參考。
由于本科專業是生物信息(可以理解為生物統計學或者與基因數據相關的數據挖掘學科),所以那時已經開始接觸數據挖掘,對統計也算有一定的基礎。記得大二的時候,我便開始學用matlab,然后玩弄SVM,神經網絡之類的機器學習算法做一些分析和實驗。現在想想那時候可能連這些算法的基本概念都不是很清晰,算是皮毛都不懂。但有一點就是,讓我對這類算法不怎么畏懼,甚至于非常感興趣。本科的時候,發現自己對生物興趣不大,倒是對編程頗以為是,所以讀研又改學了計算機。雖然換了專業,但我對數據挖掘仍然興趣不減。在研究生階段,涉及數據挖掘,機器學習,高級數據庫之類的課程我的成績都是90+,這至少說明我很用心。總之,讀研這幾年我也在不斷地規劃著自己的數據挖掘之路。然而,數據挖掘是門交叉學科,涉及的內容很多,而且還需要理論聯系實際,要掌握起來其實是非常困難的。我曾經非常幼稚地認為,數據挖掘無所不能,適用于各行各業,卻忽視了數據挖掘非常難以掌握的一面。首先,要構建完整的數據挖掘理論知識體系;其次,要能夠 深入到具體的行業或市場進行具體項目的實戰。至于學習數據挖掘的前景,推薦看看一篇博客,扒一扒這個數據挖掘行業,黃油和面包。這篇文章算是資深人士對數據挖掘行業一點點小小的爆料,感覺對于我這樣的初學者來說,有著高屋建瓴的作用。
1. 發現SASlist
學習SAS源于我當初想去金融行業做分析師的想法,而這個想法又是源自于自己的MBTi測試的結論。算起來開始學sas應該是10年下半年的時候,我先是買了一本《SAS編程與數 據挖掘商業案例》,后是看了《The little SAS book (3rd)》電子版,還有SAS認證考試 樣題-123題。我還在saslist上建立起了博客,分享了一些學習心得,還有找實習的一些經歷。而我對sas的學習經歷,也就集中在10年的下半年這段時間了。后來到了11年初, 偶然間看到統計之都上,舉辦第一屆數據挖掘挑戰賽的信息。我便花了1個多月去參加比賽,再后來便去找實習。到現在不知道自己還會不會繼續學習sas,但saslist確實對我的數據 挖掘之路,起著承上啟下的作用。在這里很容易讓你融入一個學習數據分析,數據挖掘的圈子,很多前輩們的精彩博文都對自己起著極大的鼓舞作用。
2. 數據挖掘挑戰賽
沒想到自己參加的還是全國首屆數據挖掘挑戰賽(編者注:2011年統計之都cos.name舉辦),看來真不知道是自己的數據挖掘之路起步早,還是國內的數據挖掘起步比較晚。總之,我是抱著實戰的目的來玩玩的,很可惜的是沒有組隊成功,雖然中間還硬拉著sxlion來玩了一下,不過他那時候好像確實也比較忙。從題目和贊助方(世紀佳緣網)來看,這是一個典型的Web數據挖掘如何做用戶推薦的案例。提供的數據如下:
profile_f.txt,女性會員的資料,203843條數據
profile_m.txt,男性會員的資料,344552條數據
test.txt,原始數據
train.txt,原始數據
評分指標采用的是NDCG@10。對這個指標并不陌生,因為去年還選修了Web數據挖掘那門課, 那位老師還是從加拿大過來的,當時聽得還挺認真,這里推薦一下他這門課的主頁,還有 他指定的兩本教材:《搜索引擎:信息檢索實踐》,《數據挖掘:概念與技術》,后一本的書的作者正是他的導師。本來一看這個題目是做推薦,于是我就想到了協同過濾,試了一下又發現不行,其實這些數據是非常稀疏的而且是冷啟動的,后來又嘗試了回歸還有SVM,總之效果都不是太明顯,感覺是自己特征選得不好。賽后,看了別人的經驗貼,居然投票是最簡單有效的,可以極大地提升預測精度。反正,我也是對數據挖掘都還沒入門就去參加比賽了。這次比賽算是第一次接觸真實的用戶數據,并且用來解決一個十分現實的問題。對推薦用戶的預測精度的提升,是可以直接帶來可觀的經濟效益的。這次比賽的另一個收獲是,我開始學習python和看《集體智慧編程》這本書。現在好像又有騰訊贊助2012知識發現與數據挖掘挑戰賽,感興趣可以去參與一下。
3. 實習與工作
saslist還有一個好處,就是可以查看到一些數據分析相關的實習和找工信息。其實,這些信息還是蠻管用的,我還因此拿到過人人網數據挖掘工程師的offer。在我看來,數據分析相關的職位大致分三個板塊:醫藥、金融和互聯網。要去醫藥行業,可以多關注胡江堂的博客,還有中南大學統計系的本科生韓帥同學的博客。金融行業的話,可以多關注一下人大經 濟論壇等;我當初投過一家叫discover的上海公司,好像是從大摩分出來的,專做信用卡這一塊的,面試的時候如果懂sas還是有加分的,當然外企可能更注重是你這個人本身的一些基本素質。因為,我最后還是決定去互聯網行業,所以我的就職經歷也都集中在幾家大的互聯網公司。
在剛參加完數據挖掘挑戰賽之后,也就是去年4月份了,那個時候很多大的IT公司都開始來校園招聘實習生。由于我本科畢業之后,決定讀研,也沒找過工作。所以,這個時候找實習,也算是為我找工作贊經驗。我投了百度的數據挖掘工程師和淘寶的廣告和搜索發展部的產品經理助理職位。前者的具體情況可以參見我的博文鏈接,至于實習我還是去了后者,因為淘寶就在學校旁邊。在淘寶的實習經歷算是我真正意義上地走出校園,也堅定了我去互聯網行 業的信念,我喜歡像淘寶這些的互聯網公司里那種從上而下,自由而又年輕的氛圍。也正是在淘寶的實習,讓我切身體會到了互聯網廣告市場的盈利模式,以及如何通過數據挖掘來提升淘寶的生態平衡和盈利空間。感興趣的同學可以去讀讀淘寶搜索技術博客。
4. 總結
我找工的經歷,其實十分地短暫,也就集中在那幾家互聯網公司,這里也就不細說了。值得一提的是除了我在實驗室做的項目外,那次數據挖掘挑戰賽的經歷,往往會非常引人注意, 因為那個挑戰賽是非常貼近互聯網公司做數據挖掘的實際的。而且,參加比賽本身也說明你本來的興趣和積極性都比較高。
最后,再總結一下我的數據挖掘知識體系:
1. 統計學基礎:《概率與數理統計》、《生物統計學》;
2. 編程語言與工具:SAS、Matlab、Python、R 等;互聯網公司,還需要 Linux Shell, Hadoop, C++, Java 語言等;
3.數據挖掘理論:《集體智慧編程》(python)、《Web數據挖掘》、《SAS編程和數據挖掘商業案例》,另外還推薦一些開放式課程,我認真學習過的有 CS229(stanford 的機器學習課程);
4. 參加貼近商業的比賽或者去實習。