【Python實戰】你用 Python 做過什么有趣的數據挖掘/分析項目?

你用 Python 做過什么有趣的數據挖掘/分析項目?轉知乎

我最近剛開始學習 Python, numpy, scipy 等, 想做一些數據方面的項目,但是之前又沒有這方面的經驗。所以想知道大家都做過什么有趣的項目, 或者有什么好入手的方向推薦

僅僅就題主的題目,說一說我自己的一個故事:

話說大二下那年,懷著對ML和DM的神往開始學習機器學習和數據挖掘,我身為一個數學渣敏銳得覺察到吳恩達大牛的公開課對我是一個坑,還是個神坑, 轉而投入《機器學習實戰》這一類不太需要過硬數學基礎的機器學習和數據挖掘書籍中,于是開始學習Python+Matplotlib+Numpy了。

大三上適逢學校申報大學生創新項目,抱著當炮灰的心態交了一個關于強化學習算法驗證的申報書,沒想到過了,開始做項目的時候,指導老師對我說“你這個,要用matlab啊,不然就用Octave呀,會用不??”然后我就老老實實回去查matlab和Octave的資料。。。。。。。不出所料,幾個通信的同學都說matlab是個神坑,迅速瀏覽了官網和文檔之后,我也覺得是神坑,遂棄而不學(其實是太懶了)。

然后又學長給我說可以用Weka來做這個項目的實驗,我接著去google weka是個神馬東西,一看尼瑪是用Java寫的,遂逃。。。。(我也是醉了)。

為什么不用正在學的Matplotlib+Numpy呢?因為我當時覺得Matplotlib+Numpy沒有一個成熟的可用的現成系統給我用,每一次都要我自己寫腳本,尼瑪好麻煩。

于是我就坑了指導老師有半年時間,到了中期檢查的時候我覺得deadline快要到了,感覺慌得褲子都著火了,一氣之下就想,“既然matlab是個坑,老子就寫一個縮小版的matlab自己用就夠咯”

前期的懶惰直接給自己開了一個新坑,那一個月的目標就是用Python寫一個有圖形界面的數據挖掘工具出來。

一個月之后,下圖這個什么鬼就誕生了:

<img src="http://pic3.zhimg.com/0b64165cede03ef724c01a908691b4ce_b.jpg" data-rawwidth="1012" data-rawheight="738" class="origin_image zh-lightbox-thumb" width="1012" data-original="http://pic3.zhimg.com/0b64165cede03ef724c01a908691b4ce_r.jpg">

當然,最初版本的界面沒有這么好看,這個界面完全是致(jie)敬(jian)weka做的,我沒有看過weka的源碼,也不知道它的實現邏輯。然后經過很多次的修改和重寫,這個工具可以分類,聚類,關聯,處理的數據類型主要是數值型,當然可以通過導入與處理函數把字符型化歸為數值型,這個工具可以導入算法,比如我給你一個分類算法統一遵循的”參數表范式“,只要你按照參數規則用Python寫你的分類算法,這個工具就可以識別出來。

忘了說,這個工具用Numpy實現數學運算(矩陣運算),用Matplotlib實現可視化,可視化就是下面這個樣子:

<img src="http://pic2.zhimg.com/a414cf316b9fbf06e878d1d335c345b5_b.jpg" data-rawwidth="1003" data-rawheight="762" class="origin_image zh-lightbox-thumb" width="1003" data-original="http://pic2.zhimg.com/a414cf316b9fbf06e878d1d335c345b5_r.jpg">

沒錯,上面這個圖就是對UCI IRIS數據集的分類結果,算法用的是樸素的KNN。

然后到了今年,這個項目已經結題了,因為這個工具越寫越大越寫越豐富,到最后倒成了這個項目的主要成果。

這個工具主要是用:

Numpy做矩陣運算輸出

matplotlib做繪圖

wxPython寫的界面

今年六月份被學校征用去參加挑戰杯省賽了,作為一個即將畢業成為校友的我明明就是一個去交流經驗的,沒想到還得了一等獎進入了國賽審查階段。本來無心插柳的一件事,沒想到后來還會得到一些不錯的發展。

總的說來,其實生活中處處都有ML和DM的用武之地,比如說我在挑戰杯評審的時候給評委演示的就是”通過近十年中國男足比賽情況看中國男足屬于世界幾流球隊?“這種激(mei)動(you)人(jie)心(cao)的問題。在學校里呢我沒事就幫生科的幾個孩紙錄錄數據。

學習scipy和numpy這些庫并不代表你以后只能用它寫腳本來做數據科學的任務了,C/Java/php這些坑里面都有可以調用和接入Python的門,所以不僅只是局限于Python,其他的工具和技術也可以和Python結合使得ML和DM更加得心應手。

以上,如有紕漏請各位大牛指正,希望對題主有幫助。

巴西世界杯,為了找到一個高效的賭球方法,用python寫了蒙特卡洛方法的賭球模擬實驗,驗證各種策略下的賭球盈利水平。

最終結果是在沒有先驗知識的情況下,無論何種賭球策略,在賭球次數足夠多的情況下都不可能盈利。

不甘心,想通過各大博彩公司的博彩賠率差值來盈利,又用scrapy寫了爬蟲實時把各大博彩公司的即時賠率爬下來,一個簡單的貪心就能求出利潤的最大值,發現只要你能夠在這些博彩公司開戶,就完全有可能利用賠率的差值盈利!

項目地址:wzhe06/soccerbet · GitHub

關鍵是你沒法開戶啊。。國內參與博彩也是要被查水表的呀。

還有什么比寫個交易策略給自己賺錢更有意思呢?推薦入門可以看

量化分析師的Python日記【第1天:誰來給我講講Python?】

量化分析師的Python日記【第2天:再接著介紹一下Python唄】

量化分析師的Python日記【第3天:一大波金融Library來襲之numpy篇】

量化分析師的Python日記【第4天:一大波金融Library來襲之scipy篇】

量化分析師的Python日記【第5天:數據處理的瑞士軍刀pandas】

然后可以在社區克隆一個別人的策略研究一下,對照《building machine learning systems with python》做一個自己的股市情感分析模型

有兩個建議吧。

完成《building machine learning systems with python》書上的所有projects,這本書除了封面其他里面的內容還是挺實用的。中文書名為? 《機器學習系統設計》

完成kaggle playground和 101上的所有比賽,具體tutorial可以戳

Getting Started With Python For Data Sciencehttps://www.kaggle.com/wiki/GettingStartedWithPythonForDataScience

Getting Started With Python II Getting Started with Pandas: Kaggle's Titanic Competitionhttps://www.kaggle.com/c/titanic-gettingStarted/details/getting-started-with-python-ii

另外補充一個用scikitlearn構建文本挖掘系統的教程,個人覺得寫的很好,基本上做一遍大概的流程就很清晰了:scikit-learn文本挖掘系統學習(已完成)

另外可以看這篇blog:大數據競賽平臺——Kaggle 入門

---------------------------------

分割線補充:

我做過的比較好玩的應該是下載了豆瓣某一個爆照組的所有照片,然后結合發布者ID在其主頁上找尋相關信息,然后按照地域進行統計算分布,然后在google map上畫了出來... 不過這個就沒什么含金量了,現在在水推薦系統。

ps:我也在入門中,歡迎一起探討^_^

用python在知乎上爬了400萬答案,用numpy做數據分析,發現對高贊同答案貢獻最大的話題是 脂溢性皮炎 維持關系 和 寢室神器。所以我機智地提了個問題:想要和室友維持關系,有什么寢室神器可以治療脂溢性皮炎? - 數據挖掘三個話題都占全一定超多人關注!!

然后問題立馬被關閉了。媽蛋。

=========嚴肅的分割線===========

好吧換了個靠譜的算法,現在發現放在問題里最有利于吸引關注的知乎話題是:程序員,搞笑,平面設計,英語,和個人成長。而關注的人最多的話題是:電影,生活,音樂,互聯網和創業。感覺二者并不交叉有點意料之外情理之中。。大家聲稱對什么感興趣并不代表他們真的感興趣。。

Document retrieval。我用Latent semantic indexing,現在在想怎樣用LDA(這方面知乎的高人很多,不獻丑了。)。

去打kaggle吧

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,908評論 6 541
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,324評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,018評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,675評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,417評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,783評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,779評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,960評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,522評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,267評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,471評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,009評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,698評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,099評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,386評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,204評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,436評論 2 378

推薦閱讀更多精彩內容