萬事開頭難,作為第一篇博客,學不來深入淺出,妙趣橫生,但求老老實實把事情說明白。
事情起源于kaggle競賽者很慷慨地在github上開放了源碼,kaggle非常貼心地將這些優異的解決方案和實現整理出來。對于小白級數據工作者,如我,是臨摹思路,學習代碼的絕好機會。為了享受這場盛宴,我在windows下搭建了python環境。由于ML包依賴有點復雜,本文贅述一二。
常見ML的python lib有:numpy, matplotlib, scipy, scikit-learn.
常用的windows下安裝python第三方包的工具setuptools小巧而好用。它省略了安裝python第三方包所需要的下載,解壓,執行python **.py 等繁瑣過程,默認到http://pypi.python.org/simple搜索第三方包并下載安裝,類似于linux下的yun功能。
和yun一樣,它也會檢查依賴,因此numpy,matplotlib,scikit-learn,安裝過程中都會報錯。我選擇手動安裝:sourceforge提供了exe安裝包,貌似不進行依賴檢查,以上各個包可以直接安裝。網上有觀點說scikit-learn會依賴nose,這一點沒進行確認。我直接先easy_install nose, 然后下載這三個包,并安裝。
這樣留下的后患是,在運行python代碼時,會提示這些第三方包import *** 找不到。easy_install可以基本解決,如six。dateutil是個例外,并且sourceforge也沒有提供安裝包。此時,移步至dateutil:?http://www.lfd.uci.edu/~gohlke/pythonlibs/#python-dateutil
pyparsing亦是:http://www.lfd.uci.edu/~gohlke/pythonlibs/#pyparsing
以上三種途徑基本上可以獲得所需要的第三方包。