學習 Python
- 對于慕課網, 它提供在線編輯器, 如果大家在機房上課時不需要安裝好環境即可進行Python的編程學習, 非常方便
- 一般而言官方文檔更具權威性, 所涉及的內容也是最全面最新的, 并且官網還會提供Api(接口文檔)可方便查看各函數和類的作用和使用方式
Python相關庫的學習
對于相關庫的學習, 我們目前的主要目標是學會將庫運用在機器學習當中, 故此暫時不必太過深入, 在用多了以后再深入其原理和機制會達到更好的效果
0. Numpy: 創建和處理數值數據, 數組和矩陣的擴展模塊
Numpy 是一個用python實現的科學計算包。提供了許多強大的數據運算函數如: 矩陣數據類型、矢量處理,以及精密的運算庫
學習完Python你會發現Python使用了list來代替array, list的效率并不高, 但慶幸的是我們有numpy, 其提供了數組和矩陣, numpy的許多函數不僅是用C實現了,還使用了BLAS. 在以后機器學習當中, 從文件中讀取數據后我們通常會使用numpy的數據結構來存取變量, 并且許多第三方庫的操作都會依賴于numpy的數據結構進行
1. Matplotlib: 2D繪圖庫, 將數據可視化
Matplotlib 是一個2D繪圖庫, 我們在讀取了數據之后可調用該庫的函數來將數據可視化, 數據可視化后可以讓我們更好的發現數據的規律
在這里直接舉個例子展示可視化的重要性
假設我們在解決一個分類問題, 我們在讀取訓練數據后, 將其可視化后可看出三種不同分類的大致分布情況, 并得知setosa一類較其他兩類會更容易區分出來, 該圖正是通過調用matplotlib的庫實現的
2. Pandas: 數據的處理和清洗
Pandas 納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法
Pandas在機器學習中非常有用, 其方便我們對大量的數據進行增刪改查操作
3. Seaborn: 數據可視化的庫
Matplotlib是Python主要的繪圖庫。雖然Matplotlib很強大,它本身就很復雜,經常需要大量的調整才能將圖表變精致。seaborn是斯坦福大學出的一個非常好用的可視化包。為了控制matplotlib圖表的外觀,seaborn模塊自帶許多定制的主題和高級的接口。
使用seaborn可以加快我們數據可視化的效率, 其提供許多內置的函數使作圖更加容易.j