學習資料:大家可以去莫煩的學習網站學到更多的知識。
本文結構:
- Sklearn 簡介
- 選擇模型流程
- 應用模型
Sklearn 簡介
Scikit learn 也簡稱 sklearn, 是機器學習領域當中最知名的 python 模塊之一.
Sklearn 包含了很多種機器學習的方式:
- Classification 分類
- Regression 回歸
- Clustering 非監(jiān)督分類
- Dimensionality reduction 數據降維
- Model Selection 模型選擇
- Preprocessing 數據預處理
選擇模型流程
學習 Sklearn 時,不要直接去用,先了解一下都有什么模型方法,然后選擇適當的方法,來達到你的目標。
Sklearn 官網提供了一個流程圖,藍色圓圈內是判斷條件,綠色方框內是可以選擇的算法:
從 START 開始,首先看數據的樣本是否 >50
,小于則需要收集更多的數據。
由圖中,可以看到算法有四類,分類,回歸,聚類,降維。
其中 分類和回歸是監(jiān)督式學習,即每個數據對應一個 label。
聚類 是非監(jiān)督式學習,即沒有 label。
另外一類是 降維,當數據集有很多很多屬性的時候,可以通過 降維 算法把屬性歸納起來。例如 20 個屬性只變成 2 個,注意,這不是挑出 2 個,而是壓縮成為 2 個,它們集合了 20 個屬性的所有特征,相當于把重要的信息提取的更好,不重要的信息就不要了。
然后看問題屬于哪一類問題,是分類還是回歸,還是聚類,就選擇相應的算法。
當然還要考慮數據的大小,例如 100K
是一個閾值。
可以發(fā)現有些方法是既可以作為分類,也可以作為回歸,例如 SGD
。
應用模型
Sklearn 把所有機器學習的模式整合統(tǒng)一起來了,學會了一個模式就可以通吃其他不同類型的學習模式。
例如,分類器,
Sklearn 本身就有很多數據庫,可以用來練習。
我們用其中 Iris 的數據為例,這種花有四個屬性,花瓣的長寬,莖的長寬,根據這些屬性把花分為三類。
我們要用 分類器 去把四種類型的花分開。
今天用 KNN classifier
,就是選擇幾個臨近點,綜合它們做個平均來作為預測值。
使用模型的步驟:
- 導入模塊
- 創(chuàng)建數據
- 建立模型-訓練-預測
<h4 id="pkg">1. 導入模塊</h4>
from __future__ import print_function
from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.neighbors import KNeighborsClassifier
<h4 id="data">2. 創(chuàng)建數據</h4>
加載 iris
的數據,把屬性存在 X
,類別標簽存在 y
:
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
觀察一下數據集,X
有四個屬性,y
有 0,1,2 三類:
print(iris_X[:2, :])
print(iris_y)
"""
[[ 5.1 3.5 1.4 0.2]
[ 4.9 3. 1.4 0.2]]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]
"""
把數據集分為訓練集和測試集,其中 test_size=0.3
,即測試集占總數據的 30%:
X_train, X_test, y_train, y_test = train_test_split(
iris_X, iris_y, test_size=0.3)
可以看到分開后的數據集,順序也被打亂,這樣更有利于學習模型:
print(y_train)
"""
[2 1 0 1 0 0 1 1 1 1 0 0 1 2 1 1 1 0 2 2 1 1 1 1 0 2 2 0 2 2 2 2 2 0 1 2 2
2 2 2 2 0 1 2 2 1 1 1 0 0 1 2 0 1 0 1 0 1 2 2 0 1 2 2 2 1 1 1 1 2 2 2 1 0
1 1 0 0 0 2 0 1 0 0 1 2 0 2 2 0 0 2 2 2 1 2 0 0 2 1 2 0 0 1 2]
"""
<h4 id="model">3. 定義模型-訓練模型-預測</h4>
定義模塊方式 KNeighborsClassifier()
,
用 fit
來訓練 training data
,這一步就完成了訓練的所有步驟,
后面的 knn
就已經是訓練好的模型,可以直接用來 predict
測試集的數據,
對比用模型預測的值與真實的值,可以看到大概模擬出了數據,但是有誤差,是不會完完全全預測正確的。
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print(knn.predict(X_test))
print(y_test)
"""
[2 0 0 1 2 2 0 0 0 1 2 2 1 1 2 1 2 1 0 0 0 2 1 2 0 0 0 0 1 0 2 0 0 2 1 0 1
0 0 1 0 1 2 0 1]
[2 0 0 1 2 1 0 0 0 1 2 2 1 1 2 1 2 1 0 0 0 2 1 2 0 0 0 0 1 0 2 0 0 2 1 0 1
0 0 1 0 1 2 0 1]
"""
我是 不會停的蝸牛 Alice
85后全職主婦
喜歡人工智能,行動派
創(chuàng)造力,思考力,學習力提升修煉進行中
歡迎您的喜歡,關注和評論!