如果想要快速的搭建機器學習的模型,scikit - learn 是最好的工具之一,他提供的 packages 能夠快速幫助我們使用 Python 搭建起一個機器學習模型,在這里我們就用一個 cheatsheet 來快速展示一個用機器學習 Pipeline。
一個基礎的 機器學習Pipeline 主要包含了下述 5 個步驟:
- 數據讀取
- 數據預處理
- 創建模型
- 評估模型結果
- 模型調參
那我們接下去就根據 Pipeline 里面的 5 個步驟,來分別結合 scikit-learn 進行說明。
1. 數據讀取,拆分訓練集、測試集
數據讀取之后,通常可以存儲在 NumPy 數組或 SciPy 矩陣或者 Pandas DataFrame 中。我們一般推薦 Pandas 的處理方法,其后也會介紹 Pandas 庫中的缺失值處理。
- NumPy
>>> import numpy as np
>>> X = np.random.random((10,5))
>>> y = np.array(['M','M','F','F','M','F','M','M','F','F','F'])
>>> X[X < 0.7] = 0
- Pandas
>>> import pandas as pd
>>> data = pd.read_csv('data.csv')?
>>> X = data[['a',''b]]
>>> y = data['c']
加載數據后,您的下一個任務就是將數據集:
- 拆分訓練數據和測試數據
當然你也可能聽說過訓練集、驗證集、測試集,他們的關系是訓練集(可在訓練時拆分成訓練集、驗證集)、測試集。所以在此處單獨劃分出測試集,沒有任何的問題。
>>> from sklearn.model_selection import train_test_split
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
注解一下 random_state,這是計算機內部的一個隨機函數,通過這個參數設置可以確保每次拆分的測試集是一樣的,方便在后續測試不同模型性能時進行控制變量。
2. 數據預處理
- 數據標準化
數據標準化是數據預處理步驟之一,用于重新調整一個或多個屬性,使屬性的平均值為0,標準差為1。標準化會讓數據符合高斯(鐘形曲線)分布。
>>> from sklearn.preprocessing import StandardScaler
>>> scaler = StandardScaler().fit(X_train)
>>> standardized_X = scaler.transform(X_train)
>>> standardized_X_test = scaler.transform(X_test)
- 歸一化
歸一化是一種通常用于機器學習的數據預處理方法。歸一化的主要目標是更改數據集中數字列的值,以便數據可以具有相同的比例。
>>> from sklearn.preprocessing import Normalizer
>>> scaler = Normalizer().fit(X_train)
>>> normalized_X = scaler.transform(X_train)
>>> normalized_X_test = scaler.transform(X_test)
- 二值化
二值化是對文本計數數據執行的常見操作。使用二值化,我們可以用該指來分析特征的存在與否,而不是例如具有量化的出現次數。
>>> from sklearn.preprocessing import Binarizer
>>> binarizer = Binarizer(threshold=0.0).fit(X)
>>> binary_X = binarizer.transform(X)
- 編碼
LabelEncoder是用于編碼類級別的數據預處理的另一個類型,它還可用于將非數字標簽轉換為數字標簽。
>>> from sklearn.preprocessing import LabelEncoder
>>> enc = LabelEncoder()
>>> y = enc.fit_transform(y)
- 填充缺失值
python 中的 Imputer 類可以用于填充缺失值。它通過使用缺失值所在的行或列的平均值,中值或最常值來實現此目的。此類還允許編碼不同的缺失值。
缺失值的去除和補充十分的重要,因為 機器學習的大部分模型是不能處理缺損值的。
>>> from sklearn.preprocessing import Imputer
>>> imp = Imputer(missing_values=0, strategy='mean', axis=0)
>>> imp.fit_transform(X_train)
-- 去掉缺失值
這里主要是針對 Pandas 讀入方法的數據來進行缺失值的處理。
>>> import pandas as pd
>>> data = pd.read_csv("data.csv")
>>> data.dropna()
- 生成多項式特征
多項式特征生成一個新的特征矩陣,該特征矩陣由度數小于或等于指定度數的特征的所有多項式組合組成。該處理是為了增加更多的數據特征。例如,如果輸入樣本是二維的并且形式為[a,b],那么2次多項式特征是[1,a,b,a ^ 2,ab,b ^ 2]。
>>> from sklearn.preprocessing import PolynomialFeatures
>>> poly = PolynomialFeatures(5)
>>> poly.fit_transform(X)
3. 創建模型
- 監督學習
監督學習是一種機器學習,使模型能夠在對標記數據進行培訓后預測未來結果。在這里你會發現,真實的模型創建只需要一句代碼。
# Linear Regression Algorithm
>>> from sklearn.linear_model import LinearRegression
>>> lr = LinearRegression(normalize=True)
# Naive Bayes Algorithm
>>> from sklearn.naive_bayes import GaussianNB
>>> gnb = GaussianNB()
# KNN Algorithm
>>> from sklearn import neighbors
>>> knn = neighbors.KNeighborsClassifier(n_neighbors=5)
# Support Vector Machines (SVM)
>>> from sklearn.svm import SVC
>>> svc = SVC(kernel='linear’)
- 無監督學習
無監督學習可以使模型能夠預測未來結果,而無需對標記數據進行訓練,通常用于特征的提取。
# Principal Component Analysis (PCA)
>>> from sklearn.decomposition import PCA
>>> pca = PCA(n_components=0.95)
# K Means Clustering Algorithm
>>> from sklearn.cluster import KMeans
>>> k_means = KMeans(n_clusters=3, random_state=0)
- 模型數據擬合
我個人更愿意稱這一步為模型數據裝載,但是在 scikit-learn 里面,這一步是擬合,也是用于衡量機器學習模型對類似數據的概括程度與其訓練結果的衡量標準。
# For Supervised learning
>>> lr.fit(X, y)
>>> knn.fit(X_train, y_train)
>>> svc.fit(X_train, y_train)
# For Unsupervised Learning
>>> k_means.fit(X_train)#Fits data into the model
>>> pca_model = pca.fit_transform(X_train)
- 預測
預測用來得到訓練的結果,我們需要喂入test模型中的特征值。
# For Supervised learning
>>> y_pred=svc.predict(np.random((2,5)))#svc model
>>> y_pred=lr.predict(x_test)#lr model
>>> y_pred=knn.predict_proba(x_test)#knn model
# For Unsupervised Learning
>>> y_pred=k_means.predict(x_test)#predict labels in clustering algorithm
4. 估算模型效果
- 分類指標評價
sklearn.metrics模塊實現了多個損失,分數和效用函數來衡量分類性能。
# Mean Absolute Error
>>> from sklearn.metrics import mean_absolute_error
>>> y_true = [3, -0.5, 2]
>>> mean_absolute_error(y_true, y_pred)
# Mean Squared Error
>>> from sklearn.metrics import mean_squared_error
>>> mean_squared_error(y_test, y_pred)
# R2 Score
>>> from sklearn.metrics import r2_score
>>> r2_score(y_true, y_pred)
- 回歸指標
sklearn.metrics模塊實現了幾個損失,分數和效用函數來衡量回歸性能。
# Accuracy Score
>>> knn.score(X_test, y_test)
>>> from sklearn.metrics import accuracy_score
>>> accuracy_score(y_test, y_pred)
# Classification Report
>>> from sklearn.metrics import classification_report
>>> print(classification_report(y_test, y_pred))
# Confusion Matrix
>>> from sklearn.metrics import confusion_matrix
>>> print(confusion_matrix(y_test, y_pred))
- 聚類評估指標
# Adjusted Rand Index
>>> from sklearn.metrics import adjusted_rand_score
>>> adjusted_rand_score(y_true, y_pred)
#?Homogeneity
>>> from sklearn.metrics import homogeneity_score
>>> homogeneity_score(y_true, y_pred)
# V-measure
>>> from sklearn.metrics import v_measure_score
>>> metrics.v_measure_score(y_true, y_pred)
- 交叉驗證
>>> from sklearn.cross_validation import cross_val_score
>>> print(cross_val_score(knn, X_train, y_train, cv=4))
>>> print(cross_val_score(lr, X, y, cv=2))
5. 模型調參
- 網格搜索
GridSearchCV 實現了“fit”和“score”方法,它還可以實現“predict”, “predict_proba”, “decision_function”, “transform”和“inverse_transform”。
>>> from sklearn.grid_search import GridSearchCV
>>> params = {"n_neighbors": np.arange(1,3), "metric": ["euclidean", "cityblock"]}
>>> grid = GridSearchCV(estimator=knn,?param_grid=params)
>>> grid.fit(X_train, y_train)
>>> print(grid.best_score_)
>>> print(grid.best_estimator_.n_neighbors)
- 隨機網格搜索
RandomizedSearchCV對超參數執行隨機搜索。與GridSearchCV相比,并未嘗試所有參數值,而是從指定的分布中采樣固定數量的參數設置。嘗試的參數設置數由n_iter給出。
>>> from sklearn.grid_search import RandomizedSearchCV
>>> params = {"n_neighbours": range(1,5), "weights":["uniform", "distance"]}
>>>rserach = RandomizedSearchCV(estimator=knn,param_distribution=params, cv=4, n_iter=8, random_state=5)
>>> rsearch.fit(X_train, Y_train)
>>> print(rsearch.best_score)