01 KNN可以做點什么呢?
在李航的《統計學習方法》中,詳細講解了一中分類算法:K近鄰(K Nearest Neighbor),具體的算法過程和關鍵點可以參考這篇文章:
算法的理論基礎有了,下一步就是自己動手去實現了。
今天我們的文章就是利用python去實現KNN算法,利用這套算法可以做什么呢?
比如,我們已經知道一組鳶尾花的花瓣、花萼長寬以及對應的鳶尾花品種,那么利用KNN算法,我們就可以判斷一朵擁有一定長寬的花瓣花萼屬于鳶尾花的哪個品種
同樣地,利用KNN算法,可以根據經驗數據(訓練集),判斷貸款客戶的風險高低,決定是否貸款給客戶等等。
本文利用以下兩種方式在python中實現KNN算法:
- 直接調用python的sklearn包中的knn算法
- 自定義函數實現KNN算法
02 sklearn包實現
python自帶的sklearn包是一個非常強大的機器學習包,其中包含了knn算法,主要包含以下幾個函數。
1. 引入sklearn包中的knn類
from sklearn.neighbors import KNeighborsClassifier
2. 取得knn分類器,并使用內置參數調整KNN三要素
knn=KNeighborsClassifier(weights="distance",n_neighbors=10)
這里說明一下此分類器各參數的意義(先了解KNN算法原理,再看參數更容易理解)3. 使用knn.fit()對訓練集進行訓練
knn.fit(),訓練函數,它是最主要的函數。接收參數只有1個,就是訓練數據集,每一行是一個樣本,每一列是一個屬性。它返回對象本身,即只是修改對象內部屬性,因此直接調用就可以了,后面用該對象的預測函數取預測自然及用到了這個訓練的結果。
knn.fit(iris_x_train,iris_y_train)
4. 調用knn.predict()預測新輸入的類別
knn.predict(),預測函數 接收輸入的數組類型測試樣本,一般是二維數組,每一行是一個樣本,每一列是一個屬性。返回數組類型的預測結果。
iris_y_predict=knn.predict(iris_x_test)
5. 調用knn.predict_proba(),顯示每個測試集樣本對應各個分類結果的概率
knn.predict_proba(),基于概率的軟判決,也是預測函數,只是并不是給出某一個樣本的輸出是哪一個值,而是給出該輸出是各種可能值的概率各是多少。
knn.predict_proba(iris_x_test)
6. 調用knn.score()計算預測的準確率
knn.score(),計算準確率的函數,接受參數有3個。輸出為一個float型數,表示準確率。內部計算是按照predict()函數計算的結果記性計算的。
接收的3個參數:
- X: 接收輸入的數組類型測試樣本,一般是二維數組,每一行是一個樣本,每一列是一個屬性。
- y: X這些預測樣本的真實標簽,一維數組或者二維數組。
- sample_weight=None:是一個和X一樣長的數組,表示各樣本對準確率影響的權重,一般默認為None.
score=knn.score(iris_x_test,iris_y_test,sample_weight=None)
完成!
利用sklearn實現KNN算法,訓練集為130個鳶尾花的訓練集,包含了鳶尾花的花瓣花萼長寬以及對應的品種,輸入為20個鳶尾花的花瓣花萼長寬,輸出為這20個鳶尾花的品種預測,運行結果如下
iris_y_predict=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']
iris_y_test=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']
accuracy is= 95.0 %
預測結果準確率為95%
完整代碼我放在了github上,歡迎交流
KNN的sklearn實現
03 自定義函數實現
下面我們升級難度,甩開別人喂到你面前的飯菜,自己動手寫一個KNN分類器。
在此之前,你需要非常了解KNN算法原理。
本KNN分類器原理如下:
計算輸入x與訓練集各點的距離distance(這里numpy數組的元素級計算高效率凸顯!)
按distance排序,取distance最近的k個點(k為分類器參數)
對k個點的類別歸類計數,x歸為多數類(多數表決)
或者對k個點的類別按1/distance權重歸類計數,x歸為計數大的類(加權表決)
基于上面的算法原理,下面直接給出我寫的KNN分類器代碼,此分類器特征如下:
- 可以選擇分類決策規則(多數表決/距離加權表決)
- 可以選擇近鄰數k
- 使用歐氏距離度量
- 一次只能對一個新輸入分類,這是此分類器的弊病,后續改進算法提升點(加入for循環即可)
- 沒有設定訓練集數據存儲方式選擇的參數,只能線性掃描(即,沒有設置kd樹存儲),因此難以處理大數據量的訓練集
自定義KNN分類器
# newInput: 新輸入的待分類數據(x_test),本分類器一次只能對一個新輸入分類
# dataset:輸入的訓練數據集(x_train),array類型,每一行為一個輸入訓練集
# labels:輸入訓練集對應的類別標簽(y_train),格式為['A','B']而不是[['A'],['B']]
# k:近鄰數
# weight:決策規則,"uniform" 多數表決法,"distance" 距離加權表決法
def KNNClassify(newInput, dataset, labels, k, weight):
numSamples=dataset.shape[0]
"""step1: 計算待分類數據與訓練集各數據點的距離(歐氏距離:距離差值平方和開根號)"""
diff=np.tile(newInput,(numSamples,1)) - dataset # 凸顯numpy數組的高效性——元素級的運算
squaredist=diff**2
distance = (squaredist.sum(axis=1))**0.5 # axis=1,按行累加
"""step2:將距離按升序排序,并取距離最近的k個近鄰點"""
# 對數組distance按升序排序,返回數組排序后的值對應的索引值
sortedDistance=distance.argsort()
# 定義一個空字典,存放k個近鄰點的分類計數
classCount={}
# 對k個近鄰點分類計數,多數表決法
for i in range(k):
# 第i個近鄰點在distance數組中的索引,對應的分類
votelabel=labels[sortedDistance[i]]
if weight=="uniform":
# votelabel作為字典的key,對相同的key值累加(多數表決法)
classCount[votelabel]=classCount.get(votelabel,0)+1
elif weight=="distance":
# 對相同的key值按距離加權累加(加權表決法)
classCount[votelabel]=classCount.get(votelabel,0)+(1/distance[sortedDistance[i]])
else:
print ("分類決策規則錯誤!")
print ("\"uniform\"多數表決法\"distance\"距離加權表決法")
break
# 對k個近鄰點的分類計數按降序排序,返回得票數最多的分類結果
sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
if weight=="uniform":
print ("新輸入到訓練集的最近%d個點的計數為:"%k,"\n",classCount)
print ("新輸入的類別是:", sortedClassCount[0][0])
elif weight=="distance":
print ("新輸入到訓練集的最近%d個點的距離加權計數為:"%k,"\n",classCount)
print ("新輸入的類別是:", sortedClassCount[0][0])
return sortedClassCount[0][0]
下面對自定義的KNN分類器進行測試,還是使用鳶尾花數據集.
1. 建立訓練集、測試集
iris=pd.read_csv("E:\python\practice\iris.txt")
iris.head()
iris_x=iris.iloc[:,[0,1,2,3]]
iris_y=iris.iloc[:,[4]]
np.random.seed(7)
indices=np.random.permutation(len(iris_x))
iris_x_train=iris_x.iloc[indices[0:130]]
iris_y_train=iris_y.iloc[indices[0:130]]
iris_x_test=iris_x.iloc[indices[130:150]]
iris_y_test=iris_y.iloc[indices[130:150]]
# 將dataframe格式的數據轉換為numpy array格式,便于 調用函數計算
iris_x_train=np.array(iris_x_train)
iris_y_train=np.array(iris_y_train)
iris_x_test=np.array(iris_x_test)
iris_y_test=np.array(iris_y_test)
# 將labels的形狀設置為(130,)
iris_y_train.shape=(130,)
2. 將訓練集、測試集帶入自定義KNN分類器進行分類
test_index=12
predict=KNNClassify(iris_x_test[test_index],iris_x_train,iris_y_train,20,"distance")
print (predict)
print ("新輸入的實際類別是:", iris_y_test[test_index])
print ("\n")
if predict==iris_y_test[test_index]:
print ("預測準確!")
else:
print ("預測錯誤!")
隨意選擇一個測試數據,預測結果如下
新輸入到訓練集的最近20個點的距離加權計數為:
{'Iris-versicolor': 45.596003202769246}
新輸入的類別是: Iris-versicolor
Iris-versicolor
新輸入的實際類別是: ['Iris-versicolor']
預測準確!
完整代碼我放在了github上,歡迎交流
KNN的自定義函數實現
04 預告
本文結合KNN算法原理,利用python實現了KNN,使用了兩種方式:
- sklearn包實現
- 自定義KNN分類器
下期將利用python實現樸素貝葉斯算法,敬請期待~