【火爐煉AI】機器學習020-使用K-means算法對數據進行聚類分析

(本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )

前面的機器學習類文章（編號從010-019）都是關于監督學習，但是從本篇文章開始，煉丹老頑童要開始講解無監督學習方面，無監督學習是指處理的數據沒有任何形式的標記，我們沒有對訓練數據集進行實現的類別劃分，故而相當于抹黑處理，要讓機器學習自己找出樣本所屬的類別，那么機器學習通過什么方式來找出“所屬類別”了？這就是聚類算法的作用了。

聚類算法，其核心思想就是中國的“人以類聚，物以群分”，就是機器學習將通過一定的算法來將樣本劃分類別，使得相互之間相似的樣本劃分為一個類別，不相似的樣本劃分為不同的類別中。

K-means算法是最流行的聚類算法之一，這種算法常常利用數據的不同屬性將輸入數據劃分為K組，這種劃分是使用最優化的技術實現的，讓各組內的數據點與該組中心點的距離平方和最小化。

說起來很抽象，讓人感覺云里霧里，那么我們看一個簡單的實例吧。

1. 準備數據集

本次所使用的數據集是我前面的文章【火爐煉AI】機器學習010-用樸素貝葉斯分類器解決多分類問題中所采用的數據集，一個具有四種不同類別，兩種不同features的小數據集，其加載方法和顯示方法如下所示。

# 準備數據集
data_path='E:\PyProjects\DataSet\FireAI/data_multivar.txt'
df=pd.read_csv(data_path,header=None)
# print(df.head())
# print(df.info()) # 查看數據信息，確保沒有錯誤
dataset_X,dataset_y=df.iloc[:,:-1],df.iloc[:,-1]
# print(dataset_X.head())
print(dataset_X.info())
print('-'*100)
print(dataset_y.head())
dataset_X=dataset_X.values
dataset_y=dataset_y.values
# print(dataset_X.shape) # (400, 2)
# print(dataset_y.shape) # (400,)

-------------------------------------輸---------出--------------------------------

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 2 columns):
0 400 non-null float64
1 400 non-null float64
dtypes: float64(2)
memory usage: 6.3 KB
None

--------------------------------------------完-------------------------------------

表明結果數據集已經正確地加載到內存中，且每一個features中都沒有Null值，我們無需做進一步的缺失值處理。

下面將這個數據集進行2D可視化，如下是可視化的代碼：

# 無標簽數據集可視化，將第一列feature作為X，第二列feature作為y
def visual_2D_dataset_dist(dataset):
    '''將二維數據集dataset顯示在散點圖中'''
    assert dataset.shape[1]==2,'only support dataset with 2 features'
    plt.figure()
    X=dataset[:,0]
    Y=dataset[:,1]
    plt.scatter(X,Y,marker='v',c='g',label='dataset')
    
    X_min,X_max=np.min(X)-1,np.max(X)+1
    Y_min,Y_max=np.min(Y)-1,np.max(Y)+1
    plt.title('dataset distribution')
    plt.xlim(X_min,X_max)
    plt.ylim(Y_min,Y_max)
    plt.xlabel('feature_0')
    plt.ylabel('feature_1')
    plt.legend()
    
visual_2D_dataset_dist(dataset_X)

得到的結果如下：

無標簽數據集的可視化

########################小**********結###############################

1. 本數據集的加載很簡單，只需用Pandas就可以直接加載，且不需要做其他處理。

2. 此處需要注意，無標簽數據集的二維平面可視化，不能使用label數據，故而此處的可視化函數和我以往文章中的可視化函數是不一樣的，此處需要額外注意。

3. 從二維平面散點圖中可以看出，這個數據集大概可以分為4個不同的類別，即數據都分布在四個族群里，這就是我們可以用K-mean算法的基礎。

#################################################################

2. 構建K-means算法

構建K-means算法的過程很簡單，和其他的SVM，隨機森林算法的構建方式一樣，如下代碼：

# 定義一個k-means對象
from sklearn.cluster import KMeans
kmeans=KMeans(init='k-means++',n_clusters=4,n_init=10)
# 這幾個參數是初始化設定的，其中n_clusters是從二維散點圖中看出大概有4個族群
kmeans.fit(dataset_X)

-------------------------------------輸---------出--------------------------------

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
n_clusters=4, n_init=10, n_jobs=1, precompute_distances='auto',
random_state=None, tol=0.0001, verbose=0)

--------------------------------------------完-------------------------------------

雖然此處我們定義了一個KMeans對象，且使用我們的無標簽數據集進行了訓練，可是訓練結果怎么樣了？我們怎么知道k-means算法是否正確的劃分了不同類別？

所以我們需要一個可視化的結果，就像前面文章中提到的SVM分類結果圖一樣，此處我們定義了一個專門用于可視化K-means聚類結果的函數，并用該函數來查看此處聚類的效果。代碼如下：

def visual_kmeans_effect(k_means,dataset):
    assert dataset.shape[1]==2,'only support dataset with 2 features'
    X=dataset[:,0]
    Y=dataset[:,1]
    X_min,X_max=np.min(X)-1,np.max(X)+1
    Y_min,Y_max=np.min(Y)-1,np.max(Y)+1
    X_values,Y_values=np.meshgrid(np.arange(X_min,X_max,0.01),
                                  np.arange(Y_min,Y_max,0.01))
    # 預測網格點的標記
    predict_labels=k_means.predict(np.c_[X_values.ravel(),Y_values.ravel()])
    predict_labels=predict_labels.reshape(X_values.shape)
    plt.figure()
    plt.imshow(predict_labels,interpolation='nearest',
               extent=(X_values.min(),X_values.max(),
                       Y_values.min(),Y_values.max()),
               cmap=plt.cm.Paired,
               aspect='auto',
               origin='lower')
    
    # 將數據集繪制到圖表中
    plt.scatter(X,Y,marker='v',facecolors='none',edgecolors='k',s=30)
    
    # 將中心點回執到圖中
    centroids=k_means.cluster_centers_
    plt.scatter(centroids[:,0],centroids[:,1],marker='o',
                s=100,linewidths=2,color='k',zorder=5,facecolors='b')
    plt.title('K-Means effect graph')
    plt.xlim(X_min,X_max)
    plt.ylim(Y_min,Y_max)
    plt.xlabel('feature_0')
    plt.ylabel('feature_1')
    plt.show()
    
visual_kmeans_effect(kmeans,dataset_X)

K-means聚類對本數據集的聚類結果

########################小**********結###############################

1. 定義K-means聚類算法的方法很簡單，只需要從sklearn.cluster中導入KMeans，并定義一個KMeans對象即可，直接用fit()函數可以直接訓練。

2. 此處使用k-means聚類算法對數據進行了聚類分析，可以使用函數visual_kmeans_effect()來直接查看聚類后的效果圖。

3. 雖然可以直觀看到效果圖，但效果圖還是難以量化k-means聚類算法的準確度，這些內容將在后續文章中講解。

#################################################################

注：本部分代碼已經全部上傳到（我的github）上，歡迎下載。

參考資料:

1, Python機器學習經典實例，Prateek Joshi著，陶俊杰，陳小莉譯

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,963評論 6贊 542
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,348評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 178,083評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,706評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,442評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,802評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,795評論 3贊 446
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,983評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,542評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,287評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,486評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,030評論 5贊 363
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,710評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,116評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,412評論 1贊 294
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,224評論 3贊 398
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,462評論 2贊 378

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

【火爐煉AI】機器學習020-使用K-means算法對數據進行聚類分析

【火爐煉AI】機器學習020-使用K-means算法對數據進行聚類分析