第六章 聚類模型

聚類是什么:聚類是無監督學習。是將相似的樣本分組的過程,每個組稱為一個簇,樣本沒有標簽。

聚類的應用:天氣特征、信息檢索(搜索引擎)

聚類的方法:1.基于相似度的聚類方法,使用的是m*n相似度矩陣或距離矩陣;2.基于特征的聚類方法,使用的是n*d的特征數據X;1的優勢:能把不同領域的數據相似度的度量融合進去,甚至可以考慮加入核函數來度量原始數據;2的優勢:直接用原始數據,避免因度量距離而丟失某些信息。

1.K-Means聚類

算法原理

K-means算法是硬聚類算法,是典型的基于原型的目標函數聚類方法的代表,它是數據點到原型的某種距離作為優化的目標函數,利用函數求極值的方法得到迭代運算的調整規則。K-means算法以歐氏距離作為相似度測度,它是求對應某一初始聚類中心向量V最優分類,使得評價指標J最小。算法采用誤差平方和準則函數作為聚類準則函數。

算法過程

1)從N個文檔隨機選取K個文檔作為質心

2)對剩余的每個文檔測量其到每個質心的距離,并把它歸到最近的質心的類

3)重新計算已經得到的各個類的質心

4)迭代2~3步直至新的質心與原質心相等或小于指定閾值,算法結束

具體如下:

輸入:k, data[n];

(1) 選擇k個初始中心點,例如c[0]=data[0],…c[k-1]=data[k-1];

(2) 對于data[0]….data[n],分別與c[0]…c[k-1]比較,假定與c[i]差值最少,就標記為i;

(3) 對于所有標記為i點,重新計算c[i]={ 所有標記為i的data[j]之和}/標記為i的個數;

(4) 重復(2)(3),直到所有c[i]值的變化小于給定閾值。

如何選取K值最優

手肘法原理

SSE=\sum_{i=1}^k\sum_{p\in C_{i} }^~|P-m_{i} |^2

SSE為誤差平方和,C_{i} 為第i個簇,P是C_{i} 中的樣本點,m_{i} C_{i} 的質心,C_{i} 為所有樣本的均值。SSE越小,聚類的效果越好。

關鍵代碼:

import pandas as pd

from sklearn.cluster import KMeans

import matplotlib.pyplot as plt

SSE = []

for k in range(1,9):

? ? teenager_cluster_model = KMeans(n_clusters = k)#構造聚類器

? ? teenager_cluster_model.fit(teenager_sns_zscore)

? ? SSE.append(teenager_cluster_model.inertia_)#estimator.inertia_獲取聚類準則的總和

X = range(1,9)

plt.xlabel('k')

plt.ylabel('SSE')

plt.plot(X,SSE,'-o')

plt.show()

輪廓系數法

 S=\frac{b-a}{max(a,b)} ,a越小,b越大,效果越好

最近簇的定義:c_{j} =arg(min \frac{1}{n} \sum\nolimits_{a}^b |P-x_{i} |^2)

代碼

Scores = []??# 存放輪廓系數

for k in range(2, 9):

????estimator = KMeans(n_clusters=k)??# 構造聚類器

????estimator.fit(np.array(mdl[['Age', 'Gender', 'Degree']]))

????Scores.append(silhouette_score(np.array(mdl[['Age', 'Gender', 'Degree']]), estimator.labels_, metric='euclidean'))

X = range(2, 9)

plt.xlabel('k')

plt.ylabel('輪廓系數')

plt.plot(X, Scores, 'o-')

plt.show()


2.層次聚類

實驗原理:https://www.cnblogs.com/zongfa/p/9344769.html

https://blog.csdn.net/sinat_29957455/article/details/80146093

https://blog.csdn.net/qq_32284189/article/details/81302182

關鍵代碼:

def tree(X, labelture):

? ? # row_clusters = linkage(pdist(df, metric='euclidean'), method='complete')? # 使用抽秘籍距離矩陣

? ? row_clusters = linkage(X, method='complete', metric='euclidean')

? ? print (pd.DataFrame(row_clusters, columns=['row label1', 'row label2', 'distance', 'no. of items in clust.'],

? ? ? ? ? ? ? ? ? ? ? ? index=['cluster %d' % (i + 1) for i in range(row_clusters.shape[0])]))

? ? # 層次聚類樹

? ? row_dendr = dendrogram(row_clusters, labels=labelture)

? ? plt.tight_layout()

? ? plt.ylabel('Euclidean distance')

? ? plt.show()

3.譜聚類

https://www.sogou.com/link?url=hedJjaC291P3yGwc7N55kLSc2ls_Ks2xuhK8zoHiSmEsBhAHv_p0nzh3ZfoXRJBg

https://mp.weixin.qq.com/s?src=11&timestamp=1572660720&ver=1949&signature=ZH131bZ82S3cOmNYG3bgOQ8O3bBGWJ0GglsIjlXddxp0UjnFhZxeMMBRO-rIJBX3-yR4Md4h3ZU5ymjXEyZpIJcrh8wOuybWRYOfA7tHbGJvnEXUoELIRkmQ1-rJnp8K&new=1

# spectralClustering聚類算法

y_pred=cluster.SpectralClustering(n_clusters=2,affinity="nearest_neighbors").fit_predict(noisy_circles[0])

plt.scatter(noisy_circles[0][:,0],noisy_circles[0][:,1],marker='.',c=y_pred)

plt.title("spectralClustering")

plt.show()


4.基于密度的聚類DBSCAN

https://www.sogou.com/link?url=hedJjaC291OfPyaFZYFLI4KQWvqt63NBQgDhIHr5guXAv-KV-mr96Q..

from sklearn import metrics

def draw(m_kmeans,X,y_pred,n_clusters):

? ? centers = m_kmeans.cluster_centers_

? ? print(centers)

? ? plt.scatter(X[:, 0], X[:, 1], c=y_pred, s=50, cmap='viridis')

? ? #中心點(質心)用紅色標出

? ? plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5)

? ? print("Calinski-Harabasz score:%lf"%metrics.calinski_harabaz_score(X, y_pred) )

? ? plt.title("K-Means (clusters = %d)"%n_clusters,fontsize=20)

m_kmeans.fit(X)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,

? ? n_clusters=4, n_init=10, n_jobs=None, precompute_distances='auto',

? ? random_state=None, tol=0.0001, verbose=0)

y_pred = m_kmeans.predict(X)

draw(m_kmeans,X,y_pred,4)

5.Meanshift聚類

https://mp.weixin.qq.com/s?src=11&timestamp=1572661953&ver=1949&signature=Bnx8rlLPbwOXrRceZwCwYfJqO1yoJWCKp6dkG0Iqi4-TmFmU7jXGSJiDcN2bCjhGTMXIDXDqF1r0QZhAyEgwogN4FsHyUZkySzNWqOGBiM6lgbr8*Lw4MtQSzPN6aMbg&new=1

https://mp.weixin.qq.com/s?src=11&timestamp=1572661953&ver=1949&signature=Ru4MV-JtuoTVTShxiYjUfTKzptqP-k01BjZDaL0vwOwlF83sUqBtNsu2nAR2-Z0f40eeK*9YA6rcJNxAj7g3IUO8qlR0bTOjNLb0iP9MWdilDHvhqVLDJBhvgTO1BDDa&new=1

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,563評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,694評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,672評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,965評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,690評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,019評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,013評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,188評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,718評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,438評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,667評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,149評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,845評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,252評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,590評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,384評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容