第六章聚類模型

聚類是什么：聚類是無監督學習。是將相似的樣本分組的過程，每個組稱為一個簇，樣本沒有標簽。

聚類的應用：天氣特征、信息檢索（搜索引擎）

聚類的方法：1.基于相似度的聚類方法，使用的是m*n相似度矩陣或距離矩陣；2.基于特征的聚類方法，使用的是n*d的特征數據X；1的優勢：能把不同領域的數據相似度的度量融合進去，甚至可以考慮加入核函數來度量原始數據；2的優勢：直接用原始數據，避免因度量距離而丟失某些信息。

1.K-Means聚類

算法原理

K-means算法是硬聚類算法，是典型的基于原型的目標函數聚類方法的代表，它是數據點到原型的某種距離作為優化的目標函數，利用函數求極值的方法得到迭代運算的調整規則。K-means算法以歐氏距離作為相似度測度，它是求對應某一初始聚類中心向量V最優分類，使得評價指標J最小。算法采用誤差平方和準則函數作為聚類準則函數。

算法過程

1)從N個文檔隨機選取K個文檔作為質心

2)對剩余的每個文檔測量其到每個質心的距離，并把它歸到最近的質心的類

3)重新計算已經得到的各個類的質心

4)迭代2~3步直至新的質心與原質心相等或小于指定閾值，算法結束

具體如下:

輸入:k, data[n];

(1) 選擇k個初始中心點，例如c[0]=data[0],…c[k-1]=data[k-1];

(2) 對于data[0]….data[n]，分別與c[0]…c[k-1]比較，假定與c[i]差值最少，就標記為i;

(3) 對于所有標記為i點，重新計算c[i]={ 所有標記為i的data[j]之和}/標記為i的個數;

(4) 重復(2)(3)，直到所有c[i]值的變化小于給定閾值。

如何選取K值最優

手肘法原理

$SSE=\sum_{i=1}^k\sum_{p\in C_{i} }^~|P-m_{i} |^2$

SSE為誤差平方和， $C_{i}$ 為第i個簇，P是 $C_{i}$ 中的樣本點， $m_{i}$ 是 $C_{i}$ 的質心， $C_{i}$ 為所有樣本的均值。SSE越小，聚類的效果越好。

關鍵代碼：

import pandas as pd

from sklearn.cluster import KMeans

import matplotlib.pyplot as plt

SSE = []

for k in range(1,9):

? ? teenager_cluster_model = KMeans(n_clusters = k)#構造聚類器

? ? teenager_cluster_model.fit(teenager_sns_zscore)

? ? SSE.append(teenager_cluster_model.inertia_)#estimator.inertia_獲取聚類準則的總和

X = range(1,9)

plt.xlabel('k')

plt.ylabel('SSE')

plt.plot(X,SSE,'-o')

plt.show()

輪廓系數法

$S=\frac{b-a}{max(a,b)}$ ,a越小，b越大，效果越好

最近簇的定義： $c_{j} =arg(min \frac{1}{n} \sum\nolimits_{a}^b |P-x_{i} |^2)$

代碼

Scores = []??# 存放輪廓系數

for k in range(2, 9):

????estimator = KMeans(n_clusters=k)??# 構造聚類器

????estimator.fit(np.array(mdl[['Age', 'Gender', 'Degree']]))

????Scores.append(silhouette_score(np.array(mdl[['Age', 'Gender', 'Degree']]), estimator.labels_, metric='euclidean'))

X = range(2, 9)

plt.xlabel('k')

plt.ylabel('輪廓系數')

plt.plot(X, Scores, 'o-')

plt.show()

2.層次聚類

實驗原理：https://www.cnblogs.com/zongfa/p/9344769.html

https://blog.csdn.net/sinat_29957455/article/details/80146093

https://blog.csdn.net/qq_32284189/article/details/81302182

關鍵代碼：

def tree(X, labelture):

? ? # row_clusters = linkage(pdist(df, metric='euclidean'), method='complete')? # 使用抽秘籍距離矩陣

? ? row_clusters = linkage(X, method='complete', metric='euclidean')

? ? print (pd.DataFrame(row_clusters, columns=['row label1', 'row label2', 'distance', 'no. of items in clust.'],

? ? ? ? ? ? ? ? ? ? ? ? index=['cluster %d' % (i + 1) for i in range(row_clusters.shape[0])]))

? ? # 層次聚類樹

? ? row_dendr = dendrogram(row_clusters, labels=labelture)

? ? plt.tight_layout()

? ? plt.ylabel('Euclidean distance')

? ? plt.show()

3.譜聚類

https://www.sogou.com/link?url=hedJjaC291P3yGwc7N55kLSc2ls_Ks2xuhK8zoHiSmEsBhAHv_p0nzh3ZfoXRJBg

https://mp.weixin.qq.com/s?src=11&timestamp=1572660720&ver=1949&signature=ZH131bZ82S3cOmNYG3bgOQ8O3bBGWJ0GglsIjlXddxp0UjnFhZxeMMBRO-rIJBX3-yR4Md4h3ZU5ymjXEyZpIJcrh8wOuybWRYOfA7tHbGJvnEXUoELIRkmQ1-rJnp8K&new=1

# spectralClustering聚類算法

y_pred=cluster.SpectralClustering(n_clusters=2,affinity="nearest_neighbors").fit_predict(noisy_circles[0])

plt.scatter(noisy_circles[0][:,0],noisy_circles[0][:,1],marker='.',c=y_pred)

plt.title("spectralClustering")

plt.show()

4.基于密度的聚類DBSCAN

https://www.sogou.com/link?url=hedJjaC291OfPyaFZYFLI4KQWvqt63NBQgDhIHr5guXAv-KV-mr96Q..

from sklearn import metrics

def draw(m_kmeans,X,y_pred,n_clusters):

? ? centers = m_kmeans.cluster_centers_

? ? print(centers)

? ? plt.scatter(X[:, 0], X[:, 1], c=y_pred, s=50, cmap='viridis')

? ? #中心點（質心）用紅色標出

? ? plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5)

? ? print("Calinski-Harabasz score：%lf"%metrics.calinski_harabaz_score(X, y_pred) )

? ? plt.title("K-Means (clusters = %d)"%n_clusters,fontsize=20)

m_kmeans.fit(X)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,

? ? n_clusters=4, n_init=10, n_jobs=None, precompute_distances='auto',

? ? random_state=None, tol=0.0001, verbose=0)

y_pred = m_kmeans.predict(X)

draw(m_kmeans,X,y_pred,4)

5.Meanshift聚類

https://mp.weixin.qq.com/s?src=11&timestamp=1572661953&ver=1949&signature=Bnx8rlLPbwOXrRceZwCwYfJqO1yoJWCKp6dkG0Iqi4-TmFmU7jXGSJiDcN2bCjhGTMXIDXDqF1r0QZhAyEgwogN4FsHyUZkySzNWqOGBiM6lgbr8*Lw4MtQSzPN6aMbg&new=1

https://mp.weixin.qq.com/s?src=11&timestamp=1572661953&ver=1949&signature=Ru4MV-JtuoTVTShxiYjUfTKzptqP-k01BjZDaL0vwOwlF83sUqBtNsu2nAR2-Z0f40eeK*9YA6rcJNxAj7g3IUO8qlR0bTOjNLb0iP9MWdilDHvhqVLDJBhvgTO1BDDa&new=1

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,563評論 6贊 544
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,694評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,672評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,965評論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,690評論 6贊 413
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,019評論 1贊 329
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,013評論 3贊 449
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,188評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,718評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,438評論 3贊 360
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,667評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,149評論 5贊 365
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,845評論 3贊 351
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,252評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,590評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,384評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,635評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

第六章聚類模型

第六章聚類模型

1.K-Means聚類

算法原理

算法過程