一起來讀西瓜書:第九章 聚類 - 簡書
http://www.lxweimin.com/p/499b2f32a662
概要:在介紹聚類的具體算法之前,我們得要先討論聚類算法涉及的最基本的問題:如何判斷一個聚類算法結果的好壞--
聚類結果的“簇內相似度”(intra-cluster similarity)高且“簇間相似度”(inter-cluster similarity)低
聚類算法涉及的最基本的問題:如何判斷一個聚類算法結果的好壞
1)聚類結果好壞的評估指標:性能度量
聚類性能度量亦稱聚類“有效性指標”(validity index),與監督學習一樣,它的目的是為了用來評估聚類結果的好壞,當我們能通過性能度量來評估聚類的好壞時,我們就可以通過將這個性能度量作為優化目標來生成更好的聚類結果。
對于聚類算法來說,什么樣的結果是好的呢?
換言之,聚類結果的“簇內相似度”(intra-cluster similarity)高且“簇間相似度”(inter-cluster similarity)低
我們將聚類的性能度量大致劃分為了以下兩類:
[1]外部指標
對于“外部指標”,我們的度量目的就是要使得我們的聚類結果與參考模型盡可能相近
其度量的中心思想是:聚類結果中被劃分到同一簇中的樣本在參考模型中也被劃分到同一簇的概率越高代表聚類結果越好。常用的性能指標有:Jaccard系數、FM指數、Rand指數
[2]內部指標
“內部指標”通過計算簇內的樣本距離,以及簇間的樣本距離來對聚類結果進行評估。常用的性能指標有:DB指數、Dunn指數