今天還是比較開心的,因?yàn)閷W(xué)到了如何聚類分析,而且還沒有出錯(cuò),主要是比較簡單啦!
聚類函數(shù)clusterdata
數(shù)據(jù)聚類函數(shù)clusterdata,優(yōu)點(diǎn)是概括性,功能性強(qiáng)大,使用方便,缺點(diǎn)是采用默認(rèn)的歐式距離,方法是最短距離法——選擇余地少;輸出的結(jié)果簡單。
語法格式 T=clusterdata(X,cutoff)
X表示聚類n*m原始數(shù)據(jù)矩陣,n行表示n個(gè)樣品,m列表示m個(gè)變量。
Cutoff表示聚類譜系圖上的截?cái)鄥?shù),數(shù)值范圍限定在(0,1]之間,當(dāng)接近于1時(shí),則輸出的類別越少。
子程序pdist
pdist用于計(jì)算成對(duì)距離
D=pdist(X)
D=pdist(X,'metric')
D=pdist(X,'minkowski',r)
metric表示距離度量方法選擇項(xiàng)
注意事項(xiàng):1 距離測度對(duì)于字母大小寫沒有特別的規(guī)定 ;2.距離的表示可以全稱,也可以縮寫
距離列陣函數(shù)squareform
功能將pdist計(jì)算的兩兩距離排列成方陣
squareform(D)
層次聚類函數(shù)linkage
功能基于距離方陣M的結(jié)果采用某種方法進(jìn)行分類
Z=linkage(M)
Z=linkage(M,'method')
樹形圖函數(shù)dendrogram
1.圖形的局部顯示
H=dendrogram(Z,n)
2.圖形顏色的局部改變
H=dendrogram(Z,'colorthreshold',T)
T 屬于(0,Z)
T值太小或者太大,譜系顯示的是純一的顏色
缺省參數(shù)的語法格式H=dendrogram(Z,‘color’,‘default’)
3.圖形方向的調(diào)整
H=dendrogram(Z,‘orientation’,orient)
top:自上而下 ;bottom:自下而上
left:自左而右; right:自右而左
4.樣品標(biāo)簽的添加
S=['xx'; ……];
H=denddrogram(Z,'Labels',S);
分類定義函數(shù)
用于指定分類數(shù)目和結(jié)果
T=cluster(Z,p)
%層次聚類分析
%最長距離法%歐式距離
X=[16.2 1492 2000 -8.2 6.2
15.7 970 2209 -20.6 1.9
16.3 1260 2085 -17.3 2.8
17.2 1422 1726 -9.5 4.6
18.8 1874 1709 -4.9 8.0
17.9 1698 1848 -4.5 7.5
16.3 976 1239 -4.6 5.6];
D=pdist(X,'euclid');%計(jì)算樣品之間的歐式距離
M=squareform(D);%排出距離矩陣
Z=linkage(D,'complete');%根據(jù)最長距離法聚類
H=dendrogram(Z);%畫出聚類譜系圖
xlabel('City');%譜系圖的橫軸標(biāo)簽
ylabel('Scale');
C=cophenet(Z,D);
T=cluster(Z,3);
find函數(shù)
find(T==q)
%層次聚類分析
%最短距離法%歐式距離
X=[16.2 1492 2000 -8.2 6.2
15.7 970 2209 -20.6 1.9
16.3 1260 2085 -17.3 2.8
17.2 1422 1726 -9.5 4.6
18.8 1874 1709 -4.9 8.0
17.9 1698 1848 -4.5 7.5
16.3 976 1239 -4.6 5.6];
D=pdist(X,'euclid');%計(jì)算樣品之間的歐式距離
M=squareform(D);%排出距離矩陣
Z=linkage(D,'single');%根據(jù)最長距離法聚類
H=dendrogram(Z);%畫出聚類譜系圖
xlabel('City');%譜系圖的橫軸標(biāo)簽
ylabel('Scale');
C=cophenet(Z,D);
T=cluster(Z,'cutoff',0.8);