聚類分析與R使用Part1-聚類分析介紹

  • 基本概念
    聚類分析法(Cluster Analysis)是研物以類聚的一種現代統(tǒng)計分析方法,在眾多的領域中,都需要采用聚類分析作分類研究。
  • 分析方法
    聚類分析方法分為兩大類,一類是系統(tǒng)聚類法(hclust),第兩類是快速聚類法(kmeans),快速聚類法是在樣本量很大時替代系統(tǒng)聚類法使用的。
    按照聚類的對象,還可分為Q型聚類R型聚類。前者是對樣品的聚類,后者是對變量的聚類。
  • 聚類統(tǒng)計量

Q型聚類,使用的統(tǒng)計量是距離,包括如下三種常見的距離:

歐式距離:d_{ij}(2)=[\sum_{k=1}^p(x_{ik}-x_{jk})^2]^{\frac{1}{2}}
馬氏距離:d_{ij}(M)=(x_i-x_j)'{\sum}^{-1}(x_i-x_j)
蘭氏距離:d_{ij}(LW)=\frac{1}{p}\sum_{k=1}^p\frac{|x_{ik}-x{jk}|}{|x_{ik}+x{jk}|},蘭氏距離是絕對值距離的一個擴展。

R型聚類,也就是針對變量進行聚類,使用的是相關系數作為統(tǒng)計量:

相關系數 r_{ij}=\frac{\sum_{ij}(x_i-\overline x)}{\sqrt{\sum_i(x_i-\overline x)^2\sum_j(y_j-\overline y)^2}}

  • 距離矩陣 vs 相關矩陣
    距離矩陣長啥樣?
    D=\begin{bmatrix} d_{11} & d_{12} & ... & d_{1n} \\ d_{21} & d_{22} & ... & d_{2n} \\ ...&... &... &... \\ d_{n1} & d_{n2} & ... &d_{nn} \end{bmatrix}= \begin{bmatrix} 0 & d_{12} & ... & d_{1n} \\ d_{21} & 0 & ... & d_{2n} \\ ...&... &0 &... \\ d_{n1} & d_{n2} & ... &0 \end{bmatrix}
    因為樣本自己到自己的距離為0,所以D對角線上的值都為0。相關矩陣和距離矩陣有些類似,但對角線上都是1,因為自己與自己的相似性肯定是1。
    D=\begin{bmatrix} r_{11} & r_{12} & ... & r_{1p} \\ r_{21} & r_{22} & ... & r_{2p} \\ ...&... &... &... \\ r_{p1} & r_{p2} & ... &r_{pp} \end{bmatrix}= \begin{bmatrix} 1 & r_{12} & ... & r_{1p} \\ r_{21} & 1 & ... & r_{2p} \\ ...&... &1 &... \\ r_{p1} & r_{p2} & ... &1 \end{bmatrix}
    這個課程后面是重點講Q型聚類,相關系數在之前的章節(jié)就講過了。
  • 矩陣計算函數
    (1)距離矩陣dist()的用法:

dist(X,method='euclidean',diag=FALSE,upper=FALSE,p=2)

  • x為數據矩陣,data.frame;
  • method包括“euclidean","maximum",“manhattan“,“canberra”,“binary” or "minkowski",默認為歐式距離;
  • diag是是否包含對角元素,默認為無;
  • upper為是否需要上三角,默認為下三角矩陣;
  • p為Minkowski距離的冪次,默認為p=2(歐式距離)。

(2)相關系數矩陣使用cor(X)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。