PCA

主成分分析是對原始數(shù)據(jù)進行一個線性變換,將具有相關(guān)性的變量轉(zhuǎn)化為互不交互的新變量,并達到降維的效果。
主成分分析可以對協(xié)方差矩陣或相關(guān)系數(shù)矩陣進行分析;其結(jié)果可以用來削減回歸分析和聚類分析中變量的數(shù)目。
成分選擇:Kaiser主張(1960)將特征值小于1的成分放棄;
成功標準:如果能用不超過3-5個成分就能解釋數(shù)據(jù)80%方差信息。

iris_pca<-princomp(iris[,-5],cor = T,scale=T)
summary(iris_pca, loadings=TRUE)

Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 1.7083611 0.9560494 0.38308860 0.143926497
Proportion of Variance 0.7296245 0.2285076 0.03668922 0.005178709
Cumulative Proportion 0.7296245 0.9581321 0.99482129 1.000000000

Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Sepal.Length 0.521 -0.377 0.720 0.261
Sepal.Width -0.269 -0.923 -0.244 -0.124
Petal.Length 0.580 -0.142 -0.801
Petal.Width 0.565 -0.634 0.524

Standard deviation:標準差
Proportion of Variance:方差比例(每個主成分解釋的信息量)
Cumulative Proportion:主成分解釋信息累計百分比

石子圖:一般選擇特征值大于1的變量數(shù)作為PC個數(shù)
screeplot(iris_pca,type = "line")

Paste_Image.png

iris_predict<-predict(iris_pca)
plot(iris_predict[,c(1,2)])

Paste_Image.png

biplot(iris_pca,choices=1:2,scale=1)


Paste_Image.png

聚類:
kmeans(iris_pca$scores[,c(1,2)],3)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容