主成分分析是對原始數(shù)據(jù)進行一個線性變換,將具有相關(guān)性的變量轉(zhuǎn)化為互不交互的新變量,并達到降維的效果。
主成分分析可以對協(xié)方差矩陣或相關(guān)系數(shù)矩陣進行分析;其結(jié)果可以用來削減回歸分析和聚類分析中變量的數(shù)目。
成分選擇:Kaiser主張(1960)將特征值小于1的成分放棄;
成功標準:如果能用不超過3-5個成分就能解釋數(shù)據(jù)80%方差信息。
iris_pca<-princomp(iris[,-5],cor = T,scale=T)
summary(iris_pca, loadings=TRUE)
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 1.7083611 0.9560494 0.38308860 0.143926497
Proportion of Variance 0.7296245 0.2285076 0.03668922 0.005178709
Cumulative Proportion 0.7296245 0.9581321 0.99482129 1.000000000
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Sepal.Length 0.521 -0.377 0.720 0.261
Sepal.Width -0.269 -0.923 -0.244 -0.124
Petal.Length 0.580 -0.142 -0.801
Petal.Width 0.565 -0.634 0.524
Standard deviation:標準差
Proportion of Variance:方差比例(每個主成分解釋的信息量)
Cumulative Proportion:主成分解釋信息累計百分比
石子圖:一般選擇特征值大于1的變量數(shù)作為PC個數(shù)
screeplot(iris_pca,type = "line")
iris_predict<-predict(iris_pca)
plot(iris_predict[,c(1,2)])
biplot(iris_pca,choices=1:2,scale=1)
聚類:
kmeans(iris_pca$scores[,c(1,2)],3)