與上一篇《單因素方差分析》組合,就是篩選與因變量相關(guān),自變量不相關(guān)(最大相關(guān),最小冗余)的原則進(jìn)行降維
針對(duì)連續(xù)變量:利用相關(guān)性
選出2至26列,顯著相關(guān)的自變量,cor存儲(chǔ)了高度相關(guān)的變量對(duì),以及對(duì)應(yīng)的相關(guān)系數(shù)
cor.test()計(jì)算相關(guān)系數(shù)
cor<-data.frame(col1=1,name1=2,col2=3,name2=4,cor=5)
for(i in 2:25){
for(j in (i+1):26){
a<-cor.test(bdata[,i], bdata[,j], method = c("pearson"),conf.level = 0.95)
if((a$p.value<0.05)&(abs(a$estimate)>0.6))
{
ci<-c(i,names(bdata)[i],j,names(bdata)[j],a$estimate);
cor<-rbind(cor,ci);
}
}
}
針對(duì)分類變量:利用卡方檢驗(yàn)
對(duì)2至126列,利用chisq.test()進(jìn)行卡方檢驗(yàn)
cor<-data.frame(a=1,b=2,c=3,d=4,e=5)
for(i in 27:125){
for(j in (i+1):126){
car.data = table(bdata[,i], bdata[,j])
a<-chisq.test(car.data)
if(a$p.value<0.05){
ci<-c(i,names(bdata)[i],j,names(bdata)[j],a$p.value);
cor<-rbind(cor,ci);
}
}
}