R語(yǔ)言-14.2一次性篩選出高度相關(guān)自變量(相關(guān)系數(shù)與卡方檢驗(yàn))

與上一篇《單因素方差分析》組合,就是篩選與因變量相關(guān),自變量不相關(guān)(最大相關(guān),最小冗余)的原則進(jìn)行降維

針對(duì)連續(xù)變量:利用相關(guān)性
選出2至26列,顯著相關(guān)的自變量,cor存儲(chǔ)了高度相關(guān)的變量對(duì),以及對(duì)應(yīng)的相關(guān)系數(shù)
cor.test()計(jì)算相關(guān)系數(shù)

cor<-data.frame(col1=1,name1=2,col2=3,name2=4,cor=5)
for(i in 2:25){
    for(j in (i+1):26){
        a<-cor.test(bdata[,i], bdata[,j], method = c("pearson"),conf.level = 0.95)
        if((a$p.value<0.05)&(abs(a$estimate)>0.6))
        {       
        ci<-c(i,names(bdata)[i],j,names(bdata)[j],a$estimate);
        cor<-rbind(cor,ci);
        }       
    }
}

針對(duì)分類變量:利用卡方檢驗(yàn)
對(duì)2至126列,利用chisq.test()進(jìn)行卡方檢驗(yàn)

cor<-data.frame(a=1,b=2,c=3,d=4,e=5) 
for(i in 27:125){
    for(j in (i+1):126){
        car.data = table(bdata[,i], bdata[,j])
        a<-chisq.test(car.data)
        if(a$p.value<0.05){
            ci<-c(i,names(bdata)[i],j,names(bdata)[j],a$p.value);
            cor<-rbind(cor,ci); 
        }       
    }
}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容