SPSS之特征篩選與主成分分析

業務上對特征值維度的要求:

統計學模型:3-15個維度,高維度可能導致維度災難------理論

機器學習模型:50個維度,速度問題------降維

如何降維:

保留重要的特征,剔除不重要的特征


重要特征篩選:1.經驗法---站隊(2-3個特征),2.經驗法+數據分析法---創新(1-2個特征)不重要特征值判斷:1.數據分析法+經驗法(提高模型精確度---刪除剩下的50%),2.數據分析法(提高模型速度--刪除30%)? ? ? ? ? ? ? ? ? ? ? 剩下的用主成分分析壓縮到15個以內。

處理流程:

1.經驗法

2.數據分析法(使用yx相關分析,剔除與y無關的變量)

3.經驗法+數據分析法(x與x相關分析)

4.數據分析法+經驗法(逐步回歸法)

5.主成分分析(因為前四步,已經把重要的變量篩選出來了,不重要的刪除了,剩下的變量意義很模糊)

下面使用bankloan_binning(提取碼:78uh)做個案例:

1.經驗法(通過業務判斷age_group是重要的)




這里可以只看見所定義的變量集,隱藏不關系的變量

2.數據分析法








可以刪除1,4個變量


3.經驗法+數據分析法



下面將使用統計學方法對變量做整合








使用新變量,刪除兩個被擬合的變量

4.數據法+經驗法(刪除變量)


5.主成分分析(若變量個數仍大于15,對整個結果進行壓縮)





用兩個主成分解釋三個變量較為合適(包含信息量大于0.7),但是實際業務中一般要求剩余變量總數/保留主城分數>3


這里可以設置保留主城分數



即可將主成分保存為新變量
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容