業務上對特征值維度的要求:
統計學模型:3-15個維度,高維度可能導致維度災難------理論
機器學習模型:50個維度,速度問題------降維
如何降維:
保留重要的特征,剔除不重要的特征
重要特征篩選:1.經驗法---站隊(2-3個特征),2.經驗法+數據分析法---創新(1-2個特征)不重要特征值判斷:1.數據分析法+經驗法(提高模型精確度---刪除剩下的50%),2.數據分析法(提高模型速度--刪除30%)? ? ? ? ? ? ? ? ? ? ? 剩下的用主成分分析壓縮到15個以內。
處理流程:
1.經驗法
2.數據分析法(使用yx相關分析,剔除與y無關的變量)
3.經驗法+數據分析法(x與x相關分析)
4.數據分析法+經驗法(逐步回歸法)
5.主成分分析(因為前四步,已經把重要的變量篩選出來了,不重要的刪除了,剩下的變量意義很模糊)
下面使用bankloan_binning(提取碼:78uh)做個案例:
1.經驗法(通過業務判斷age_group是重要的)
這里可以只看見所定義的變量集,隱藏不關系的變量
2.數據分析法
可以刪除1,4個變量
3.經驗法+數據分析法
下面將使用統計學方法對變量做整合
使用新變量,刪除兩個被擬合的變量
4.數據法+經驗法(刪除變量)
5.主成分分析(若變量個數仍大于15,對整個結果進行壓縮)
用兩個主成分解釋三個變量較為合適(包含信息量大于0.7),但是實際業務中一般要求剩余變量總數/保留主城分數>3
這里可以設置保留主城分數
即可將主成分保存為新變量