特征選擇的好處
便于理解和可視化數據,降低計算及存儲壓力,對抗維數災難提高準確率,增加模型泛化能力;
總結一
- 三大主流方法:過濾式,包裹式,嵌入式;
- 過濾式:對特征重要性(方差,互信息,相關系數,卡方檢驗)排序選擇,獨立于模型;
- 包裹式:確定模型和評價準則之后,對特征空間的不同子集做交叉驗證,進而搜索最佳特征子集;如前向后向貪婪搜索策略;
- 嵌入式:將特征選擇和訓練過程融為一體,例如決策樹,L1正則化;
總結二
- 線性判別分析法(LDA),一種監督學習的降維技術;
- 主成分分析法(PCA);
- 相關系數法 使用相關系數法,先要計算各個特征對目標值的相關系;
- 構建單個特征的模型,通過模型的準確性為特征排序,借此來選擇特征;
- 通過L1正則項來選擇特征:L1正則方法具有稀疏解的特性,因此天然具備特征選擇的特性
(分別使用L1和L2擬合,如果兩個特征在L2中系數相接近,在L1中一個系數為0一個不為0,那么其實這兩個特征都應該保留,原因是L1對于強相關特征只會保留一個); - 訓練能夠對特征打分的預選模型:RandomForest和LogisticRegression/GBDT等都能對模型的特征打分,通過打分獲得相關性后再訓練最終模型;(gbdt.feature_importances_)
- 方差選擇法計算各個特征的方差,然后根據閾值,選擇方差大于閾值的特征;
- 卡方檢驗 經典的卡方檢驗是檢驗定性自變量對定性因變量的相關性;
- 互信息法 互信息法經典的互信息也是評價定性自變量對定性因變量的相關性的;
- 通過特征組合后再來選擇特征:如對用戶id和用戶特征最組合來獲得較大的特征集再來選擇特征,這種做法在推薦系統和廣告系統中比較常見;
- 通過深度學習來進行特征選擇;
- 傳統用前進或者后退法的逐步回歸來篩選特征或者對特征重要性排序,對于特征數量不多的情況還是適用的。