1.缺失值、異常值、重復值得處理
在數據清洗過程種,主要處理的是缺失值、異常值和重復值。所謂清洗,是對數據進行丟棄、填充、替換、去重等操作,實現去除異常、糾正錯誤、補足缺失的目的。
數據列缺失的4種處理方法:
1.丟棄
不適用采取丟棄的場景:數據集總體中存在大量的數據記錄不完整情況且比例較大,例如超過10%。刪除這些帶有缺失值的記錄意味著將會損失過多有用信息。或者帶有缺失值的數據記錄大量存在著明顯的數據分布規律或者特征,例如帶有缺失值的數據記錄的目標標簽主要集中在某一類或者幾類,如果刪除會使對應分類的數據樣本丟失大量特征信息,導致模型過擬合或者分類不準確。
2.補全
2.1:統計法:使用均值、加權均值、中位數等方法補足;對于分類數據,使用類別眾數最多的值補足。
2.2:模型法:更多時候我們會基于已有的其他字段,將缺失字段作為目標變量進行預測,從而得到最為可能的補全值。
2.3:專家補全
2.4:隨機法,特殊值法,多重填補等。
3.真值轉換法:
轉換前:性別(男,女,未知)
轉換后:性別男(值域1,0) 性別女(值域1,0),性別未知(值域1,0)
將一個變量變為3個變量。
4.不處理
常見的能夠自動處理缺失值的模型包括:KNN,決策樹和隨機森林,神經網絡和樸素貝葉斯,DBSCAN等。
忽略,缺失值不參與距離計算,例如KNN。
將缺失值作為分布的一種狀態,并參與到建模過程,例如決策樹。
不基于距離做計算,因此基于值得距離做計算,本身得影響就消除,例如DBSCAN.
對于缺失值得處理思路是先通過一定方法找到缺失值,然后分析缺失值在整個樣本中的分布占比以及缺失值是否具有顯著的無規律分布特征,然后考慮后續要使用的模型是否滿足缺失值自動處理,最后決定采用哪種缺失值處理方法。