缺失值處理方式
刪除
均值
缺點:當缺失數據不是隨機數據時會產生偏差.對于正常分布的數據可以使用均值代替,中位值
數據是傾斜的,使用中位數比均值可能更好。插值法
隨機插值--隨機選取一個樣本的值
拉格朗日插值和牛頓插值
相關變量預測插值--通過與缺失變量關系相關性大的變量, 來預測相關值。相似樣本值
找到和缺失樣本類似的樣本, 缺失樣本所丟失的屬性用相似樣本的值替代。用回歸或者決策樹等,小范圍屬性列表構建模型判斷缺失值, 個人感覺只適合較為重要的列屬性缺失值預估。
離群值
離群值簡單理解就是和大多數數據相差比較多的點。下面從兩個方面
離群值的識別
1.畫圖, 非常直觀
2.正態分布的3a原則
如果數據服從正態分布(如何看數據是否正態分布), 如果值超過平均值的3倍標準差的值被認為離群值。如果不服從正態分布, 則用偏離平均值多少倍來衡量。
3.箱型圖識別異常值。利用數據中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大值來描述數據的一種方法,它也可以粗略地看出數據是否具有有對稱性,分布的分散程度等信息。
第一四分位數(Q1):表示全部觀察值中有四分之一的數據取值比它小.
第三四分位數(Q3),表示全部觀察值中有四分之一的數據取值比它大;
IQR為四分位數間距,是上四分位數QU與下四分位數QL的差值,包含了全部觀察值的一半。
如下圖(來自百度經驗)所示,如果值小于Q1-1.5IQR, 或者大于Q3 + 1.5IQR,認為數據為異常值。
4.Z-score
Z-score又稱為標準分數(Standard Score), 可用來幫助識別異常值。Z-score的值求取如下:
建議將Z分數低于-3或高于3的數據看成是異常值。這些數據的準確性要復查,以決定它是否屬于該數據集。計算Z值時需要“母體”的平均值和標準差,而不是“樣本”的平均值和標準差。因此需要了解母體的統計數據資料。但是要確實了解母體真正的標準差往往是不切實際的。
離群值的處理
離群值的處理和缺失值方式類似,可以把離群值當成缺失值處理。
1.刪除
2.中位值或者均值
3.差值法
4.相似樣本