【數據清洗】
Part 1:缺失值處理
- 忽略元組
- 人工填寫缺失值
- 使用一個全局常量填充缺失值:例如將缺失值用“Unknown”表示
- 使用屬性的中心度量(mean or median):對于對稱數據分布使用mean,秦些數據分布使用median。
- 使用與給定元組屬同一類的所有樣本mean或median:例如將顧客按credit_risk分類,則用具有相同信用風險的顧客平均收入替換income中的缺失值。若給定數據分布是傾斜的,則median是更好的選擇。
- 使用最可能的值填充缺失值:可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分類。
Part 2:噪聲數據的處理
<definition>噪聲(noise):是被測量的變量隨機誤差或方差。
數據光滑技術:
- 分箱(binning):通過考查數據的近鄰來光滑有序數據集。常見的:用箱均值光滑;用箱中位數光滑;用箱邊界光滑。
- 回歸(regression):用一個函數擬合數據來光滑數據。
- 離群點分析(outlier analysis):通過如聚類來檢測離群點。
【數據集成】
Part 1:冗余和相關分析:
對于標稱數據,我們使用卡方檢驗發現。對于數值屬性,我們使用相關系數、協方差發現。