去除數(shù)據(jù)中的重復(fù),并將剩余部分轉(zhuǎn)換成標(biāo)準(zhǔn)、可接受格式的處理過程。
1、數(shù)據(jù)問題
數(shù)據(jù)缺失
通過手動(dòng)或規(guī)則填充數(shù)據(jù);
清除列;
無效數(shù)據(jù)
錯(cuò)誤數(shù)據(jù)的探測和修正;
根據(jù)概率統(tǒng)計(jì)學(xué)發(fā)現(xiàn)數(shù)據(jù)值異常的記錄,如姓名、地址、郵政編碼等。
重復(fù)記錄
合并/清除 規(guī)則。處理方式與特定的應(yīng)用領(lǐng)域無關(guān)。
數(shù)據(jù)源內(nèi)部或數(shù)據(jù)源之間數(shù)據(jù)的不一致性
可定義完整性約束來發(fā)現(xiàn)不一致性。也可通過分析數(shù)據(jù)發(fā)現(xiàn)關(guān)聯(lián),從而保持一致性。
數(shù)據(jù)遷移工具:通過歸一化規(guī)則,如把gender字符串都轉(zhuǎn)化成sex。
數(shù)據(jù)清理工具:使用領(lǐng)域特有知識(shí)(如郵件地址)對(duì)數(shù)據(jù)進(jìn)行清理,通過語義分析、模糊匹配解決數(shù)據(jù)清理。
數(shù)據(jù)審計(jì):通過掃描數(shù)據(jù)發(fā)現(xiàn)規(guī)律與聯(lián)系。
2、數(shù)據(jù)問題的處理方法
1)研究數(shù)據(jù)、定義錯(cuò)誤類型
單數(shù)據(jù)源?多數(shù)據(jù)源?
結(jié)構(gòu)級(jí)錯(cuò)誤?記錄級(jí)錯(cuò)誤?是否符合字段定義和約束?
2)搜索、識(shí)別錯(cuò)誤
排序、比較、匹配等耗時(shí)的運(yùn)算。
3)修正錯(cuò)誤
依賴標(biāo)準(zhǔn)文件、數(shù)據(jù)字典、數(shù)理統(tǒng)計(jì)。
參考
http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97