數據挖掘中的預處理

【數據清洗】
Part 1:缺失值處理

  1. 忽略元組
  2. 人工填寫缺失值
  3. 使用一個全局常量填充缺失值:例如將缺失值用“Unknown”表示
  4. 使用屬性的中心度量(mean or median):對于對稱數據分布使用mean,秦些數據分布使用median。
  5. 使用與給定元組屬同一類的所有樣本mean或median:例如將顧客按credit_risk分類,則用具有相同信用風險的顧客平均收入替換income中的缺失值。若給定數據分布是傾斜的,則median是更好的選擇。
  6. 使用最可能的值填充缺失值:可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分類。

Part 2:噪聲數據的處理
<definition>噪聲(noise):是被測量的變量隨機誤差或方差。
數據光滑技術:

  1. 分箱(binning):通過考查數據的近鄰來光滑有序數據集。常見的:用箱均值光滑;用箱中位數光滑;用箱邊界光滑。
  2. 回歸(regression):用一個函數擬合數據來光滑數據。
  3. 離群點分析(outlier analysis):通過如聚類來檢測離群點。

【數據集成】
Part 1:冗余和相關分析:
對于標稱數據,我們使用卡方檢驗發現。對于數值屬性,我們使用相關系數、協方差發現。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 想寫這個系列很久了,最近剛好項目結束了閑下來有點時間,于是決定把之前學過的東西做個總結。之前看過一些機器學習方面的...
    huihui7987閱讀 1,185評論 0 0
  • (轉自http://www.douban.com/group/topic/14820131/,轉自人大論壇) 調整...
    f382b3d9bdb3閱讀 10,744評論 0 8
  • 昨天晚上,確切的說應該是今天凌晨接近一點的時候,宿舍突然響起一陣敲門聲。我從夢中驚醒,迷迷糊糊問是誰。大部分舍友都...
    南方笑佳人閱讀 309評論 0 0
  • 昨天接到媽媽電話,說是妹妹的婆婆早上突然走了,聽到消息先是震驚,本能說了句不會吧! 腦袋很自然把時間倒序到3個月前...
    WeddingLin大小姐閱讀 197評論 0 0
  • 那時,那年,那歲月。 唯有不知,那時的花是否開放。 你心中的那朵花, 開了嗎? 它,是灰,紅,青,綠,還是 白呢?...
    夢歸宿溪閱讀 351評論 2 7