三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<sub id="ojizx"><rt id="ojizx"></rt></sub>

<legend id="ojizx"><track id="ojizx"></track></legend>

登錄注冊寫文章

數據挖掘中的預處理

數據挖掘中的預處理

【數據清洗】
Part 1：缺失值處理

忽略元組
人工填寫缺失值
使用一個全局常量填充缺失值：例如將缺失值用“Unknown”表示
使用屬性的中心度量（mean or median）：對于對稱數據分布使用mean，秦些數據分布使用median。
使用與給定元組屬同一類的所有樣本mean或median：例如將顧客按credit_risk分類，則用具有相同信用風險的顧客平均收入替換income中的缺失值。若給定數據分布是傾斜的，則median是更好的選擇。
使用最可能的值填充缺失值：可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分類。

Part 2：噪聲數據的處理
<definition>噪聲（noise）：是被測量的變量隨機誤差或方差。
數據光滑技術：

分箱（binning）：通過考查數據的近鄰來光滑有序數據集。常見的：用箱均值光滑；用箱中位數光滑；用箱邊界光滑。
回歸（regression）：用一個函數擬合數據來光滑數據。
離群點分析（outlier analysis）：通過如聚類來檢測離群點。

【數據集成】
Part 1：冗余和相關分析：
對于標稱數據，我們使用卡方檢驗發現。對于數值屬性，我們使用相關系數、協方差發現。

最后編輯于：2017.12.06 00:39:57

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

fir.md
想寫這個系列很久了，最近剛好項目結束了閑下來有點時間，于是決定把之前學過的東西做個總結。之前看過一些機器學習方面的...
huihui7987閱讀 1,185評論 0贊 0
STATA常用命令1
（轉自http://www.douban.com/group/topic/14820131/，轉自人大論壇）調整...
f382b3d9bdb3閱讀 10,744評論 0贊 8
別哭，咬牙走下去
昨天晚上，確切的說應該是今天凌晨接近一點的時候，宿舍突然響起一陣敲門聲。我從夢中驚醒，迷迷糊糊問是誰。大部分舍友都...
南方笑佳人閱讀 309評論 0贊 0
【Day33生活隨想/5.4】珍惜 -
昨天接到媽媽電話，說是妹妹的婆婆早上突然走了，聽到消息先是震驚，本能說了句不會吧！腦袋很自然把時間倒序到3個月前...
WeddingLin大小姐閱讀 197評論 0贊 0
那時，花開
那時，那年，那歲月。唯有不知，那時的花是否開放。你心中的那朵花，開了嗎？它，是灰，紅，青，綠，還是白呢？...
夢歸宿溪閱讀 351評論 2贊 7

贊1贊

贊賞

手機看全文

主站蜘蛛池模板：特克斯县| 芷江| 怀安县| 汝阳县| 增城市| 嵩明县| 东乡族自治县| 阿拉尔市| 太仓市| 沿河| 宁都县| 通许县| 县级市| 河北省| 五台县| SHOW| 新营市| 吉木萨尔县| 十堰市| 治县。| 临沂市| 肥西县| 康平县| 历史| 阿克苏市| 平果县| 石门县| 永安市| 乾安县| 福海县| 东阿县| 陵川县| 定日县| 禹州市| 嫩江县| 石河子市| 蒙阴县| 旬阳县| 远安县| 如皋市| 岑溪市|