分類的概念
分類的基本任務就是根據給定的一系列屬性集,最后去判別它屬于的類型!
比如我們現在需要去給動物分類,類別可選項為哺乳類,爬行類,鳥類,魚類,或者兩棲類。給你一些屬性集如這個動物的體溫,是否胎生,是否為水生動物,是否為飛行動物,是否有腿,是否冬眠。
現在分類的基本任務就是,已知一個動物的屬性集,判斷或預測這個動物屬于哪一種類別?
要解決上述的問題,也就是我們需要找到一個由屬性集到類別的映射函數f(稱作分類模型),來決定最后的分類。
分類模型f
分類法的例子包括:決策樹分類法、基于規則的分類法、神經網絡、支持向量機和樸素貝葉斯分類法。這些技術都使用一種學習算法確定分類模型!
決策樹分類法
決策樹
從根節點開始,每個分支都會包含一個屬性測試條件,用于分開具有不同特性的記錄,最終到達葉節點,即可得到類標號。
如何建立決策樹?
hunt算法:
hunt算法描述
為了更好的理解該算法的執行過程,下面給出一個例子:
給出訓練數據集
決策樹的構造過程
決策樹構造
決策樹歸納的設計問題
(1)、如何選擇合適的屬性測試條件,將記錄劃分成較小的子集?
(2)、如何停止分裂過程,即作為葉節點的條件是什么?