一、決策樹初識
決策樹感性的理解就是通過構建一系列的規則把滿足一定條件的數據劃分到同一節點。
貸款申請表
ID | 年齡 | 有工作 | 有房子 | 信貸情況 | 類別 |
---|---|---|---|---|---|
1 | 青年 | 否 | 否 | 一般 | 否 |
2 | 青年 | 否 | 否 | 好 | 否 |
3 | 青年 | 是 | 否 | 好 | 是 |
4 | 青年 | 是 | 是 | 一般 | 是 |
5 | 青年 | 否 | 否 | 一般 | 否 |
6 | 中年 | 否 | 否 | 一般 | 否 |
7 | 中年 | 否 | 否 | 好 | 否 |
8 | 中年 | 是 | 是 | 好 | 是 |
9 | 中年 | 否 | 是 | 非常好 | 是 |
10 | 中年 | 否 | 是 | 非常好 | 是 |
11 | 老年 | 否 | 是 | 非常好 | 是 |
12 | 老年 | 否 | 是 | 好 | 是 |
13 | 老年 | 是 | 否 | 好 | 是 |
14 | 老年 | 是 | 否 | 非常好 | 是 |
15 | 老年 | 否 | 否 | 一般 | 否 |
二、特征選擇
特征選擇在于選擇對訓練數據具有分類能力的特征來劃分特征空間,通常特征選擇的準則是信息增益或信息增益比。
-
熵
則隨機變量X的熵可以表示為:
H(Y|X)為在已知隨機變量X的條件下隨機變量Y的不確定性或條件熵
-
信息增益
信息增益表示在知道特征X的信息以后而使得類Y的信息不確定性減少的程度。用公式表示的話就是:
上式的含義是在以特征A對進行數據集和D進行劃分時,劃分前數據集D的信息熵為H(D),而H(D,A)為劃分后數據集D的條件熵,他們的差即為信息增益(互信息),也是特征A對數據集D不確定性的減少量。所以一個特征如果他的信息增益越大則改特征的分類能力也越強。
(3)房子
(3)信貸
所以比較上面計算的所有特征在信貸中信息增益,有沒有房子的信息增益最大所以選擇有沒有房子作為劃分特征
-
信息增益率
由于信息增益對于可取值數目較多的屬性有所偏好,比如我們如果以信貸數據中的ID作為特征的話則其對應的信息增益為0.97,遠大于其它劃分屬性,但是它對于新樣本無法進行有效的預測。信息增益率可以有效的解決這一問題。
其中G(D,A)為信息增益,H_A(D)數據集D關于特征A的信息熵
n為特征A取值的個數 。
三、經典決策樹算法
1、ID3
ID3算法根據信息增益準則進行特征的選擇
—————————————————————————————
Input:訓練數據D={(x1,y1),(x2,y2),....,(xn,yn)}
特征集A={a1,a2,...,an}
Output:決策樹T
Algorithm:
(1) 生成節點node
(2) 如果D中樣本屬于同一個類,將node標識為C類也節點
(3) 如果A為空
(4)計算所有特征的信息增益,選擇信息增益最大的特征a作為劃分屬性
(5)按照
—————————————————————————————
2、C4.5
3、CART
四、剪枝
參考資料
- 1.統計學習方法(李航)
- 2.機器學習(周志華)