在ID3算法中我們使用了信息增益來選擇特征,信息增益大的優先選擇。在C4.5算法中,采用了信息增益比來選擇特征,以減少信息增益容易選擇特征值多的特征的問題。但是無論是ID3還是C4.5,都是基于信息論的熵模型的,這里面會涉及大量的對數運算。為了簡化模型同時也不至于完全丟失熵模型, CART分類樹算法使用基尼系數來代替信息增益比,基尼系數代表了模型的不純度,基尼系數越小,則不純度越低,特征越好。這和信息增益(比)是相反的。
CART既可以適應分類任務, 又可以適應回歸任務, 不同的任務, 特征的選擇方式不一樣
分類任務
假設有個類,第
個類的概率為
, 則基尼系數的表達式為:
對于二分類問題, 則公式可以簡化為: , p代表屬于第一類樣本的概率
對于給定的樣本集合,
個類, 第
個類別的數量為
, 則樣本
的基尼系數為:
顯然, 對于集合,假設屬性
的某個值
將數據集D切分為
,則在特征A的條件下, D的基尼系數表達式為:
相比于復雜的對數運算, 基尼系數的運算簡單很多, 對于連續值得處理, CART和C4.5是相同的:連續的二分離散特征
回歸任務
在CART分類樹中, 其與ID3,C4.5并沒有太大的差別, 而回歸則不一樣:
- 預測的方式不同
- 連續值得處理方式不同
回歸樹模型采用均方差度量: 對于任意劃分的特征A, 和一個任意劃分的點s(該點s其實是特征A里面的某個值), 將數據集D劃分為, 這個點s要使
各自集合的均方差的最小,公式為:
其中, 為樣本輸出均值, 其實就是對應數據集的label的均值
那么最終這棵樹的方程為:
其中,為對應區域的均值, 類似于這樣
圖片來源于CSDN
CART樹的主要開銷就在為每個特征尋找最優切分點上