CART

在ID3算法中我們使用了信息增益來選擇特征,信息增益大的優先選擇。在C4.5算法中,采用了信息增益比來選擇特征,以減少信息增益容易選擇特征值多的特征的問題。但是無論是ID3還是C4.5,都是基于信息論的熵模型的,這里面會涉及大量的對數運算。為了簡化模型同時也不至于完全丟失熵模型, CART分類樹算法使用基尼系數來代替信息增益比,基尼系數代表了模型的不純度,基尼系數越小,則不純度越低,特征越好。這和信息增益(比)是相反的。
CART既可以適應分類任務, 又可以適應回歸任務, 不同的任務, 特征的選擇方式不一樣

分類任務

假設有K個類,第k個類的概率為p_k, 則基尼系數的表達式為:
Gini(p)=\sum Kp_k(1-p_k)=1-\sum_{k=1}Kp_k^2
對于二分類問題, 則公式可以簡化為: Gnini(p)=2p(1-p), p代表屬于第一類樣本的概率
對于給定的樣本集合D, K個類, 第k個類別的數量為C_k, 則樣本D的基尼系數為:
Gini(D)=1-\sum_{k=1}^{k}K(\frac{|C_k|}{|D|})^2
顯然, 對于集合D,假設屬性A的某個值a將數據集D切分為D_1,D_2,則在特征A的條件下, D的基尼系數表達式為:
Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)
相比于復雜的對數運算, 基尼系數的運算簡單很多, 對于連續值得處理, CART和C4.5是相同的:連續的二分離散特征

回歸任務

在CART分類樹中, 其與ID3,C4.5并沒有太大的差別, 而回歸則不一樣:

  • 預測的方式不同
  • 連續值得處理方式不同

回歸樹模型采用均方差度量: 對于任意劃分的特征A, 和一個任意劃分的點s(該點s其實是特征A里面的某個值), 將數據集D劃分為D_1,D_2, 這個點s要使D_1,D_2各自集合的均方差的最小,公式為:
min [min \sum_{x_i \in D_1(A,s)}(y_i-c_1)^2 + min \sum_{x_i \in D_2(A,s)}(y_i-c_2)^2 ]
其中, c為樣本輸出均值, 其實就是對應數據集的label的均值
那么最終這棵樹的方程為:
f(x)=\sum_{m=1}^{M} c_m I (x \in R_m)
其中,c_m為對應區域的均值, 類似于這樣

圖片來源于CSDN

CART樹的主要開銷就在為每個特征尋找最優切分點s

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容