自拍偷自拍亚洲精品情侣,av 丝袜欧美老另类亚洲,日产乱码一二三区别免费

在ID3算法中我們使用了信息增益來選擇特征，信息增益大的優先選擇。在C4.5算法中，采用了信息增益比來選擇特征，以減少信息增益容易選擇特征值多的特征的問題。但是無論是ID3還是C4.5,都是基于信息論的熵模型的，這里面會涉及大量的對數運算。為了簡化模型同時也不至于完全丟失熵模型, CART分類樹算法使用基尼系數來代替信息增益比，基尼系數代表了模型的不純度，基尼系數越小，則不純度越低，特征越好。這和信息增益(比)是相反的。
CART既可以適應分類任務, 又可以適應回歸任務, 不同的任務, 特征的選擇方式不一樣

分類任務

假設有 $K$ 個類,第 $k$ 個類的概率為 $p_k$ , 則基尼系數的表達式為:
$Gini(p)=\sum Kp_k(1-p_k)=1-\sum_{k=1}Kp_k^2$
對于二分類問題, 則公式可以簡化為: $Gnini(p)=2p(1-p)$ , p代表屬于第一類樣本的概率
對于給定的樣本集合 $D$ , $K$ 個類, 第 $k$ 個類別的數量為 $C_k$ , 則樣本 $D$ 的基尼系數為:
$Gini(D)=1-\sum_{k=1}^{k}K(\frac{|C_k|}{|D|})^2$
顯然, 對于集合 $D$ ,假設屬性 $A$ 的某個值 $a$ 將數據集D切分為 $D_1,D_2$ ,則在特征A的條件下, D的基尼系數表達式為:
$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$
相比于復雜的對數運算, 基尼系數的運算簡單很多, 對于連續值得處理, CART和C4.5是相同的:連續的二分離散特征

回歸任務

在CART分類樹中, 其與ID3,C4.5并沒有太大的差別, 而回歸則不一樣:

預測的方式不同
連續值得處理方式不同

回歸樹模型采用均方差度量: 對于任意劃分的特征A, 和一個任意劃分的點s(該點s其實是特征A里面的某個值), 將數據集D劃分為 $D_1,D_2$ , 這個點s要使 $D_1,D_2$ 各自集合的均方差的最小,公式為:
$min [min \sum_{x_i \in D_1(A,s)}(y_i-c_1)^2 + min \sum_{x_i \in D_2(A,s)}(y_i-c_2)^2 ]$
其中, $c$ 為樣本輸出均值, 其實就是對應數據集的label的均值
那么最終這棵樹的方程為:
$f(x)=\sum_{m=1}^{M} c_m I (x \in R_m)$
其中, $c_m$ 為對應區域的均值, 類似于這樣