信息增益的計算方法
https://blog.csdn.net/it_beecoder/article/details/79554388
決策樹--信息增益,信息增益比,Geni指數(shù)的理解
https://www.cnblogs.com/muzixi/p/6566803.html
熵可以表示樣本集合的不確定性,熵越大,樣本的不確定性就越大。
(1)ID3算法---信息增益
做法:計算使用所有特征劃分數(shù)據(jù)集D,得到多個特征劃分數(shù)據(jù)集D的信息增益,從這些信息增益中選擇最大的,因而當前結(jié)點的劃分特征便是使信息增益最大的劃分所使用的特征。
缺點:信息增益偏向取值較多的特征
原因:當特征的取值較多時,根據(jù)此特征劃分更容易得到純度更高的子集(極端:每個特征值只有1個),因此劃分之后的熵更低,由于劃分前的熵是一定的,因此信息增益更大,因此信息增益比較 偏向取值較多的特征。
(2)C4.5算法--信息增益比
信息增益比 = 懲罰參數(shù) * 信息增益
懲罰參數(shù):數(shù)據(jù)集D以特征A作為隨機變量的熵的倒數(shù)
缺點:信息增益比偏向取值較少的特征
原因:當特征取值較少時HA(D)的值較小,因此其倒數(shù)較大,因而信息增益比較大。因而偏向取值較少的特征。
使用信息增益比:基于以上缺點,并不是直接選擇信息增益率最大的特征,而是現(xiàn)在候選特征中找出信息增益高于平均水平的特征,然后在這些特征中再選擇信息增益率最高的特征。
(3)CART樹--基尼指數(shù)
http://www.lxweimin.com/p/b90a9ce05b28
https://www.cnblogs.com/yonghao/p/5135386.html
表示在樣本集合中一個隨機選中的樣本被分錯的概率。
Gini指數(shù)越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度越高,反之,集合越不純。
Xgboost
全名:eXtreme Gradient Boosting
https://www.cnblogs.com/zongfa/p/9324684.html
XGBoost是以分類回歸樹(CART樹)進行組合
模型預(yù)測:
損失函數(shù):
其中表示第k顆樹的正則項;K代表樹的總個數(shù)。
每次往模型中加入一棵樹,其損失函數(shù)便會發(fā)生變化。另外在加入第t棵樹時,則前面第t-1棵樹已經(jīng)訓(xùn)練完成,此時前面t-1棵樹的正則項和訓(xùn)練誤差都成已知常數(shù)項。
如果損失函數(shù)采用均方差時,其目標損失函數(shù)變?yōu)椋?/p>
對于其中每一棵回歸樹,其模型可以寫成:
其中w為葉子節(jié)點的得分值,q(x)表示樣本x對應(yīng)的葉子節(jié)點,T為該樹的葉子節(jié)點個數(shù)。
樹的復(fù)雜度
泰勒展開式:
令:,
去除常數(shù)項,得
令:,
對wj求偏導(dǎo),令導(dǎo)函數(shù)=0,則:
其目標函數(shù)為:
根據(jù)目標函數(shù)分裂樣本數(shù)據(jù)
Obj代表了當我們指定一個樹的結(jié)構(gòu)的時候,我們在目標上面最多減少多少。叫做結(jié)構(gòu)分數(shù)(structure score)。這個代替gini系數(shù),更加一般地對樹結(jié)構(gòu)進行打分的函數(shù)。
xgboost&gbdt區(qū)別
https://blog.csdn.net/wolf963/article/details/78508858
1)增加處理缺失值的方案(通過枚舉所有缺失值在當前節(jié)點是進入左子樹,還是進入右子樹更優(yōu)來決定一個處理缺失值默認的方向)
2)實現(xiàn)了利用分捅/分位數(shù)方法,實現(xiàn)了全局和局部的近似分裂點算法,降低了計算量,并且在eps參數(shù)設(shè)置合理的情況下,能達到窮舉法幾乎一樣的性能
3)xgboost損失函數(shù)是誤差部分是二階泰勒展開,GBDT 是一階泰勒展開。因此損失函數(shù)近似的更精準。
4)XGB加了正則項,普通GBDT沒有。為了防止過擬合
完畢。