浪荡女的被cao日常np,xxx农村诱奷小y头,疯狂拨动我的小句号

信息增益的計算方法

https://blog.csdn.net/it_beecoder/article/details/79554388

決策樹--信息增益，信息增益比，Geni指數(shù)的理解

https://www.cnblogs.com/muzixi/p/6566803.html

熵可以表示樣本集合的不確定性，熵越大，樣本的不確定性就越大。

(1)ID3算法---信息增益

做法：計算使用所有特征劃分數(shù)據(jù)集D，得到多個特征劃分數(shù)據(jù)集D的信息增益，從這些信息增益中選擇最大的，因而當前結(jié)點的劃分特征便是使信息增益最大的劃分所使用的特征。

缺點：信息增益偏向取值較多的特征

原因：當特征的取值較多時，根據(jù)此特征劃分更容易得到純度更高的子集(極端：每個特征值只有1個)，因此劃分之后的熵更低，由于劃分前的熵是一定的，因此信息增益更大，因此信息增益比較偏向取值較多的特征。

(2)C4.5算法--信息增益比

信息增益比 = 懲罰參數(shù) * 信息增益

懲罰參數(shù)：數(shù)據(jù)集D以特征A作為隨機變量的熵的倒數(shù)

缺點：信息增益比偏向取值較少的特征

原因：當特征取值較少時HA(D)的值較小，因此其倒數(shù)較大，因而信息增益比較大。因而偏向取值較少的特征。

使用信息增益比：基于以上缺點，并不是直接選擇信息增益率最大的特征，而是現(xiàn)在候選特征中找出信息增益高于平均水平的特征，然后在這些特征中再選擇信息增益率最高的特征。

(3)CART樹--基尼指數(shù)

http://www.lxweimin.com/p/b90a9ce05b28

https://www.cnblogs.com/yonghao/p/5135386.html

表示在樣本集合中一個隨機選中的樣本被分錯的概率。

Gini指數(shù)越小表示集合中被選中的樣本被分錯的概率越小，也就是說集合的純度越高，反之，集合越不純。

Xgboost

全名：eXtreme Gradient Boosting

https://www.cnblogs.com/zongfa/p/9324684.html

XGBoost是以分類回歸樹(CART樹)進行組合

模型預(yù)測： $\tilde{y_i}=\sum_{k=1}^K f_k(x_i)$

損失函數(shù)： $Obj(\theta )=\sum_{i=1}^n l(y_i,\tilde{y_i})+\sum\nolimits_{k=1}^K \Omega(f_k)$

其中 $\Omega(f_k)$ 表示第k顆樹的正則項；K代表樹的總個數(shù)。

每次往模型中加入一棵樹，其損失函數(shù)便會發(fā)生變化。另外在加入第t棵樹時，則前面第t-1棵樹已經(jīng)訓(xùn)練完成，此時前面t-1棵樹的正則項和訓(xùn)練誤差都成已知常數(shù)項。

$Obj(\theta )=\sum_{i=1}^n l(y_i,\tilde{y_i}^{(t-1)}+f_t(x_i))+\Omega(f_t) +C=\sum_{i=1}^n l(y_i,\tilde{y_i}^{(t-1)}+f_t(x_i))+\Omega(f_t) +C$

如果損失函數(shù)采用均方差時，其目標損失函數(shù)變?yōu)椋?/p>

$Obj(\theta )=\sum_{i=1}^n (y_i-(\tilde{y_i}^{(t-1)}+f_t(x_i)))^2+\Omega(f_t)+C \\=\sum_{i=1}^n [2(\tilde{y}^{(t-1)}-y_i)f_t(x_i)+f_t{(x_i)}^2]+\Omega(f_t)+C_1$

對于其中每一棵回歸樹，其模型可以寫成： $f_t(x)=w_{q(x)},w\in R^T$

其中w為葉子節(jié)點的得分值，q(x)表示樣本x對應(yīng)的葉子節(jié)點，T為該樹的葉子節(jié)點個數(shù)。

樹的復(fù)雜度 $\Omega (f_t)=\gamma T+\frac{1}{2} \lambda \sum_{j=1}^T w_j^2$

泰勒展開式： $f(x+\Delta x)\approx f(x)+f^‘(x)\Delta x+\frac{1}{2}f^{‘‘} (x)\Delta x ^2$

$Obj(\theta )\approx \sum_{i=1}^n [l(y_i,\tilde{y}^{(t-1)} )+\partial _{\tilde{y}^{(t-1)}}l(y_i,\tilde{y}^{(t-1)} )f_t(x_i)+\frac{1}{2} \partial _{\tilde{y}^{(t-1)}}^2l(y_i,\tilde{y}^{(t-1)} )f_t(x_i)^2]+\gamma T+\frac{1}{2}\lambda? \sum_{j=1}^T w_j^2$

令： $g_i=\partial _{\tilde{y}^{(t-1)}}l(y_i,\tilde{y}^{(t-1)} )$ ， $h_i=\partial _{\tilde{y}^{(t-1)}}^2l(y_i,\tilde{y}^{(t-1)} )$

去除常數(shù)項，得

$Obj(\theta )\approx \sum_{i=1}^n [g_if_t(x_i)+\frac{1}{2} h_i f_t(x_i)^2]+\gamma T+\frac{1}{2}\lambda? \sum_{j=1}^T w_j^2 \\ =\sum_{i=1}^n [g_i w_{q(x_i)}+\frac{1}{2} h_i w_{q(x_i)}^2]+\gamma T+\frac{1}{2}\lambda? \sum_{j=1}^T w_j^2 \\ =\sum_{j=1}^T [(\sum_{i\in I_j} g_i)w_j+(\frac{1}{2}\sum_{i\in I_j}h_i )w_j^2]+\gamma T+\frac{1}{2}\lambda? \sum_{j=1}^T w_j^2 \\=\sum_{j=1}^T [(\sum_{i\in I_j} g_i)w_j+(\frac{1}{2}(\sum_{i\in I_j}h_i+\lambda ) )w_j^2]+\gamma T$