轉自小象學院
我的學習筆記
1. 復習信息熵:熵,聯(lián)合熵、條件熵、互信息
2. 決策樹學習算法:信息增益 | ID3 | C4.5 |CART
3. Bagging與隨機森林
決策樹的總結
1. ?決策樹是一種樹型結構,其中每個內部節(jié)點表示在一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。
2. 決策樹學習是以實例為基礎的歸納學習
3. 決策樹學習采用的是自頂向下的遞歸方法,其基本思想是以信息熵為度量構造一顆熵值下降最快的樹,到葉子節(jié)點處熵值為零,此處每個葉節(jié)點中的實例都屬于同一類。
決策樹學習算法的最大優(yōu)點是,它可以自學習。在學習的過程中,不需要使用者了解過多的背景知識,只需要對訓練實例進行較好的標注,就能夠進行學習。
屬于有監(jiān)督學習
從一類無序、無規(guī)則的概念中推理出決策樹表示的分類規(guī)則。
關于信息增益
概念:當熵和條件熵額概率由數(shù)據(jù)估計(特別是極大似然估計)得到時,相應的熵稱為經(jīng)驗熵和經(jīng)驗條件熵
信息增益表示得知特征A的信息而使得類X的信息的不確定性減少的程度
信息增益的計算方法
三種決策樹算法比較:
1. ID3: 使用信息增益/互信息g(D,A)進行特征選擇
取值多的屬性,更容易使數(shù)據(jù)更純,其信息增益更大
訓練得到的是一顆龐大且深度淺的樹:不合理
2. C4.5:信息增益率 gr(D,A) = g(D,A) / H(A)
3. CART: 基尼指數(shù)
一個屬性的信息增益(率)/gini指數(shù)越大,表明屬性對樣本熵減少的能力越強,這個屬性使得數(shù)據(jù)由不確定性變成確定性的能力越強。
決策樹的評價
假定樣本總類別為K個
對于某葉節(jié)點,假定樣本數(shù)目為n,其中第k類為nk
? ? 若nj = n,而n1...ni=0,則稱純結點
? ? 若n1=n2...=nk = n/K 則稱該樣本為均結點
純結點的熵Hp=0,最小,均結點的熵Hu=lnK,最大
對所有的葉節(jié)點的熵求和,該值越小說明對樣本的分類越精確,各個葉節(jié)點包含的樣本數(shù)目不同,可使用樣本數(shù)加權求熵和
評價函數(shù),又稱損失函數(shù)
決策樹的過擬合
決策樹對訓練已知有很好的分類能力,但是對未知的測試數(shù)據(jù)卻不一定,泛化能力弱,即可能發(fā)生過擬合現(xiàn)象。
解決方案:剪枝 | 隨機森林
剪枝:
剪枝系數(shù)(跟學習率不同,不要誤會)