5決策樹

0. 機(jī)器學(xué)習(xí)中分類和預(yù)測(cè)算法的評(píng)估:

  • 準(zhǔn)確率
  • 速度
  • 強(qiáng)壯行
  • 可規(guī)模性
  • 可解釋性

1. 什么是決策樹/判定樹(decision tree)?

 判定樹是一個(gè)類似于流程圖的樹結(jié)構(gòu):其中,每個(gè)內(nèi)部結(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,
 每個(gè)分支代表一個(gè)屬性輸出,而每個(gè)樹葉結(jié)點(diǎn)代表類或類分布。樹的最頂層是根結(jié)點(diǎn)。

[圖片上傳中...(Image [2].png-4caa7a-1512386091897-0)]

2. 機(jī)器學(xué)習(xí)中分類方法中的一個(gè)重要算法
3. 構(gòu)造決策樹的基本算法

image.png
image.png

3.1 熵(entropy)概念:

信息和抽象,如何度量?

1948年,香農(nóng)提出了 ”信息熵(entropy)“的概念

一條信息的信息量大小和它的不確定性有直接的關(guān)系,要搞清楚一件非常非常不確定的事情,或者

是我們一無所知的事情,需要了解大量信息==>信息量的度量就等于不確定性的多少

例子:猜世界杯冠軍,假如一無所知,猜多少次?

每個(gè)隊(duì)奪冠的幾率不是相等的

比特(bit)來衡量信息的多少

image.png

變量的不確定性越大,熵也就越大

3.1 決策樹歸納算法 (ID3)

1970-1980, J.Ross. Quinlan, ID3算法

選擇屬性判斷結(jié)點(diǎn)

信息獲取量(Information Gain):Gain(A) = Info(D) - Infor_A(D)

通過A來作為節(jié)點(diǎn)分類獲取了多少信息

image.png
image.png

類似,Gain(income) = 0.029, Gain(student) = 0.151, Gain(credit_rating)=0.048

所以,選擇age作為第一個(gè)根節(jié)點(diǎn)

image.png

重復(fù)。。。

算法:

  • 樹以代表訓(xùn)練樣本的單個(gè)結(jié)點(diǎn)開始(步驟1)。
  • 如果樣本都在同一個(gè)類,則該結(jié)點(diǎn)成為樹葉,并用該類標(biāo)號(hào)(步驟2 和3)。
  • 否則,算法使用稱為信息增益的基于熵的度量作為啟發(fā)信息,選擇能夠最好地將樣本分類的屬

性(步驟6)。該屬性成為該結(jié)點(diǎn)的“測(cè)試”或“判定”屬性(步驟7)。在算法的該版本中,

  • 所有的屬性都是分類的,即離散值。連續(xù)屬性必須離散化。
  • 對(duì)測(cè)試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分枝,并據(jù)此劃分樣本(步驟8-10)。
  • 算法使用同樣的過程,遞歸地形成每個(gè)劃分上的樣本判定樹。一旦一個(gè)屬性出現(xiàn)在一個(gè)結(jié)點(diǎn)上,

就不必該結(jié)點(diǎn)的任何后代上考慮它(步驟13)。

  • 遞歸劃分步驟僅當(dāng)下列條件之一成立停止:
  • (a) 給定結(jié)點(diǎn)的所有樣本屬于同一類(步驟2 和3)。
  • (b) 沒有剩余屬性可以用來進(jìn)一步劃分樣本(步驟4)。在此情況下,使用多數(shù)表決(步驟5)。
  • 這涉及將給定的結(jié)點(diǎn)轉(zhuǎn)換成樹葉,并用樣本中的多數(shù)所在的類標(biāo)記它。替換地,可以存放結(jié)
  • 點(diǎn)樣本的類分布。
  • (c) 分枝
  • test_attribute = a i 沒有樣本(步驟11)。在這種情況下,以 samples 中的多數(shù)類
  • 創(chuàng)建一個(gè)樹葉(步驟12)
 3.1 其他算法:

           C4.5:  Quinlan

           Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone)

           共同點(diǎn):都是貪心算法,自上而下(Top-down approach)

           區(qū)別:屬性選擇度量方法不同: C4.5 (gain ratio), CART(gini index), ID3 (Information Gain)

 3.2 如何處理連續(xù)性變量的屬性? 

4. 樹剪枝葉 (避免overfitting)

 4.1 先剪枝

 4.2 后剪枝

5. 決策樹的優(yōu)點(diǎn):

 直觀,便于理解,小規(guī)模數(shù)據(jù)集有效     

6. 決策樹的缺點(diǎn):

 處理連續(xù)變量不好

 類別較多時(shí),錯(cuò)誤增加的比較快

 可規(guī)模性一般
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容