【算法】決策樹算法

0x01 概述

決策樹是附加概率結果的一個樹狀的決策圖,是直觀的運用統計概率分析的圖法。機器學習中決策樹是一個預測模型,它表示對象屬性和對象值之間的一種映射,樹中的每一個節點表示對象屬性的判斷條件,其分支表示符合節點條件的對象。樹的葉子節點表示對象所屬的預測結果。

0x02 決策樹案例

決策樹案例

上圖是一棵結構簡單的決策樹,用于預測貸款用戶是否具有償還貸款的能力。貸款用戶主要具備三個屬性:是否擁有房產,是否結婚,平均月收入。每一個內部節點都表示一個屬性條件判斷,葉子節點表示貸款用戶是否具有償還能力。例如:用戶甲沒有房產,沒有結婚,月收入 5K。通過決策樹的根節點判斷,用戶甲符合右邊分支 (擁有房產為“否”);再判斷是否結婚,用戶甲符合左邊分支 (是否結婚為否);然后判斷月收入是否大于 4k,用戶甲符合左邊分支 (月收入大于 4K),該用戶落在“可以償還”的葉子節點上。所以預測用戶甲具備償還貸款能力。

0x03 決策樹的構建

決策樹算法主要是指決策樹進行創建中進行樹分裂(劃分數據集)的時候選取最優特征的算法,他的主要目的就是要選取一個特征能夠將分開的數據集盡量的規整,也就是盡可能的純. 最大的原則就是: 將無序的數據變得更加有序

總結三個常用的方法:

信息增益(information gain)
增益比率(gain ratio)
基尼不純度(Gini impurity)
  1. 信息增益(information gain)
  • 某個事件 i 的信息量: 這個事件發生的概率的負對數
  • 信息熵就是平均而言一個事件發生得到的信息量大小,也就是信息量的期望值

我們將一組數據集進行劃分后,數據的信息熵會發生改變,我們可以通過使用信息熵的計算公式分別計算被劃分的子數據集的信息熵并計算他們的平均值(期望值)來作為分割后的數據集的信息熵。新的信息熵的相比未劃分數據的信息熵的減小值便是信息增益了。
假設我們將數據集D劃分成k份,則劃分后的信息熵為

信息增益便是兩個信息熵的差值

  1. 增益比率(gain ratio)

增益比率是信息增益方法的一種擴展,是為了克服信息增益帶來的弱泛化的缺陷。因為按照信息增益選擇,總是會傾向于選擇分支多的屬性,這樣會是的每個子集的信息熵最小。例如給每個數據添加一個第一無二的id值特征,則按照這個id值進行分類是獲得信息增益最大的,這樣每個子集中的信息熵都為0,但是這樣的分類便沒有任何意義,沒有任何泛化能力,類似過擬合。

分裂信息的公式為:

image.png

這時候把分裂信息的值放到分母上便會中和信息增益帶來的弊端。

  1. 基尼不純度(Gini impurity)

基尼不純度的定義:

其中m 表示數據集D 中類別的個數, pi 表示某種類型出現的概率。
針對劃分成k個子集的基尼不純度計算公式:

對于特征選取,需要選擇最小的分裂后的基尼指數。也可以用基尼指數增益值作為決策樹選擇特征的依據。

在決策樹選擇特征時,應選擇基尼指數增益值最大的特征,作為該節點分裂條件。

0x04 決策樹的剪枝

在分類模型建立的過程中,很容易出現過擬合的現象。

過擬合是指在模型學習訓練中,訓練樣本達到非常高的逼近精度,但對檢驗樣本的逼近誤差隨著訓練次數而呈現出先下降后上升的現象。

過擬合時訓練誤差很小,但是檢驗誤差很大,不利于實際應用。
決策樹的過擬合現象可以通過剪枝進行一定的修復。剪枝分為預先剪枝和后剪枝兩種。

  1. 預先剪枝

預先剪枝指在決策樹生長過程中,使用一定條件加以限制,使得產生完全擬合的決策樹之前就停止生長。預先剪枝的判斷方法也有很多,比如信息增益小于一定閥值的時候通過剪枝使決策樹停止生長。但如何確定一個合適的閥值也需要一定的依據,閥值太高導致模型擬合不足,閥值太低又導致模型過擬合。

  1. 后剪枝

后剪枝是在決策樹生長完成之后,按照自底向上的方式修剪決策樹。后剪枝有兩種方式,一種用新的葉子節點替換子樹,該節點的預測類由子樹數據集中的多數類決定。另一種用子樹中最常使用的分支代替子樹。

預先剪枝可能過早的終止決策樹的生長,后剪枝一般能夠產生更好的效果。但后剪枝在子樹被剪掉后,決策樹生長的一部分計算就被浪費了。

0x05 參考文獻

https://www.ibm.com/developerworks/cn/analytics/library/ba-1507-decisiontree-algorithm/index.html
http://python.jobbole.com/87994/
http://blog.csdn.net/xbinworld/article/details/44660339

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,923評論 6 535
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,740評論 3 420
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,856評論 0 380
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,175評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,931評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,321評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,383評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,533評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,082評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,891評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,618評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,319評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,732評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,987評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,794評論 3 394
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,076評論 2 375

推薦閱讀更多精彩內容

  • 決策樹理論在決策樹理論中,有這樣一句話,“用較少的東西,照樣可以做很好的事情。越是小的決策樹,越優于大的決策樹”。...
    制杖灶灶閱讀 5,891評論 0 25
  • 轉自算法雜貨鋪--決策樹決策樹和隨機森林學習筆記-歡迎補充 http://www.cnblogs.com/fion...
    堯字節閱讀 10,774評論 1 6
  • 一.樸素貝葉斯 1.分類理論 樸素貝葉斯是一種基于貝葉斯定理和特征條件獨立性假設的多分類的機器學習方法,所...
    wlj1107閱讀 3,116評論 0 5
  • 這里開始機器學習的筆記記錄。今天的這篇是一個分類方法--決策樹。 決策樹優點:計算復雜度不高,輸出結果易于理解,對...
    七號蘿卜閱讀 6,461評論 0 18
  • 積跬步以致千里,積怠惰以致深淵 注:本篇文章在整理時主要參考了 周志華 的《機器學習》。 主要內容 決策樹是機器學...
    指尖上的魔術師閱讀 1,413評論 0 5