機器學習—決策樹模型 ID3/C4.5/CART三種算法的區別

1 從LR到決策樹

相信大家都做過用LR來進行分類,總結一下LR模型的優缺點:

優點

  • 適合需要得到一個分類概率的場景。
  • 實現效率較高。
  • 很好處理線性特征。

缺點

  • 當特征空間很大時,邏輯回歸的性能不是很好。
  • 不能很好地處理大量多類特征。
  • 對于非線性特征,需要進行轉換。

以上就是LR模型的優缺點,沒錯,決策樹的出現就是為了解決LR模型不足的地方,這也是我們為什么要學習決策樹的原因了,沒有任何一個模型是萬能的。

決策樹(Decision Tree)
在數據挖掘領域,比較經典的分類算法有:決策樹算法、貝葉斯網絡算法、人工神經網絡算法支持向量機以及其它一些基于關聯規則的算法等。國際權威的學術組織the IEEE International Conference on Data Mining(ICDM)曾在21世紀初期,將兩種決策樹算法(C4.5算法和CART算法)列入數據挖掘領域十大經典算法之中。可見決策樹算法優良的結構特性和算法效率,使其得到更多專家學者的一致認可。

決策樹(Decision Tree),又稱判斷樹,它是一種以樹形數據結構來展示決策規則和分類結果的模型,作為一種歸納學習算法,其重點是將看似無序、雜亂的已知實例,通過某種技術手段將它們轉化成可以預測未知實例的樹狀模型,每一條從根結點(對最終分類結果貢獻最大的屬性)到葉子結點(最終分類結果)的路徑都代表一條決策的規則。決策樹算法的優勢在于,它不僅簡單易于理解,而且高效實用,構建一次,就可以多次使用,或者只對樹模型進行簡單的維護就可以保持其分類的準確性。


決策樹

決策樹算法采用自上至下遞歸建樹的技術,該算法的產生源于CLS系統,即概念學習系統,下圖展示一個CLS系統的簡易模型。該模型是決策樹發展的理論基礎,該模型定義了一個學習系統的基本結構。


CLS系統的簡易模型

J.R.Quinlan在上世紀80年代提出了ID3(Iterative Dichotomiser 3)算法,該算法奠定了日后決策樹算法發展的基礎。這種算法的提出得益于,香農(Shannon C E.)在信息論中提出的信息熵的概念,其表示離散隨機事件出現的概率。ID3算法最核心的思想,就是以信息增益作為分裂屬性選取的依據,信息增益表示某個屬性能夠為分類系統帶來多少“信息”,信息越多,則通過該屬性對數據集的分類更為準確。ID3算法適用于大多數據集的分類問題,分類速度和測試速度都比較快。但該算法在設計之初未考慮如何處理連續屬性、屬性缺失以及噪聲等問題。之后,隨后J.R.Quinlan針對ID3算法的不足設計了C4.5算法,引入信息增益率的概念。它克服了ID3算法無法處理屬性缺失和連續屬性的問題,并且引入了優化決策樹的剪枝方法,使算法更高效,適用性更強。

Breiman.L.I等人在1984年提出了CART(Classification and Regression Tree)算法,即分類回歸樹算法。CART算法用基尼指數(Gini Index)代替了信息熵,用二叉樹作為模型結構,所以不是直接通過屬性值進行數據劃分,該算法要在所有屬性中找出最佳的二元劃分。CART算法通過遞歸操作不斷地對決策屬性進行劃分,同時利用驗證數據對樹模型進行優化。

1996年Shafer.J.C等人提出了一種可伸縮的并行歸納決策樹算法,SPRINT算法(Scalable Parallelizable Induction of Decision Trees),通過并行運算增加決策效率,增強了算法的的擴展性和可伸縮性。同一年Mehta.M等人提出了C4.5算法的改進算法SLIQ算法,該算法采用屬性表、分類表、類直方圖的策略來解決內存溢出的問題。Cehrke.J等人設計了雨林(Rain Forest)算法,提高了對大數據集進行分類的能力。2000年Rastogi.R等人以CART算法為理論基礎,提出了PUBLIC(A Decision Tree Classifier that Integrates Building and Pruning)算法,剪枝策略更加高效。

當今社會,信息化得程度日益提高,人們被各種數據所包圍。數據挖掘作為一種新興的學術領域,它的發展極大的促進了人們對海量數據中所蘊含的知識的認識程度。數據挖掘最根本的目的就是,通過各種有效的技術手段,在已知的數據中探尋有價值的信息。決策樹分類算法,作為一種簡單高效、容易理解的啟發式算法,有著廣泛的應用領域。近年來隨著模糊理論與決策樹的融合,使得該算法更為智能,更符合人的思維方式,極大的擴展了其應用范圍。

決策樹的優點

  • 模擬人的直觀決策規則。
  • 可以處理非線性特征。
  • 考慮了特征之間的相互作用。

其實用一下圖片能更好的理解LR模型和決策樹模型算法的根本區別,我們可以思考一下一個決策問題:是否去相親,一個女孩的母親要給這個女海介紹對象。



大家都看得很明白了吧!LR模型是一股腦兒的把所有特征塞入學習,而決策樹更像是編程語言中的if-else一樣,去做條件判斷,這就是根本性的區別。

2 “樹”的成長過程

決策樹基于“樹”結構進行決策的,這時我們就要面臨兩個問題 :

  • “樹”怎么長。
  • 這顆“樹”長到什么時候停。

弄懂了這兩個問題,那么這個模型就已經建立起來了,決策樹的總體流程是“分而治之”的思想,一是自根至葉的遞歸過程,一是在每個中間節點尋找一個“劃分”屬性,相當于就是一個特征屬性了。接下來我們來逐個解決以上兩個問題。

這顆“樹”長到什么時候停

  • 當前結點包含的樣本全屬于同一類別,無需劃分;例如:樣本當中都是決定去相親的,屬于同一類別,就是不管特征如何改變都不會影響結果,這種就不需要劃分了。
  • 當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;例如:所有的樣本特征都是一樣的,就造成無法劃分了,訓練集太單一。
  • 當前結點包含的樣本集合為空,不能劃分。

3 “樹”怎么長

在生活當中,我們都會碰到很多需要做出決策的地方,例如:吃飯地點、數碼產品購買、旅游地區等,你會發現在這些選擇當中都是依賴于大部分人做出的選擇,也就是跟隨大眾的選擇。其實在決策樹當中也是一樣的,當大部分的樣本都是同一類的時候,那么就已經做出了決策。

我們可以把大眾的選擇抽象化,這就引入了一個概念就是純度,想想也是如此,大眾選擇就意味著純度越高。好,在深入一點,就涉及到一句話:信息熵越低,純度越高。我相信大家或多或少都聽說過“熵”這個概念,信息熵通俗來說就是用來度量包含的“信息量”,如果樣本的屬性都是一樣的,就會讓人覺得這包含的信息很單一,沒有差異化,相反樣本的屬性都不一樣,那么包含的信息量就很多了

一到這里就頭疼了,因為馬上要引入信息熵的公式,其實也很簡單:


Pk表示的是:當前樣本集合D中第k類樣本所占的比例為Pk。

信息增益
廢話不多說直接上公式:


看不懂的先不管,簡單一句話就是:劃分前的信息熵--劃分后的信息熵。表示的是向純度方向邁出的“步長”。

3.1 ID3算法

解釋:在根節點處計算信息熵,然后根據屬性依次劃分并計算其節點的信息熵,用根節點信息熵--屬性節點的信息熵=信息增益,根據信息增益進行降序排列,排在前面的就是第一個劃分屬性,其后依次類推,這就得到了決策樹的形狀,也就是怎么“長”了。


不過,信息增益有一個問題:對可取值數目較多的屬性有所偏好,例如:考慮將“編號”作為一個屬性。這就引出了另一個 算法C4.5。

3.2 C4.5

為了解決信息增益的問題,引入一個信息增益率:

屬性a的可能取值數目越多(即V越大),則IV(a)的值通常就越大。信息增益比本質: 是在信息增益的基礎之上乘上一個懲罰參數。特征個數較多時,懲罰參數較小;特征個數較少時,懲罰參數較大。不過有一個缺點:

缺點:信息增益比偏向取值較少的特征。
使用信息增益比:基于以上缺點,并不是直接選擇信息增益率最大的特征,而是現在候選特征中找出信息增益高于平均水平的特征,然后在這些特征中再選擇信息增益率最高的特征。

3.3 CART算法

數學家真實聰明,想到了另外一個表示純度的方法,叫做基尼指數(討厭的公式):



表示在樣本集合中一個隨機選中的樣本被分錯的概率。舉例來說,現在一個袋子里有3種顏色的球若干個,伸手進去掏出2個球,顏色不一樣的概率,這下明白了吧。Gini(D)越小,數據集D的純度越高。

舉個例子
假設現在有特征 “學歷”,此特征有三個特征取值: “本科”,“碩士”, “博士”,
當使用“學歷”這個特征對樣本集合D進行劃分時,劃分值分別有三個,因而有三種劃分的可能集合,劃分后的子集如下:
1.劃分點: “本科”,劃分后的子集合 : {本科},{碩士,博士}
2.劃分點: “碩士”,劃分后的子集合 : {碩士},{本科,博士}
3.劃分點: “碩士”,劃分后的子集合 : {博士},{本科,碩士}}
對于上述的每一種劃分,都可以計算出基于 劃分特征= 某個特征值 將樣本集合D劃分為兩個子集的純度:

因而對于一個具有多個取值(超過2個)的特征,需要計算以每一個取值作為劃分點,對樣本D劃分之后子集的純度Gini(D,Ai),(其中Ai 表示特征A的可能取值)

然后從所有的可能劃分的Gini(D,Ai)中找出Gini指數最小的劃分,這個劃分的劃分點,便是使用特征A對樣本集合D進行劃分的最佳劃分點。到此就可以長成一棵“大樹”了。

3.4 三種不同的決策樹

  • ID3:取值多的屬性,更容易使數據更純,其信息增益更大。
    訓練得到的是一棵龐大且深度淺的樹:不合理。
  • C4.5:采用信息增益率替代信息增益。
  • CART:以基尼系數替代熵,最小化不純度,而不是最大化信息增益。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。