系統講解了DT 算法理論
? 主要內容:
? ? ? ? ? 1、決策樹算法
? ? ? ? ? 2、Entroy
? ? ? ? ? 3、Information Gain
例圖
DT 一般都是非線性分界面
sklearn 運行效果圖
參數的作用
min_samples_split
一直區分到集合只有兩個元素,可以忽略
min_samples_split 太小導致overfitting
Entropy
數學推倒
Information Gain
信息增益,,主要用來算多個feature時使用哪個feature 來分割界面
DT算法的計算核心一般是計算各個feature 的information gain 決定采用哪個feature 分割平面以及怎樣分割。
DT 算法的優缺點:
easy use
圖形化比較直觀
容易overfiting