? 首先樹模型根據根據基于決策樹和回歸樹可分為分類模型和回歸模型。
? 對于分類和回歸問題來說,不同的地方在于,對回歸樹來說可以不單單是取葉子節點的均值作為預測值,也可以取葉子節點的中位數或者別的一些合理的統計值來作為預測值。(自己想的)
? ? 樹模型是基于特征進行特征空間的劃分(基于信息熵之類的),然后對劃分好的葉子節點進行賦值。不會超過已有的最大值也不會低于已有的最小值。對于預測趨勢的問題來說(例如天池競賽阿里流行音樂預測),并不能很好的代表趨勢走項,最多是在已有的值區間內進行波動。
? ?接下來說說隨機森林的隨機性,第一是在選擇特征的時候進行無放回的提取,二是在進行樣本取樣的時候進行有放回的抽樣(在抽樣次數趨于無窮時只能抽取0.63左右的原始樣本)。這在一定程度上增強了抗干擾能力,但在樣本不均衡的情況下還是會產生過擬合的情況,此時就要調整樣本權重或者對數據進行重采樣。
總而言之,樹模型就是一系列的規則,不過是機器依據一些目標選取的最優或者局部最優的規則而已。