分類是管理學(xué)、金融學(xué)、統(tǒng)計(jì)學(xué)等常用的實(shí)證分析方法之一,目前,分類的方法有邏輯回歸、支持向量機(jī)、貝葉斯分類、決策樹(shù)、支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、線性判別分類器等等。方法有很多,不同的方法適用于不同的環(huán)境,其難易度也不同。
隨機(jī)森林
在開(kāi)始建模前,首先說(shuō)一下,隨機(jī)森林名稱的由來(lái)。
Leo Breiman和 Adele Cutler發(fā)展出、推論出隨機(jī)森林的算法。這個(gè)術(shù)語(yǔ)是1995年由貝爾實(shí)驗(yàn)室的Tin Kam Ho所提出的隨機(jī)決策森林(random decision forests)而來(lái)的。這個(gè)方法則是結(jié)合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造決策樹(shù)的集合。
隨機(jī)森林在以決策樹(shù)、構(gòu)建Bagging集成(從數(shù)據(jù)里抽取出自舉樣本,即有放回的隨機(jī)樣本,根據(jù)每一個(gè)樣本,可以建立一個(gè)決策樹(shù)模型,最終的模型是所有單個(gè)決策樹(shù)結(jié)果的平均。bagging決策樹(shù)算法通過(guò)降低方差得到穩(wěn)定的最終模型,這種方法提高了精度,也不太可能過(guò)擬合)的基礎(chǔ)上,進(jìn)一步在基決策樹(shù)的訓(xùn)練過(guò)程中引入了隨機(jī)屬性選擇。所以隨機(jī)指的是訓(xùn)練過(guò)程中引入了隨機(jī)屬性選擇,森林是指的“眾木成林”,也就是許多決策樹(shù)的集合。所以,學(xué)術(shù)界的大佬起名字總是有深意的。
01
隨機(jī)森林的優(yōu)缺點(diǎn)
優(yōu)點(diǎn)
訓(xùn)練可以高度并行化,對(duì)于大數(shù)據(jù)時(shí)代的大樣本訓(xùn)練速度有優(yōu)勢(shì)。個(gè)人覺(jué)得這是的最主要的優(yōu)點(diǎn)。
由于可以隨機(jī)選擇決策樹(shù)節(jié)點(diǎn)劃分特征,這樣在樣本特征維度很高的時(shí)候,仍然能高效的訓(xùn)練模型。
在訓(xùn)練后,可以給出各個(gè)特征對(duì)于輸出的重要性
由于采用了隨機(jī)采樣,訓(xùn)練出的模型的方差小,泛化能力強(qiáng)。
相對(duì)于Boosting系列的Adaboost和GBDT, RF實(shí)現(xiàn)比較簡(jiǎn)單。
對(duì)部分特征缺失不敏感。
缺點(diǎn)
在某些噪音比較大的樣本集上,RF模型容易陷入過(guò)擬合。
取值劃分比較多的特征容易對(duì)RF的決策產(chǎn)生更大的影響,從而影響擬合的模型的效果。