R語言機器學(xué)習(xí)與臨床預(yù)測模型36--隨機森林Random Forest

本內(nèi)容為【科研私家菜】R語言機器學(xué)習(xí)與臨床預(yù)測模型系列課程

R小鹽準(zhǔn)備介紹R語言機器學(xué)習(xí)與預(yù)測模型的學(xué)習(xí)筆記

你想要的R語言學(xué)習(xí)資料都在這里, 快來收藏關(guān)注【科研私家菜】


01 什么是隨機森林?

隨機森林(RF,Random Forest)是非常具有代表性的Bagging集成算法,它的所有基評估器都是決策樹,分類樹組成的森林就叫做隨機森林分類器,回歸樹所集成的森林就叫做隨機森林回歸器。
隨機森林是一個用隨機方式建立的,包含多個決策樹的集成分類器。其輸出的類別由各個樹投票而定(如果是回歸樹則取平均)。隨機森林的生成過程如下:

  1. 從原始樣本中采取有放回抽樣的方法選取n個樣本;
  2. 對n個樣本選取a個特征中的隨機k個,用建立決策樹的方法獲得最佳分割點;
  3. 重復(fù)m次,獲得m個決策樹;
  4. 對輸入樣例進(jìn)行預(yù)測時,每個子樹都產(chǎn)生一個結(jié)果,采用多數(shù)投票機制輸出。
    隨機森林的優(yōu)點
  5. 實現(xiàn)簡單,訓(xùn)練速度快,可以并行實現(xiàn),因為訓(xùn)練時樹與樹之間是相互獨立的;
  6. 相比單一決策樹,能學(xué)習(xí)到特征之間的相互影響,且不容易過擬合;
  7. 能處理高維數(shù)據(jù)(即特征很多),并且不用做特征選擇,因為特征子集是隨機選取的;
  8. 對于不平衡的數(shù)據(jù)集,可以平衡誤差;
  9. 相比SVM,對特征缺失不敏感,因為待選特征也是隨機選取;
  10. 訓(xùn)練完成后可以給出哪些特征比較重要。

隨機森林的缺點

  1. 在噪聲過大的分類和回歸問題還是容易過擬合;
  2. 相比于單一決策樹,它的隨機性讓我們難以對模型進(jìn)行解釋。
    隨機森林在訓(xùn)練時,循環(huán)依次訓(xùn)練每一棵決策樹,每棵樹的訓(xùn)練樣本都是從原始訓(xùn)練集中進(jìn)行Bootstrap抽樣得到。在訓(xùn)練決策樹的每個節(jié)點時所用的特征也是隨機抽樣得到的,即從特征向量中隨機抽出部分特征參與訓(xùn)練。


    決策樹

隨機森林

02 R語言實現(xiàn)

rf.pros <- randomForest(lpsa ~ ., data = pros.train)
rf.pros
plot(rf.pros)
which.min(rf.pros$mse)
set.seed(123)
rf.pros.2 <- randomForest(lpsa ~ ., data = pros.train, ntree = 75)
rf.pros.2
varImpPlot(rf.pros.2, scale = TRUE,
           main = "Variable Importance Plot - PSA Score")
importance(rf.pros.2)
rf.pros.test <- predict(rf.pros.2, newdata = pros.test)
#plot(rf.pros.test, pros.test$lpsa)
rf.resid <- rf.pros.test - pros.test$lpsa #calculate residual
mean(rf.resid^2)

set.seed(123)
rf.biop <- randomForest(class ~ ., data = biop.train)
rf.biop
plot(rf.biop)
which.min(rf.biop$err.rate[, 1])
set.seed(123)
rf.biop.2 <- randomForest(class ~ ., data = biop.train, ntree = 19)
#getTree(rf.biop,1)
rf.biop.2
rf.biop.test <- predict(rf.biop.2, 
                        newdata = biop.test, 
                        type = "response")
table(rf.biop.test, biop.test$class)
(139 + 67) / 209
varImpPlot(rf.biop.2)

data(Pima.tr)
data(Pima.te)
pima <- rbind(Pima.tr, Pima.te)
set.seed(502)
ind <- sample(2, nrow(pima), replace = TRUE, prob = c(0.7, 0.3))
pima.train <- pima[ind == 1, ]
pima.test <- pima[ind == 2, ]

set.seed(321)
rf.pima <- randomForest(type ~ ., data = pima.train)
rf.pima
# plot(rf.pima)
which.min(rf.pima$err.rate[,1])
set.seed(321)
rf.pima.2 <- randomForest(type ~ ., data = pima.train, ntree = 80)
rf.pima.2
rf.pima.test <- predict(rf.pima.2, 
                        newdata = pima.test, 
                        type = "response")
table(rf.pima.test, pima.test$type)

03 總結(jié)

隨機森林是一種集成學(xué)習(xí)算法,它將多棵決策樹進(jìn)行整合來完成預(yù)測。對于分類問題預(yù)測結(jié)果是所有決策樹預(yù)測結(jié)果的投票;對于回歸問題,是所有決策樹預(yù)測結(jié)果的均值。訓(xùn)練時,通過Bootstrap抽樣來形成每棵決策樹的訓(xùn)練集,訓(xùn)練每棵決策樹的每個節(jié)點時,所用的特征也是從整個特征向量中抽取的一部分特征。通過將多棵決策樹集成,以及每次用采樣的樣本和特征分量訓(xùn)練每棵決策樹,可以有效的降低模型的方差。

隨機森林是一種判別模型,既支持分類問題,也支持回歸問題,并且支持多分類問題。它是一種非線性模型,其預(yù)測函數(shù)為分段常數(shù)函數(shù)。


關(guān)注科研私家菜(VX_GZH: SciPrivate),發(fā)送“隨機森林”獲取R語言源碼和示例數(shù)據(jù)。


關(guān)注R小鹽,關(guān)注科研私家菜(VX_GZH: SciPrivate),有問題請聯(lián)系R小鹽。讓我們一起來學(xué)習(xí) R語言機器學(xué)習(xí)與臨床預(yù)測模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容