本內(nèi)容為【科研私家菜】R語言機器學(xué)習(xí)與臨床預(yù)測模型系列課程

R小鹽準(zhǔn)備介紹R語言機器學(xué)習(xí)與預(yù)測模型的學(xué)習(xí)筆記

你想要的R語言學(xué)習(xí)資料都在這里，快來收藏關(guān)注【科研私家菜】

01 什么是隨機森林？

隨機森林（RF，Random Forest）是非常具有代表性的Bagging集成算法，它的所有基評估器都是決策樹，分類樹組成的森林就叫做隨機森林分類器，回歸樹所集成的森林就叫做隨機森林回歸器。
隨機森林是一個用隨機方式建立的，包含多個決策樹的集成分類器。其輸出的類別由各個樹投票而定（如果是回歸樹則取平均）。隨機森林的生成過程如下：

從原始樣本中采取有放回抽樣的方法選取n個樣本；
對n個樣本選取a個特征中的隨機k個，用建立決策樹的方法獲得最佳分割點；
重復(fù)m次，獲得m個決策樹；
對輸入樣例進(jìn)行預(yù)測時，每個子樹都產(chǎn)生一個結(jié)果，采用多數(shù)投票機制輸出。
隨機森林的優(yōu)點：
實現(xiàn)簡單，訓(xùn)練速度快，可以并行實現(xiàn)，因為訓(xùn)練時樹與樹之間是相互獨立的；
相比單一決策樹，能學(xué)習(xí)到特征之間的相互影響，且不容易過擬合；
能處理高維數(shù)據(jù)（即特征很多），并且不用做特征選擇，因為特征子集是隨機選取的；
對于不平衡的數(shù)據(jù)集，可以平衡誤差；
相比SVM，對特征缺失不敏感，因為待選特征也是隨機選取；
訓(xùn)練完成后可以給出哪些特征比較重要。

隨機森林的缺點：

在噪聲過大的分類和回歸問題還是容易過擬合；
相比于單一決策樹，它的隨機性讓我們難以對模型進(jìn)行解釋。
隨機森林在訓(xùn)練時，循環(huán)依次訓(xùn)練每一棵決策樹，每棵樹的訓(xùn)練樣本都是從原始訓(xùn)練集中進(jìn)行Bootstrap抽樣得到。在訓(xùn)練決策樹的每個節(jié)點時所用的特征也是隨機抽樣得到的，即從特征向量中隨機抽出部分特征參與訓(xùn)練。

決策樹

隨機森林

02 R語言實現(xiàn)

rf.pros <- randomForest(lpsa ~ ., data = pros.train)
rf.pros
plot(rf.pros)
which.min(rf.pros$mse)
set.seed(123)
rf.pros.2 <- randomForest(lpsa ~ ., data = pros.train, ntree = 75)
rf.pros.2
varImpPlot(rf.pros.2, scale = TRUE,
           main = "Variable Importance Plot - PSA Score")
importance(rf.pros.2)
rf.pros.test <- predict(rf.pros.2, newdata = pros.test)
#plot(rf.pros.test, pros.test$lpsa)
rf.resid <- rf.pros.test - pros.test$lpsa #calculate residual
mean(rf.resid^2)

set.seed(123)
rf.biop <- randomForest(class ~ ., data = biop.train)
rf.biop
plot(rf.biop)
which.min(rf.biop$err.rate[, 1])
set.seed(123)
rf.biop.2 <- randomForest(class ~ ., data = biop.train, ntree = 19)
#getTree(rf.biop,1)
rf.biop.2
rf.biop.test <- predict(rf.biop.2, 
                        newdata = biop.test, 
                        type = "response")
table(rf.biop.test, biop.test$class)
(139 + 67) / 209
varImpPlot(rf.biop.2)

data(Pima.tr)
data(Pima.te)
pima <- rbind(Pima.tr, Pima.te)
set.seed(502)
ind <- sample(2, nrow(pima), replace = TRUE, prob = c(0.7, 0.3))
pima.train <- pima[ind == 1, ]
pima.test <- pima[ind == 2, ]

set.seed(321)
rf.pima <- randomForest(type ~ ., data = pima.train)
rf.pima
# plot(rf.pima)
which.min(rf.pima$err.rate[,1])
set.seed(321)
rf.pima.2 <- randomForest(type ~ ., data = pima.train, ntree = 80)
rf.pima.2
rf.pima.test <- predict(rf.pima.2, 
                        newdata = pima.test, 
                        type = "response")
table(rf.pima.test, pima.test$type)

03 總結(jié)

隨機森林是一種集成學(xué)習(xí)算法，它將多棵決策樹進(jìn)行整合來完成預(yù)測。對于分類問題預(yù)測結(jié)果是所有決策樹預(yù)測結(jié)果的投票；對于回歸問題，是所有決策樹預(yù)測結(jié)果的均值。訓(xùn)練時，通過Bootstrap抽樣來形成每棵決策樹的訓(xùn)練集，訓(xùn)練每棵決策樹的每個節(jié)點時，所用的特征也是從整個特征向量中抽取的一部分特征。通過將多棵決策樹集成，以及每次用采樣的樣本和特征分量訓(xùn)練每棵決策樹，可以有效的降低模型的方差。

隨機森林是一種判別模型，既支持分類問題，也支持回歸問題，并且支持多分類問題。它是一種非線性模型，其預(yù)測函數(shù)為分段常數(shù)函數(shù)。

關(guān)注科研私家菜(VX_GZH: SciPrivate)，發(fā)送“隨機森林”獲取R語言源碼和示例數(shù)據(jù)。

關(guān)注R小鹽，關(guān)注科研私家菜(VX_GZH: SciPrivate)，有問題請聯(lián)系R小鹽。讓我們一起來學(xué)習(xí) R語言機器學(xué)習(xí)與臨床預(yù)測模型

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

R語言機器學(xué)習(xí)與臨床預(yù)測模型36--隨機森林Random Forest

R語言機器學(xué)習(xí)與臨床預(yù)測模型36--隨機森林Random Forest

本內(nèi)容為【科研私家菜】R語言機器學(xué)習(xí)與臨床預(yù)測模型系列課程

R小鹽準(zhǔn)備介紹R語言機器學(xué)習(xí)與預(yù)測模型的學(xué)習(xí)筆記

你想要的R語言學(xué)習(xí)資料都在這里，快來收藏關(guān)注【科研私家菜】

01 什么是隨機森林？

隨機森林

02 R語言實現(xiàn)

03 總結(jié)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

R語言機器學(xué)習(xí)與臨床預(yù)測模型36--隨機森林Random Forest

本內(nèi)容為【科研私家菜】R語言機器學(xué)習(xí)與臨床預(yù)測模型系列課程

R小鹽準(zhǔn)備介紹R語言機器學(xué)習(xí)與預(yù)測模型的學(xué)習(xí)筆記

你想要的R語言學(xué)習(xí)資料都在這里， 快來收藏關(guān)注【科研私家菜】

01 什么是隨機森林？

隨機森林

02 R語言實現(xiàn)

03 總結(jié)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

你想要的R語言學(xué)習(xí)資料都在這里，快來收藏關(guān)注【科研私家菜】