統(tǒng)計方法
bootstraping(自助法)源自“pull up by your own boot straps”
有放回抽樣,多輪抽樣分析
這是統(tǒng)計學的一種分析方法
應(yīng)用:
bagging (bootstrap aggregating)
多輪隨機有放回抽樣(因為有放回,通常包括63%原數(shù)據(jù))
訓練結(jié)果預(yù)測函數(shù)多數(shù)投票
均勻抽樣,預(yù)測函數(shù)無權(quán)重
效果:reduce variance
boosting
抽樣有權(quán)重
每輪抽樣考慮前所有輪訓練結(jié)果,對錯誤率大的加大權(quán)重
預(yù)測函數(shù)有權(quán)重,按權(quán)重投票
gradient boosting
運用梯度下降方法改進模型:改進BIAS
random forest
決策樹的集合
抽樣分行采樣,列采樣
每顆決策樹:1.隨機有放回抽取樣本,2.選取部分feature而不是全部 (對feature也做了抽樣)【與bagging的區(qū)別】
平均投票
效果:進一步降低 variance, and robust to noise
generlization error無偏估計
一般prediction的誤差可以分解為:bias variance noise
集成學習的目的就是降低誤差率