集成方法或元算法是對(duì)其它算法進(jìn)行組合的一種方式,根據(jù)是否使用基學(xué)習(xí)器分為同質(zhì)和異質(zhì)
優(yōu)點(diǎn):泛化錯(cuò)誤率低,易編碼,可以應(yīng)用在大部分分類(lèi)器上,無(wú)參數(shù)調(diào)整
1.從統(tǒng)計(jì)的方面來(lái)看,由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大,可能有多個(gè)假設(shè)在訓(xùn)練集上達(dá)到同等性能,此時(shí)若使用單學(xué)習(xí)器可能因?yàn)檎`選而導(dǎo)致泛化性能不佳,結(jié)合多個(gè)學(xué)習(xí)器會(huì)減少這一風(fēng)險(xiǎn)
2.從計(jì)算的方面看,學(xué)習(xí)算法往往會(huì)陷入局部極小,導(dǎo)致泛化性能糟糕,集成可降低陷入局部極小點(diǎn)的風(fēng)險(xiǎn)
3.從表示的方面看,某些學(xué)習(xí)任務(wù)的真實(shí)假設(shè)可能不在當(dāng)前學(xué)習(xí)算法所考慮的假設(shè)空間內(nèi),此時(shí)使用單個(gè)學(xué)習(xí)器必定無(wú)效,而通過(guò)集成,擴(kuò)大假設(shè)空間,有可能學(xué)得更好的解
缺點(diǎn):對(duì)離群點(diǎn)敏感
適用數(shù)據(jù)類(lèi)型:數(shù)值型和標(biāo)稱(chēng)型數(shù)據(jù)
?Bagging(bootstrap aggregating)自舉匯聚法
從原始數(shù)據(jù)集中選擇S次得到S個(gè)新數(shù)據(jù)集,每次使用隨機(jī)放回抽樣。
然后應(yīng)用某個(gè)學(xué)習(xí)算法,得到S個(gè)分類(lèi)器,與此同時(shí),選擇分類(lèi)器投票結(jié)果最多的類(lèi)別作為最后的分類(lèi)結(jié)果(權(quán)重相等),對(duì)回歸任務(wù)使用平均值
主要關(guān)注方差,因此它在不剪枝決策樹(shù),神經(jīng)網(wǎng)絡(luò)等易受樣本擾動(dòng)的學(xué)習(xí)器上效果更為明顯
隨機(jī)森林
以決策樹(shù)為基學(xué)習(xí)器
每次在選擇屬性進(jìn)行劃分時(shí),隨機(jī)選擇一個(gè)包含K個(gè)屬性的子集,然后從中選擇一個(gè)最優(yōu)的屬性。若K=D,則與傳統(tǒng)的決策樹(shù)相同,若K=1,則完全隨機(jī)。
一般采用K=SQRT(D)或者LOG(D)
Boosting:
?多個(gè)分類(lèi)器的類(lèi)型仍然一致,但不同的分類(lèi)器串行訓(xùn)練,每個(gè)新分類(lèi)器都根據(jù)已訓(xùn)練處的分類(lèi)器的性能來(lái)進(jìn)行訓(xùn)練,通過(guò)關(guān)注已有分類(lèi)器錯(cuò)分的數(shù)據(jù)來(lái)獲得新的分類(lèi)器。
結(jié)果是基于所有分類(lèi)器的加權(quán)求和,權(quán)重并不相等,對(duì)應(yīng)分類(lèi)器的成功度
Boosting 主要關(guān)注偏差
AdaBoost(adaptive boosting): 弱分類(lèi)器(單層決策樹(shù))越簡(jiǎn)單效果越好,“弱”是指分類(lèi)器的性能比隨機(jī)猜測(cè)要略好.
步驟:
1.對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)樣本賦予權(quán)重,這些權(quán)重構(gòu)成向量D,并初始化成相等值
2.首先訓(xùn)練一個(gè)弱分類(lèi)器并計(jì)算錯(cuò)誤率
3.重新調(diào)整樣本權(quán)重,上一輪迭代中分對(duì)的樣本權(quán)重將會(huì)降低,分錯(cuò)的提高。
為了從所有弱分類(lèi)器中得到最終的分類(lèi)結(jié)果,分配分類(lèi)器權(quán)重alpha,基于分類(lèi)器錯(cuò)誤率
a = 0.5*ln(1- ε/ε)
如果某個(gè)樣本正確分類(lèi),Di(t+1) = Di(t)*e^-a/Sum(D)
如果某個(gè)樣本錯(cuò)誤分類(lèi),Di(t+1) = Di(t)*e^a/Sum(D)
弱分類(lèi)器如果過(guò)多,容易導(dǎo)致過(guò)擬合,使用錯(cuò)誤率上升
結(jié)合策略
1.平均法
簡(jiǎn)單平均,加權(quán)平均
在個(gè)體學(xué)習(xí)器性能相差較大時(shí)宜采用加權(quán)平均法
2.投票法
絕對(duì)多數(shù)投票法,相對(duì)多數(shù)投票法,加權(quán)投票法
3.學(xué)習(xí)法
通過(guò)另一個(gè)學(xué)習(xí)器來(lái)結(jié)合
個(gè)體學(xué)習(xí)器稱(chēng)為初級(jí)學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器稱(chēng)為次級(jí)學(xué)習(xí)器
Stacking算法先從初始數(shù)據(jù)中訓(xùn)練出初級(jí)學(xué)習(xí)器,然后生成一個(gè)新數(shù)據(jù)集用于訓(xùn)練次級(jí)學(xué)習(xí)器,在這個(gè)新數(shù)據(jù)集中,初級(jí)學(xué)習(xí)器的輸出被當(dāng)做樣例輸入特征。
次級(jí)學(xué)習(xí)器的輸入屬性表示和次級(jí)學(xué)習(xí)算法對(duì)stacking集成的泛化性能有很大影響。
用多響應(yīng)線(xiàn)性回歸MLR的效果較好