集成方法

集成方法或元算法是對(duì)其它算法進(jìn)行組合的一種方式,根據(jù)是否使用基學(xué)習(xí)器分為同質(zhì)和異質(zhì)

優(yōu)點(diǎn):泛化錯(cuò)誤率低,易編碼,可以應(yīng)用在大部分分類(lèi)器上,無(wú)參數(shù)調(diào)整

1.從統(tǒng)計(jì)的方面來(lái)看,由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大,可能有多個(gè)假設(shè)在訓(xùn)練集上達(dá)到同等性能,此時(shí)若使用單學(xué)習(xí)器可能因?yàn)檎`選而導(dǎo)致泛化性能不佳,結(jié)合多個(gè)學(xué)習(xí)器會(huì)減少這一風(fēng)險(xiǎn)

2.從計(jì)算的方面看,學(xué)習(xí)算法往往會(huì)陷入局部極小,導(dǎo)致泛化性能糟糕,集成可降低陷入局部極小點(diǎn)的風(fēng)險(xiǎn)

3.從表示的方面看,某些學(xué)習(xí)任務(wù)的真實(shí)假設(shè)可能不在當(dāng)前學(xué)習(xí)算法所考慮的假設(shè)空間內(nèi),此時(shí)使用單個(gè)學(xué)習(xí)器必定無(wú)效,而通過(guò)集成,擴(kuò)大假設(shè)空間,有可能學(xué)得更好的解

缺點(diǎn):對(duì)離群點(diǎn)敏感

適用數(shù)據(jù)類(lèi)型:數(shù)值型和標(biāo)稱(chēng)型數(shù)據(jù)


?Bagging(bootstrap aggregating)自舉匯聚法

從原始數(shù)據(jù)集中選擇S次得到S個(gè)新數(shù)據(jù)集,每次使用隨機(jī)放回抽樣。

然后應(yīng)用某個(gè)學(xué)習(xí)算法,得到S個(gè)分類(lèi)器,與此同時(shí),選擇分類(lèi)器投票結(jié)果最多的類(lèi)別作為最后的分類(lèi)結(jié)果(權(quán)重相等),對(duì)回歸任務(wù)使用平均值

主要關(guān)注方差,因此它在不剪枝決策樹(shù),神經(jīng)網(wǎng)絡(luò)等易受樣本擾動(dòng)的學(xué)習(xí)器上效果更為明顯


隨機(jī)森林

以決策樹(shù)為基學(xué)習(xí)器

每次在選擇屬性進(jìn)行劃分時(shí),隨機(jī)選擇一個(gè)包含K個(gè)屬性的子集,然后從中選擇一個(gè)最優(yōu)的屬性。若K=D,則與傳統(tǒng)的決策樹(shù)相同,若K=1,則完全隨機(jī)。

一般采用K=SQRT(D)或者LOG(D)


Boosting:

?多個(gè)分類(lèi)器的類(lèi)型仍然一致,但不同的分類(lèi)器串行訓(xùn)練,每個(gè)新分類(lèi)器都根據(jù)已訓(xùn)練處的分類(lèi)器的性能來(lái)進(jìn)行訓(xùn)練,通過(guò)關(guān)注已有分類(lèi)器錯(cuò)分的數(shù)據(jù)來(lái)獲得新的分類(lèi)器。

結(jié)果是基于所有分類(lèi)器的加權(quán)求和,權(quán)重并不相等,對(duì)應(yīng)分類(lèi)器的成功度

Boosting 主要關(guān)注偏差


AdaBoost(adaptive boosting): 弱分類(lèi)器(單層決策樹(shù))越簡(jiǎn)單效果越好,“弱”是指分類(lèi)器的性能比隨機(jī)猜測(cè)要略好.

步驟:

1.對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)樣本賦予權(quán)重,這些權(quán)重構(gòu)成向量D,并初始化成相等值

2.首先訓(xùn)練一個(gè)弱分類(lèi)器并計(jì)算錯(cuò)誤率

3.重新調(diào)整樣本權(quán)重,上一輪迭代中分對(duì)的樣本權(quán)重將會(huì)降低,分錯(cuò)的提高。

為了從所有弱分類(lèi)器中得到最終的分類(lèi)結(jié)果,分配分類(lèi)器權(quán)重alpha,基于分類(lèi)器錯(cuò)誤率

a = 0.5*ln(1- ε/ε)

如果某個(gè)樣本正確分類(lèi),Di(t+1) = Di(t)*e^-a/Sum(D)

如果某個(gè)樣本錯(cuò)誤分類(lèi),Di(t+1) = Di(t)*e^a/Sum(D)

弱分類(lèi)器如果過(guò)多,容易導(dǎo)致過(guò)擬合,使用錯(cuò)誤率上升


結(jié)合策略

1.平均法

簡(jiǎn)單平均,加權(quán)平均

在個(gè)體學(xué)習(xí)器性能相差較大時(shí)宜采用加權(quán)平均法

2.投票法

絕對(duì)多數(shù)投票法,相對(duì)多數(shù)投票法,加權(quán)投票法

3.學(xué)習(xí)法

通過(guò)另一個(gè)學(xué)習(xí)器來(lái)結(jié)合

個(gè)體學(xué)習(xí)器稱(chēng)為初級(jí)學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器稱(chēng)為次級(jí)學(xué)習(xí)器

Stacking算法先從初始數(shù)據(jù)中訓(xùn)練出初級(jí)學(xué)習(xí)器,然后生成一個(gè)新數(shù)據(jù)集用于訓(xùn)練次級(jí)學(xué)習(xí)器,在這個(gè)新數(shù)據(jù)集中,初級(jí)學(xué)習(xí)器的輸出被當(dāng)做樣例輸入特征。

次級(jí)學(xué)習(xí)器的輸入屬性表示和次級(jí)學(xué)習(xí)算法對(duì)stacking集成的泛化性能有很大影響。

用多響應(yīng)線(xiàn)性回歸MLR的效果較好

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容