根據李航老師的《統計學習方法》一書整理。
1、提升方法的基本思路
提升方法基于這樣一種思路:對于一個復雜任務來說,將多個專家的判斷進行適當的綜合所得出的判斷,要比其中任何一個專家單獨的判斷好。實際上就是“三個臭皮匠頂個諸葛亮”的道理。
接下來介紹兩個概念:
強可學習:在概率近似正確(probably approximately correct ,PAC)的學習框架中,一個概念,如果存在一個多項式的學習算法能夠學習它,而且正確率很高,那么就稱這個概念是強可學習的。
弱可學習:一個概念,如果存在一個多項式的學習算法能夠學習它,學習的正確率僅比隨機猜測略好,那么就稱這個概念是弱可學習的。
對于分類問題而言,給定一個訓練樣本集,求比較粗糙的分類規則(弱分類器)要比求精確的分類規則(強分類器)容易得多。提升方法就是從弱學習算法出發,反復學習,得到一系列弱分類器(又稱為基本分類器),然后組合這些弱分類器,構成一個強分類器。大多數提升方法都是改變訓練數據的概率分布(訓練數據的權值分布),針對不同的訓練數據分布調用弱學習算法學習一系列弱分類器。
這樣一來,有兩個問題需要解決:
(1)在每一輪如何改變訓練數據的權值或者概率分布?
(2)如何將弱分類器組合成一個強分類器?
2、AdaBoost算法的思想
說明AdaBoost算法的思想,主要就是回答如何解決上述提出的兩個問題。
對于第一個問題,AdaBoost的做法是,提高那些被前一輪弱嗯類器錯誤分類樣本的權值,而降低那些被正確分類樣本的權值。這樣一來,那些沒有得到正確分類的數據,由于其權值的加大而收到后一輪的弱分類器的更大關注。
對于第二個問題,AdaBoost對弱分類器的組合采取加權多數表決的方法。具體地說,加大分類誤差率小的弱分類器的權值,使其在百奧絕種起較大的作用,減小分類誤差率大的弱分類器的權值,使其在表決中起較小的作用。
3、AdaBoost算法步驟:
根據李航老師的書,這里我直接截圖,老師對于AdaBoost的步驟整理的非常棒: