The Optimized Selection of Base-Classifiers for Ensemble Classification using a Multi-Objective Genetic Algorithm
基于遺傳算法的多目標的集成分類器基分類器優化選擇問題
一、算法介紹
數據集 X 劃分為訓練數據 T 和選擇數據 U , b 個 T 的引導子集輸入到不同的基分類器 c?中,得到共計 bc 個訓練分類器。選擇數據 U 放入 bc 訓練分類器中運行,將預測出來的標簽放入遺傳算法進行多目標優化。被優化的目標是分類誤差以及多樣性。從得到的最優的帕累托最前沿中選擇分類誤差最小的解作為最終的集成分類器。
二、算法步驟
1.將 X 劃分為包含有???n 個數據記錄的的數據集 T 用于訓練和包含有 (1 ? ??)n個數據記錄的數據集 U 用于分類器選擇。
2.放回抽樣地創建 b 個大小為 |T| 的引導子集。
3.對于每個引導子集 B ,訓練 c 個分類器。
4.在 U 中找到對記錄數據進行最佳分類的 bc 分類器的最優子集。
? ? a)使用多目標遺傳算法來實現,目標函數是最小化如下函數:
? ? ? ? ? ? Ⅰ分類誤差;
? ? ? ? ? ? Ⅱ所選分類器錯誤投票之間的相關性。
? ? b)如果帕累托前沿中包含多個數據點,選擇分類誤差最小的點,根據選擇的分類器數量最小來打破聯系。
5)選擇的分類器子集就是最終的集成。
(論文最終選取b=100,??=0.5)
三、實現目標
1.在使用多數投票來預測選擇分類器的標簽時,找到一組錯誤預測最少的分類器。
2.找到一組分類器,其中每個分類器都盡可能小地做出錯誤預測。
四、目標函數
1.分類誤差函數:
其中,S是訓練的基分類器的集合,U是選擇數據,s(u)是分類器s對數據記錄u的預測標簽。mode()函數是求眾數,進行的操作就是分類器投票。
這個函數就是統計所有基分類器在選擇數據U上的每一個數據u分類錯誤的總數。
2.所選分類器錯誤投票之間的相關性函數:
這個函數的本質上是統計每兩個分類器對同一個數據記錄u分類錯誤的總和。
五、解決問題
1.對于集成分類,多目標優化與單目標優化相比如何?
? ? 對于這個問題,文中給出了表格,表格顯示的是不同的數據集在單目標優化和多目標優化中的分類誤差。
2.集成更傾向于何種類型的基分類器?
? ? 對于這個問題,文中給出了一個表格,顯示出在50次遺傳算法的實驗中選擇的分類器的次數。
要觀察兩項數據:①所選基分類器的數量;②所選基分類器的特定類型。
這兩個數據的選擇很大程度上取決于數據集。對于一些數據集,比如Segmantation需要至少4個基分類器才可以得到一個高精度的集成分類器,對于Waveform需要13.4個才可以達到同樣的高性能。而每個數據集首選的基分類器的類型也有很大不同。總體而言,人工神經網絡(ANN)最適用,但對于一些數據集,比如Segmantation被選次數為0.4。
這個表格中顯示基分類器的平均個數為5.86個,這說明為了創建一個強大的集成分類器,只需要少量的基分類器,遺傳算法大量地減少了基分類器數量,因此對準確性和多樣性的優化會導致基分類器的數量減少。
3.提出的集成算法與最先進的集成算法相比如何?