文章題目:基于SVM的多示例多標簽主動學習
作者:李杰龍,肖燕珊,郝志峰,阮奕邦,張麗陽
來源:計算機工程與設計? 2016年1月
文章主要內容
本文提出一種基于支持向量機最小分類距離的多示例多標簽主動學習方法。
學習點
1、支持向量機SVM與主動學習相結合。
支持向量機SVM,基于統計學習理論,充分考慮結構風險的最小化的基礎上發展起來的一種機器學習分類方法。
主動學習,能通過迭代抽樣,尋找最有利于改善分類效果的樣本,在現有的知識下,利用盡可能少的訓練樣本獲得分類性能較高的分類器。
2、基于SVM最小分類距離的主動學習策略。
把分類器的訓練過程看作一個循環迭代的過程,每次迭代通過計算多示例包距離每個分類器的超平面的距離和對分類器的可信度作為選擇策略,從未標記多示例包中尋找最“有用”的多示例包進行標注,然后加入到訓練集中,循環迭代,直到分類器達到某一精度或滿足設定的循環次數時停止。
3、實驗
數據:Corel圖像數據集及Reuters文本數據集
評價指標:漢明損失,1-錯誤率、覆蓋率,排序損失,平均精度。
漢明損失:該指標度量預測標簽與樣本實際標簽之間的不一致程度,即樣本的標簽被錯誤分類的平均次數。
1-錯誤率:該指標主要度量在樣本標簽排序序列中,隸屬度最高的標簽不是樣本正確標簽的可能性。
覆蓋率:該指標主要度量樣本標簽排序序列中,樣本正確標簽中隸屬度最低的平均排名。
排序損失:該指標主要計算樣本標簽排序序列中,預測標簽集與實際標簽集rank排名被排錯的平均次數。
平均精度:該指標主要計算標簽排序序列中,實際分類標簽在預測分類標簽rank排序的平均值。
(1)Corel圖像數據集
2000張自然場景圖像,利用SBN的方法,每個圖像被分割成若干個子區域,每個子區域用一個15維度的特征向量表示,每個子區域對象組成該圖的示例包,每個包對應5個類別標簽,沙漠、山、海、日落、樹木。
隨機選取若干個多示例包作為初始訓練集,每次迭代選取1個示例包加入訓練集重新訓練分類器,迭代若干次后,停止,得到結果。
(2)Reuters文本數據集
2000個文本,即2000個示例包,7個標簽類別。與(1)中,過程相同。