對于二分類問題:
1.基于抽樣的方法
1.1不充分抽樣,類別多的數據只抽部分數據
1.2過分抽樣,類別少的數據進行復制樣本,直到兩類數據量很接近
缺點:
1.過分抽樣 ,對噪聲數據可能出現過擬合
1.3 兩者相結合的方式
其他:
1.過分抽樣,可以通過復雜該類樣本數據,或者在已有的該類樣本的鄰域中產生新的樣本實現
2.不過分抽樣,通過最近鄰使得抽出的樣本密度上比較接近,這樣可以去除噪聲點的影響
題目
在分類問題中,我們經常會遇到正負樣本數據量不等的情況,比如正樣本為10w條數據,負樣本只有1w條數據,以下最合適的處理方法是()
A、將負樣本重復10次,生成10w樣本量,打亂順序參與分類
B、直接進行分類,可以最大限度利用數據
C、從10w正樣本中隨機抽取1w參與分類
D、將負樣本每個權重設置為10,正樣本權重為1,參與訓練過程
重采樣、欠采樣、調整權值
1. 重采樣。
A可視作重采樣的變形。改變數據分布消除不平衡,可能導致過擬合。
2. 欠采樣。
C的方案提高少數類的分類性能,可能丟失多數類的重要信息。
如果1:10算是均勻的話,可以將多數類分割成為1000份。然后將每一份跟少數類的樣本組合進行訓練得到分類器。而后將這1000個分類器用assemble的方法組合位一個分類器。A選項可以看作此方式,因而相對比較合理。
另:如果目標是 預測的分布 跟訓練的分布一致,那就加大對分布不一致的懲罰系數。
3. 權值調整。
然而答案確說是選A,為什么?不理解