不平衡類問題

對于二分類問題:
1.基于抽樣的方法

1.1不充分抽樣,類別多的數據只抽部分數據

1.2過分抽樣,類別少的數據進行復制樣本,直到兩類數據量很接近

缺點:

1.過分抽樣 ,對噪聲數據可能出現過擬合

1.3 兩者相結合的方式

其他:

1.過分抽樣,可以通過復雜該類樣本數據,或者在已有的該類樣本的鄰域中產生新的樣本實現

2.不過分抽樣,通過最近鄰使得抽出的樣本密度上比較接近,這樣可以去除噪聲點的影響

題目

在分類問題中,我們經常會遇到正負樣本數據量不等的情況,比如正樣本為10w條數據,負樣本只有1w條數據,以下最合適的處理方法是()

A、將負樣本重復10次,生成10w樣本量,打亂順序參與分類

B、直接進行分類,可以最大限度利用數據

C、從10w正樣本中隨機抽取1w參與分類

D、將負樣本每個權重設置為10,正樣本權重為1,參與訓練過程

重采樣、欠采樣、調整權值

1. 重采樣。

A可視作重采樣的變形。改變數據分布消除不平衡,可能導致過擬合。

2. 欠采樣。

C的方案提高少數類的分類性能,可能丟失多數類的重要信息。

如果1:10算是均勻的話,可以將多數類分割成為1000份。然后將每一份跟少數類的樣本組合進行訓練得到分類器。而后將這1000個分類器用assemble的方法組合位一個分類器。A選項可以看作此方式,因而相對比較合理。

另:如果目標是 預測的分布 跟訓練的分布一致,那就加大對分布不一致的懲罰系數。

3. 權值調整。


然而答案確說是選A,為什么?不理解

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容