1. 前言

目前。計算機視覺中的性能最好的目標檢測方法主要分為兩種: one-stage 和two-stage 方法。two-stage方法分為兩步，第一步為候選區域生成階段(Proposal stage),通過如Selective Search、EdgeBoxes等方法可以生成數量相對較小候選目標檢測框；第二步為分類與回歸階段，對第一階段生成的 Candiate Proposal 進行分類和位置回歸。one-stage 代表性的方法是R-CNN系列，如 R-CNN， Fast R-CNN, Faster R-CNN。而one-stage 方法直接對圖像的大量 Candiate Proposals 進行分類與回歸。

這兩類方法中均存在類別不平衡問題，two-stage 方法通過第一步已經將當量的候選區域降低到一個數量較小的范圍，同時又在第二步通過一些啟發式原則，將正負樣本的比例降低到一定程度。而 one-stage 優于沒有這降低候選框的步驟，因此，候選區域的數量大大超過 two-stage 方法，因此，在精度上，two-stage 仍然優于 one-stage 方法，但是在速度和模型復雜度上， one-stage 占優勢。

類別不平衡會使檢測器評估 $10^4-10^6$ 的候選位置，但是通常只有少量的位置存在目標，這回導致兩個問題:

由于大量的 easy negative 對模型的訓練沒有提供很大的作用，因此訓練很低效；
由于在訓練中 easy negatives 在數據中占主導，因此這些樣本會覆蓋少量的正樣本的損失（即負樣本的損失梯度占主導），從而導致模型退化。

因此，解決樣本不平衡問題是提高目標檢測精度的一個關鍵技術之一。

2. OHEM

論文題目：Training Region-based Object Detectors with Online Hard Example Mining

OHEM 是通過改進 Hard Example Mining 方法，使其適應online learning算法特別是基于SGD的神經網絡方法。Hard Example Mining 通過交替地用當前樣本集訓練模型，然后將模型固定，選擇 False Positive 樣本來重新組建用于下一次模型訓練的樣本集。但是因為訓練神經網絡本事就是一個耗時的操作，這樣在訓練中固定模型，這樣會急劇降低模型的訓練進程。

Hard Examples Mining通常有兩種方法：

用于優化 SVM 的方法：該方法首先需要一個工作的樣本集，用來訓練 SVM，使其在該樣本集上收斂，然后通過某些原則來添加或刪除某些樣本以更新該樣本集。該原則是：刪除那些簡單樣本(Easy Examples), 即分類正確的概率高與某個閾值(個人理解，原話The rule removes examples that are “easy” in the sense that they are correctly classified beyond the current model’s margin. Conversely)，添加那些困難那樣本，即分類正確的概率低于某個閾值(the rule adds new examples that are hard in the sense that they violate the current model’s margin)
用于非SVM的方法：該方法首先用完整的數據集中的正樣本和一個隨機的負樣本及來構成開始的訓練樣本集，然后訓練模型使其在該訓練集上收斂，然后完整的數據集中選擇 False Positive 添加到訓練樣本集中。

OHEM算法的大致流程是: 首先計算出每個ROI的loss，然后按loss從高到低來排列每個 ROI，然后為每張圖片選擇 $B/N$ 個損失最高的 ROI 作為Hard Examples，其中 B 表示總的 ROI 數量， $N$ 表示batch-size 的大小，在 Fast R-CNN 中， N=2， B=128時，效果很好。

但是如果直接按照 loss 對所有的 ROI 進行選擇，會有一個缺點，由于 ROI 很多，這樣很多 ROI 的位置就會相關并重疊，如果和某個高 Loss 的 ROI 重合度很高的其它 ROI很多，這樣，這些 ROI 的 Loss 通常也會很多，這樣這些樣本都會被選擇，但是它們可以近似認為時同一個，這樣就會給其它較低 Loss 的 ROI 更少的選擇余地，這樣就會存在冗余。為了消除這種冗余，作者提出先使用 NMS (non-maximum suppression) 刪除部分重合度很高的 ROI，在使用上述方法進行選擇 Hard Example。

實現技巧:

論文，作者將該方法是現在 Fsat R-CNN 目標檢測方法中。最簡單做法是更改損失函數層，損失函數層首先計算所有 ROI 的 loss，然后根據 loss 對 ROI 進行排序，并選擇 hard RoIs，讓那些 non-RoIs的損失變為0. 這種方法雖然很簡單，但是非常不高效，因為還需要為所有的 RoIs 分配進行反向傳播時需要的內存空間。

為了克服這個缺點，作者對下面的 Figure 1 進行改進，如下面的 Figure 2.該改進時使用兩份同樣的 RoI network。其中一個是只讀的(readonly), 即只進行前向計算，不進行反向傳播優化，所以只需要為前向傳播分配內存，它的參數實時保持和另一個 RoI network（regular RoI network)保持一樣。在每次迭代時，首先使用 readonly RoI network 對每個 ROI 計算起 loss，然后用上面描述的選擇 hard RoIs 的方法選擇 hard RoIs. 然后利用 regular RoI network來對選擇的 hard RoIs 進行前向和后向計算來優化網絡。

imbalance_01.png

imbalance_02.png

3. Focal Loss

論文題目 Focal Loss for Dense Object Detection

3.1 Cross Entropy

在改論文中，作者認為樣本類別的不平衡可以歸結為難易樣本的不平衡，從而更改交叉熵損失函數，重新對樣本賦予不同的權值，之前的模型這些樣本都是同等重要的，從而使模型訓練更加關注 hard examples。

首先引入交叉熵的公式:

$CE(p, y)=\begin{cases} -\log (p), \quad if \quad y == 1 \\ -\log(1-p), \quad otherwise \end{cases} \tag{公式1}$

其中， $y\in\{-1, 1\}$ ,表示真實類別， $p\in[0,1]$ 表示我們預測的概率，為了方便，我們定義:

$p_t=\begin{cases} p, \quad if \quad y == 1 \\ 1-p, \quad otherwise \end{cases} \tag{公式2}$

因此， $CE(p,y)=CE(p_t)=-\log(p_t)$ ,該方法在 $p_t$ 較大時，該loss是一個較小的量級，如下圖的連線所示所示，因為存在大量的易分類樣本，相加后會淹沒正樣本的loss。

imbalance_03.png

3.2 Balanced Cross Entropy

一個常見的解決類別不平衡的方式是引入一個加權因子 $\alpha \in [0,1]$ 來表示正樣本的權重， $1-\alpha$ 表示負樣本的權重。我們按照定義 $p_t$ 的方法重新定義 $\alpha$ 為 $\alpha_t$ , $\alpha-balance\quad CE \quad loss$ 定義如下:

$CE(p,y)=CE(p_t)=-\alpha_t\log(p_t) \tag{公式3}$

3.3 Focal Loss

$\alpha-balance\quad CE \quad loss$ 雖然可以平衡 positive和negative的重要性，但是對 easy/hard 樣本還是無法區分， Focal loss 通過更 Cross loss來達到區分easy/hard的目的:

$FL(p_t)=-(1-p_t)^\gamma\log(p_t) \tag{公式4}$

上圖展示了不同 $\gamma$ 取值對應的 loss，通過分析上述公式，我們發現，當 $p_t$ 非常小時，即樣本被分類錯誤，此時 $(1-p_t)^\gamma$ 接近1， loss幾乎不受影響，當 $p_t$ 接近于1時，即樣本被分類正確，此時 $(1-p_t)^\gamma$ 接近0，此時降低了該樣本的權重，比如，取 $\gamma=2$ , 當時 $p_t==0.9$ 時，該樣本的 loss 會降低100倍，

在實際應用中，作者使用了該 Focal loss的變體，即加入了 $\alpha$ 平衡因子:

$FL(p_t)=-\alpha_t(1-p_t)^\gamma\log(p_t) \tag{公式5}$

3.4 模型初始化

作者提出，對于二分類，一般模型的模型初始化會同概率的對待正負樣本，由于類別不平衡，負樣本的 loss 會占主導，作者提出在訓練初始階段對正樣本的概率估計“prior”的概念，用 $\pi$ 表示，通過設置它來達到正樣本的輸出概率低的效果，比如為0.01，從而使模型更加關注正樣本。實際操作中，出了最后一個用于分類的卷積層，其余卷積層的參數初始化為bias $b=0$ ，而最后一層 $b=-\log((1-\pi)/\pi)$ , 實驗中設置為 0.01.

兩個實現細節

計算 total loss 時，是對一張圖片上所有的 ~100k 的anchors 的 focal loss求和，而并不像使用啟發式的 RPN 和 OHEM 使用部分小的anchors來計算 loss。然后通過擁有 gt box 的anchors的數量來進行歸一化，不適用所有 anchors 的數量進行歸一化的原因是: 由于anchors 存在大量的 easy examples，因此得到的 Focal loss非常小，如果使用所有 anchors 的數量進行歸一化，回導致歸一化后的 loss 非常小。
當只使用 $\alpha$ 時，將 $\alpha$ 偏向樣本少的類別，當同時使用 $\alpha 和 \gamma$ 時，他們需要向相反方向變化，論文中設置為 $\alpha=0.25，\gamma=2$ .

4.GHM(Gradient Harmonizing Mechanism)

論文題目: Gradient Harmonized Single-stage Detector

改論文提出 Focal Loss 存在兩個缺點:

loss 存在兩個超參數，調節該參數是一個費力的操作；
該 loss 是一個不會隨著數據分布變化而變化的靜態 loss。

該論文有一句概括該篇論文的核心思想的一句話: 類別的不平衡可以歸結為難易樣本的不平衡，難易樣本的不平衡可以歸結為梯度的不平衡原話如下:

In this work, we first point out that the class imbalance can be summarized to the imbalance in difficulty and the imbalance in difficulty can be summarized to the imbalance in gradient norm distribution.

如下圖所示:

imbalance_04.png

左邊是樣本數量關于梯度的分布，中間表示各個修正后的函數的梯度（使用了log scale）對原始梯度的，右邊表示所有樣本集的梯度貢獻的分布。

4.1 Cross Entropy

$L_{CE}(p, p^*)=\begin{cases} -\log (p), \quad if \quad p^* == 1 \\ -\log(1-p), \quad if \quad p^* == 0 \end{cases} \tag{公式6}$

定義 $x$ 是模型未經過 sigmoid 之前的輸出，則 $p = sigmoid(x)$ ,得出該損失函數對 $x$ 的梯度為:

$\begin{aligned} \frac{\partial L_{CE}(p, p^*)}{\partial x} &=\begin{cases} p - 1, \quad if \quad p^* == 1 \\ p, \quad if \quad p^* == 0 \end{cases} \\ &= p - p^* \end{aligned} \tag{公式7}$

定義梯度的模長(norm) $g$ 為：
$g=|p-p^*|=\begin{cases} 1-p, \quad if \quad p^* == 1 \\ p, \quad if \quad p^* == 0 \end{cases} \tag{公式6}$

4.2 梯度密度(Gradient Density)

訓練樣本的梯度密度(Gradient Density)定義如下:

$GD(g)=\frac{1}{l_\epsilon}\sum_{k=1}^{N}\delta_{\epsilon}(g_k, g) \tag{公式7}$

其中， $g_k$ 是第 k 個樣本的gradient norm，

$\delta_{\epsilon}(x, y)=\begin{cases} 1, \quad if \quad y-\frac{\epsilon}{2} \le x < y + \frac{\epsilon}{2} \\ 0, \quad if \quad otherwise \end{cases} \tag{公式8}$

$l_{\epsilon}(g) = min(g+\frac{\epsilon}{2}, 1) - max(g-\frac{\epsilon}{2}, 0) \tag{公式9}$

這個公式可以理解為，以梯度 $g$ 為中心，寬度為 $\epsilon$ 的區域內的樣本密度。

梯度密度協調參數:

$\beta_i=\frac{N}{GD(g_i)} = \frac{1}{GD(g_1)/N} \tag{公式10}$

分母是對梯度位于 $g_i$ 范圍的部分樣本進行歸一化，如果所有樣本的梯度時均分分布，那么對于任意 $g_i$ 都有 $GD(g_i)=N$ .(這里不是很理解為什么N，可以理解它們相等)

通過將梯度密度協調參數將 GHM 嵌入到損失函數中，則 GHM-C Loss 為:

$\begin{aligned} L_{GHM-C}&=\frac{1}{N}\sum_{i=1}^{N}\beta_iL_{CE}(p_i, p_i^*) \\ &=\sum_{i=1}^{N}\frac{L_{CE}(p_i, p_i^*)}{GD(g_i)} \end{aligned} \tag{公式11}$

4.3 Unit Region Approximation

計算公式11時，求和有一個N，再求 $GD(g_i)$ 時會遍歷所有的樣本，因此該公式的時間復雜度為 $O(N^2)$ .如果并行的化，每個計算單元也有N的計算量。對gradient norm進行排序的最好的算法復雜度為 $O(N\log N)$ ，然后用一個隊列去掃描樣本得到梯度密度的時間復雜度為 n 。基于排序的方法即使并行也不能較快的計算，因為N往往是 $10^5$ 甚至 $10^6$ ，仍然是非常耗時的.

作者提出的近似求解的方法如下:

將 g 劃分為 $M=\frac{1}{\epsilon}$ 個單元
$r_j=[(j-1)\epsilon, j\epsilon]$ 表示第 j 個單元， $R_j$ 表示 $r_j$ 中的樣本數量， $ind(g)=t$ 表示 $g$ 屬于第幾個 unit。

根據上述定義，得出近似梯度密度函數為:

$\hat {GD}(g)=\frac{R _{ind(g)}}{\epsilon}=ind(g)m \tag{公式12}$

$\hat {\beta_i}=\frac{N}{\hat {GD}(g_i)} \tag{公式13}$

$\begin{aligned} \hat L_{GHM-C}&=\frac{1}{N}\sum_{i=1}^{N}\hat \beta_iL_{CE}(p_i, p_i^*) \\ &=\sum_{i=1}^{N}\frac{L_{CE}(p_i, p_i^*)}{\hat {GD}(g_i)} \end{aligned} \tag{公式14}$

利用上面的公式，由于我們可以事先求好 $\hat \beta$ , 在求和時只需查找 $\hat \beta_i$ 即可，因此時間復雜度為 $O(MN)$ .

因為loss的計算是基于梯度密度函數，而梯度密度函數根據一個batch中的數據得到，一個batch的統計結果是有噪聲的。與batch normalization相同，作者用Exponential moving average來解決這個問題，也就是

$\begin{aligned} S_{j}^{(t)} &= \alpha S_{j}^{(t-1)} + (1-\alpha) R_J^{(t)} \\ \hat GD(g) &= \frac{S_{ind(g)}}{\epsilon} = S_{ind(g)}M \end{aligned} \tag{公式15}$

4.4 GHM-R Loss

將模型魚的的偏移量定義為 $t=(t_x, t_y, t_w, t_h)$ , 將真實的偏移量定義為 $t^*=(t_x^*, t_y^*, t_w^*, t_h^*)$ ,回歸loss采用 Smooth L1 loss:

$L_{reg}=\sum_{i\in{x, y, w, h}}SL_1(t_i-t_i^*) \tag{公式16}$

其中
$SL_1(d)=\begin{cases} \frac{d_2}{2\delta} \quad if |d|\le\delta \\ |d|-\frac{\delta}{2} \quad otherwise \end{cases} \tag{公式17}$

則 $L_{reg}$ 關于 $d=t_i-t_i^*$ 的梯度為:

$\frac{\partial SL_1}{\partial t_i}=\frac{\partial SL_1}{\partial d}\begin{cases} \fraca11ggx3{\delta} \quad if |d| \le \delta \\ sgn(d) \quad otherwise \end{cases} \tag{18}$

從公式可以看出，當樣本操作 $|d|$ 時，所有樣本都有相同的梯度 1，這就使依賴梯度范數來區分不同樣本是不可能的，一種簡單的替代方法時直接使用 $|d|$ 作為衡量標準，但是該值理論上無限大，導致 $Unit Region Approximation$ 無法實現，

為了將 GHM 應用到回歸損失上，作者修改了原始的 $SL_1$ 損失函數:

$ASL_1(d) = \sqrt{d_2+u^2}-u \tag{19}$

該函數和 $SL_1$ 具有類似的屬性，當d的絕對值很小時，近似 L2 loss，當d的絕對值比較大時，近似 L1 loss， $ASL_1$ 關于d的梯度為:

$\frac{\partial ASL_1}{\partial d} = \fracbxdifz6{\sqrt{d^2+u^2}} \tag{20}$

這樣就將梯度值限制在 $[0,1)$

定義 $dr=|\frac163a9d8{\sqrt{d^2+u^2}}|$ , 則 GHM-R Loss 為:

$\begin{aligned} L_{GHM-R}&=\frac{1}{N}\sum_{i=1}^N\beta_i ASL_1(d_i) \\ &=\sum_{i=1}^N\frac{ASL_1(d_i)}{GD(gr_i)} \end{aligned} \tag{21}$

5.PISA

論文題目: Prime Sample Attention in Object Detection

PISA 方法和 Focal loss 和 GHM 有著不同， Focal loss 和 GHM 是利用 loss 來度量樣本的難以程度，而本篇論文作者從 mAP 出法來度量樣本的難易程度。

作者提出提出改論文的方法考慮了兩個方面:

樣本之間不應該是相互獨立的或同等對待。基于區域的目標檢測是從大量候選框中選取一小部分邊界框，以覆蓋圖像中的所有目標。因此，不同樣本的選擇是相互競爭的，而不是獨立的。一般來說，檢測器更可取的做法是在確保所有感興趣的目標都被充分覆蓋時，在每個目標周圍的邊界框產生高分，而不是對所有正樣本產生高分。作者研究表明關注那些與gt目標有最高IOU的樣本是實現這一目標的有效方法。
目標的分類和定位是有聯系的。準確定位目標周圍的樣本非常重要，這一觀察具有深刻的意義，即目標的分類和定位密切相關。具體地，定位好的樣本需要具有高置信度好的分類。

5.1 Prime Samples

Prime Samples 是指那些對檢測性能有著巨大影響的樣本。作者研究表明樣本的重要程度依賴于它和ground truth 的 IoU值，因此作者提出了一種 IOU-HLR 排序。

在目標檢測中時如何定義正樣本（True Positive)的呢？

Bouding box 和他最近的 GT 的IoU 大于一個閾值 $\theta$ ；
如果該 GT 沒有大于閾值的 Bouding Box，則選擇最大的 IoU。

剩余的標注為負樣本。

mAP 的原理揭露了對目標檢測器更重要的兩個準則:

在所有和gt目標重合的邊界框中，IoU最高的邊界框時最重要的，因為它的IoU值直接影響召回率。
所有不同目標的最高IoU邊界框中,具有更高的IoU的邊界框更加重要,因為它是隨著 $\theta$ 增加最后一個低于閾值 $\theta$ 的邊界框,從而對整體精度有很大的影響。

5.2 IoU Hierarchical Local Rank (IoU-HLR)

基于上述分析，作者提出了一種稱為 IoU-HLR 的排序方法，它既反映了局部的IoU關系(每個ground truth目標周圍)，也反映了全局的IoU關系(覆蓋整個圖像或小批圖像)。值得注意的是，不同于回歸前的邊界框坐標，IoU-HLR是根據樣本的最終定位位置來計算的，因為mAP是根據回歸后的樣本位置來計算的。

該排序方法的大致流程如下圖所示，其原理如下:

首先將所有的樣本根據理他最近的 GT ，將他們分到不同的組；
然后在每個組內，按照 IoU對它們進行降序排列，我們得到 IoU Local Rank（IoU-LR);
我們對 IoU-LR,進行采樣，即將每個組內的TOP1的樣本采樣出來放在一個組，以此類推對 TOP2, TOP3，一次進行；
最后對上面采樣的樣本，在每個組內進行降序排序，就得到最終的 IoU-HLR.

IoU-HLR遵循上述兩個準則。首先，它通過局部排序（即上面的步驟2）將每個單獨的 GT 的對應的樣本中 IoU 較高的樣本放在前面，其次通過重采樣和排序(步驟3， 4)將不同 GT 的對應的樣本中，將 IoU 較高的放在了前面。

imbalance_05.png

5.3 Learn Detectors via Prime Sample Attention

作者提出Prime Sample Attention，一種簡單且有效的采樣策略，該采樣策略將更多的注意力集中到 Prime examples 上， PISA 由兩部分組成: Importance- based Sample Reweighting(ISR)和Classification Aware Regression Loss(為CARL).

PISA 的訓練過程是基于 prime samples 而不是同等對待所有樣本。

首先 prime samples 的權重要大于其他樣本的權重，所以分類往往在這些樣本上預測更高的分數；
用一個聯合目標函數來對分類器和回歸其進行學習，因此prime sample的分數相對于不重要樣本的分數將會得到提高。

5.3.1 Importance-based Sample Reweighting

作者提出一種基于 soft sampling 的方法: Importance-based Sample Reweighting (ISR), 他給不同樣本根據重要性賦予不同的權重。首先它將Iou-HLR排序轉化為線性映射的真實值。 IoU-HLR在每個類中分別進行計算。對于類 $j$ , 假設總共有 $n_j$ 個樣本，通過 IoU-HLR 表示為 $\{r_1,r_2,\cdots,r_{n_j} \}$ . 其中 $0 \le r_i \le n_j -1$ ,使用一個線性轉換函數將 $r_i$ 轉換為 $u_i$ , 表示第 $j$ 類中的第 $i$ 個樣本的重要程度:
$u_i = \frac{n_j-r_i}{n_j} \tag{22}$

采用指數函數的形式來京一部將樣本重要性 $u_i$ 轉換為 loss 的權值 $w_i$ , $\gamma$ 表示對重要樣本給予多大的優先權的程度因子， $\beta$ 決定最小樣本權值的偏差(感覺就是一個決定最小的權值大小的一個變量)。

$w_i=((1-\beta)u_i + \beta)^\gamma \tag{23}$

根據上面得到的權重值，重寫交叉熵:

$\begin{aligned} L_{cls} &= \sum_{i=1}^{n}w_i^{'}CE(s_i, s_i^*) + \sum_{i=n+1}^{m}CE(s_i, s_i^*) \\ w_i^{'} &= w_i \frac{\sum_{i=1}^{n}CE(s_i, s_i^*)}{\sum_{i=1}^{n}w_iCE(s_i, s_i^*)} \end{aligned} \tag{24}$

其中 n 和 m 分別表示真樣本和負樣本的數量， $s_i$ 和 $s_i^*$ 分別表示預測分數和分類目標，需要注意的是，如果只是簡單的添加 loss 權值將會改變 loss 的值，并改變正負樣本的比例，因此為了保持正樣本的總的 loss 值不變，作者將 $w_i$ 歸一化為 $w_i^{'}$
(這里不是很理解，歡迎大家解惑)

5.3.2 Classification-Aware Regression Loss

5.3.1 已經介紹如何染個分類器知道 prime samples，那么如何讓回歸其也知道 prime sample，作者提出了 Classification-Aware Regression Loss（CARL) 來聯合優化分類器和回歸其兩個分支。CARL可以提升主要樣本的分數，同時抑制其他樣本的分數。回歸質量決定了樣本的重要性，我們期望分類器對重要樣本輸出更高的分數。兩個分支的優化應該是相互關聯的，而不是相互獨立的。

作者的方法是讓回歸器知道分類器的分數，這樣梯度就可以從回歸器傳播到分期其分支。公式如下:

$\begin{aligned} L_{reg} &=\sum_{i=1}^n c_i^{'}\mathcal{L}(d_i, \hat d_i) \\ c_i^{'} &= c_i \frac{\sum_{i=1}^{n}\mathcal{L}(s_i, s_i^*)}{\sum_{i=1}^{n}c_i\mathcal{L}(s_i, s_i^*)} \\ c_i &= \frac{v_i}{\frac{1}{n}\sum_{i=1}^{n}v_i} \\ v_i &= ((1-b)p_i +b)^k \end{aligned} \tag{25}$

$p_i$ 表示相應類別的預測分數， $d_i$ 表示輸出的回歸偏移量。利用一個指數函數將 $p_i$ 轉化為 $v_i$ ，隨后根據所有樣本的平均值對它進行縮放。為了保持損失規模不變，對具有分類感知的 $c_i$ 進行歸一化。 $\mathcal{L}$ 是常用的smooth L1 loss。

$L_{reg}$ 關于 $c_i^{'}$ 的梯度與原回歸損失 $\mathcal{L}(d_i, \hat d_i)$ 成正比。 $L_{reg} 關于$ p_i $的梯度與$ \mathcal{L}(d_i, \hat d_i) $正相關。即回歸損失越大的樣本分類得分的梯度越大，說明對分類得分的抑制作用越強。從另一個角度看，$ \mathcal{L}(d_i, \hat d_i)$ 反映了樣本i的定位質量，因此可以認為是一個IoU的估計，進一步可以看作是一個IoU-HLR的估計。可以近似認為，排序靠前的樣本有較低的回歸損失，于是分類得分的梯度較小。對于CARL來說，分類分支受到回歸損失的監督。不重要樣本的得分被極大的抑制掉，而對重要樣本的關注得到加強。

6.AP-Loss

待續。。。

7.總結

上面的方法大致可以分為兩種：

Hard Sampling: 從所有樣本中選擇自己來訓練模型: hard negative mining, OHEM
Soft sampling：為樣本賦予不同的權值: Focal Loss, GHM, PISA

Focal Loss認為正負樣本的不平衡，本質上是因為難易樣本的不平衡，于是通過修改交叉熵，使得訓練過程更加關注那些困難樣本，而GHM在Focal Loss的基礎上繼續研究，發現難易樣本的不平衡本質上是因為梯度范數分布的不平衡，和Focal Loss的最大區別是GHM認為最困難的那些樣本應當認為是異常樣本，讓檢測器強行去擬合異常樣本對訓練過程是沒有幫助的。PISA則是跳出了Focal Loss的思路，認為采樣策略應當從mAP這個指標出發，通過IoU Hierarchical Local Rank (IoU-HLR)，對樣本進行排序并權值重標定，從而使得recall和precision都能夠提升。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

目標檢測中的樣本不平衡處理方法——OHEM, Focal Loss, GHM, PISA

目標檢測中的樣本不平衡處理方法——OHEM, Focal Loss, GHM, PISA

1. 前言

2. OHEM

3. Focal Loss

3.1 Cross Entropy

3.2 Balanced Cross Entropy

3.3 Focal Loss

3.4 模型初始化

4.GHM(Gradient Harmonizing Mechanism)

4.1 Cross Entropy

4.2 梯度密度(Gradient Density)

4.3 Unit Region Approximation

4.4 GHM-R Loss

5.PISA

5.1 Prime Samples

5.2 IoU Hierarchical Local Rank (IoU-HLR)

5.3 Learn Detectors via Prime Sample Attention

5.3.1 Importance-based Sample Reweighting

5.3.2 Classification-Aware Regression Loss

6.AP-Loss

7.總結

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

目標檢測中的樣本不平衡處理方法——OHEM, Focal Loss, GHM, PISA

1. 前言

2. OHEM

3. Focal Loss

3.1 Cross Entropy

3.2 Balanced Cross Entropy

3.3 Focal Loss

3.4 模型初始化

4.GHM(Gradient Harmonizing Mechanism)

4.1 Cross Entropy

4.2 梯度密度(Gradient Density)

4.3 Unit Region Approximation

4.4 GHM-R Loss

5.PISA

5.1 Prime Samples

5.2 IoU Hierarchical Local Rank (IoU-HLR)

5.3 Learn Detectors via Prime Sample Attention

5.3.1 Importance-based Sample Reweighting

5.3.2 Classification-Aware Regression Loss

6.AP-Loss

7.總結

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频