深度學(xué)習(xí)知識點匯總-目標檢測(1)

8.1 R-FCN

R-FCN屬于two-stage的目標檢測算法。

  • backbone部分RPN,這里使用ResNet。
  • head部分R-FCN,使用全連接網(wǎng)絡(luò)。

其中ResNet-101 + R-FCN的方法在PASCAL VOC 2007測試數(shù)據(jù)集的mmAP達到83.6%。

圖1 人臉檢測

R-FCN的核心思想

  • 得到目標多個特征。
    假設(shè)我們只有一個特征圖用來檢測右眼。那么我們可以使用它定位人臉嗎?應(yīng)該可以。因為右眼應(yīng)該在人臉圖像的左上角,所以我們可以利用這一點定位整個人臉。如果我們還有其他用來檢測左眼、鼻子或嘴巴的特征圖,那么我們可以將檢測結(jié)果結(jié)合起來,更好地定位人臉。
  • 使用全卷積網(wǎng)絡(luò)提高推理速度
    在Faster R-CNN中,檢測器使用了多個全連接層進行預(yù)測。如果有2000個ROI,那么成本非常高。R-FCN通過減少每個ROI所需的工作量實現(xiàn)加速。上面基于區(qū)域的特征圖與ROI是獨立的,可以在每個ROI之外單獨計算。剩下的工作就比較簡單了,因此R-FCN的速度比Faster R-CNN快。
圖2 檢測示意圖

現(xiàn)在我們來看一下5\times5的特征圖M,內(nèi)部包含一個灰色方塊。我們將方塊平均分成3×3個區(qū)域。在M中創(chuàng)建了一個新的特征圖,來檢測方塊的左上角(TL)。這個新的特征圖如圖2(右)所示。只有綠色的網(wǎng)格單元[2,2]處于激活狀態(tài)。

圖3 生成9個得分圖

我們將方塊分成9個部分,由此創(chuàng)建了9個特征圖,每個用來檢測對應(yīng)的目標區(qū)域。這些特征圖叫做位置敏感得分圖(position-sensitive score map),因為每個圖檢測目標的子區(qū)域(計算其得分)。

圖4 vote_array

圖4中紅色虛線矩形是建議的ROI。我們將其分割成3×3個區(qū)域,并詢問每個區(qū)域包含目標對應(yīng)部分的概率是多少。例如,左上角ROI區(qū)域包含左眼的概率。我們將結(jié)果存儲成3×3 vote數(shù)組,如圖4(右)所示。例如,vote_array[0][0]包含左上角區(qū)域是否包含目標對應(yīng)部分的得分。

圖5 position-sensitive ROI-pool

將ROI應(yīng)用到特征圖上,輸出一個3x3數(shù)組。將得分圖和ROI映射到vote數(shù)組的過程叫做位置敏感ROI池化(position-sensitive ROI-pool)。

圖6 ROI池化

將ROI的一部分疊加到對應(yīng)的得分圖上,計算V[i][j]。在計算出位置敏感ROI池化的所有值后,類別得分是其所有元素得分的平均值。

圖7 R-FCN數(shù)據(jù)流圖

假如我們有C個類別要檢測。我們將其擴展為C+1個類別,這樣就為背景(非目標)增加了一個新的類別。每個類別有3×3個得分圖,因此一共有(C+1)×3×3個得分圖。使用每個類別的得分圖可以預(yù)測出該類別的類別得分。然后我們對這些得分應(yīng)用 softmax 函數(shù),計算出每個類別的概率。以下是數(shù)據(jù)流圖,在本案例中,k=3。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容