Faster R-CNN論文翻譯——中文版

文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書

聲明:作者翻譯論文僅為學習,如有侵權(quán)請聯(lián)系作者刪除博文,謝謝!

翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

摘要

最先進的目標檢測網(wǎng)絡(luò)依靠區(qū)域提出算法來假設(shè)目標的位置。SPPnet[1]和Fast R-CNN[2]等研究已經(jīng)減少了這些檢測網(wǎng)絡(luò)的運行時間,使得區(qū)域提出計算成為一個瓶頸。在這項工作中,我們引入了一個區(qū)域提出網(wǎng)絡(luò)(RPN),該網(wǎng)絡(luò)與檢測網(wǎng)絡(luò)共享全圖像的卷積特征,從而使近乎零成本的區(qū)域提出成為可能。RPN是一個全卷積網(wǎng)絡(luò),可以同時在每個位置預(yù)測目標邊界和目標分數(shù)。RPN經(jīng)過端到端的訓練,可以生成高質(zhì)量的區(qū)域提出,由Fast R-CNN用于檢測。我們將RPN和Fast R-CNN通過共享卷積特征進一步合并為一個單一的網(wǎng)絡(luò)——使用最近流行的具有“注意力”機制的神經(jīng)網(wǎng)絡(luò)術(shù)語,RPN組件告訴統(tǒng)一網(wǎng)絡(luò)在哪里尋找。對于非常深的VGG-16模型[3],我們的檢測系統(tǒng)在GPU上的幀率為5fps(包括所有步驟),同時在PASCAL VOC 2007,2012和MS COCO數(shù)據(jù)集上實現(xiàn)了最新的目標檢測精度,每個圖像只有300個提出。在ILSVRC和COCO 2015競賽中,F(xiàn)aster R-CNN和RPN是多個比賽中獲得第一名輸入的基礎(chǔ)。代碼可公開獲得。

1. 引言

目標檢測的最新進展是由區(qū)域提出方法(例如[4])和基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)[5]的成功驅(qū)動的。盡管在[5]中最初開發(fā)的基于區(qū)域的CNN計算成本很高,但是由于在各種提議中共享卷積,所以其成本已經(jīng)大大降低了[1][2]。忽略花費在區(qū)域提議上的時間,最新版本Fast R-CNN[2]利用非常深的網(wǎng)絡(luò)[3]實現(xiàn)了接近實時的速率?,F(xiàn)在,提議是最新的檢測系統(tǒng)中測試時間的計算瓶頸。

區(qū)域提議方法通常依賴廉價的特征和簡練的推斷方案。選擇性搜索[4]是最流行的方法之一,它貪婪地合并基于設(shè)計的低級特征的超級像素。然而,與有效的檢測網(wǎng)絡(luò)[2]相比,選擇性搜索速度慢了一個數(shù)量級,在CPU實現(xiàn)中每張圖像的時間為2秒。EdgeBoxes[6]目前提供了在提議質(zhì)量和速度之間的最佳權(quán)衡,每張圖像0.2秒。盡管如此,區(qū)域提議步驟仍然像檢測網(wǎng)絡(luò)那樣消耗同樣多的運行時間。

有人可能會注意到,基于區(qū)域的快速CNN利用GPU,而在研究中使用的區(qū)域提議方法在CPU上實現(xiàn),使得運行時間比較不公平。加速提議計算的一個顯而易見的方法是將其在GPU上重新實現(xiàn)。這可能是一個有效的工程解決方案,但重新實現(xiàn)忽略了下游檢測網(wǎng)絡(luò),因此錯過了共享計算的重要機會。

在本文中,我們展示了算法的變化——用深度卷積神經(jīng)網(wǎng)絡(luò)計算區(qū)域提議——導致了一個優(yōu)雅和有效的解決方案,其中在給定檢測網(wǎng)絡(luò)計算的情況下區(qū)域提議計算接近領(lǐng)成本。為此,我們引入了新的區(qū)域提議網(wǎng)絡(luò)(RPN),它們共享最先進目標檢測網(wǎng)絡(luò)的卷積層[1],[2]。通過在測試時共享卷積,計算區(qū)域提議的邊際成本很?。ɡ纾繌垐D像10ms)。

我們的觀察是,基于區(qū)域的檢測器所使用的卷積特征映射,如Fast R-CNN,也可以用于生成區(qū)域提議。在這些卷積特征之上,我們通過添加一些額外的卷積層來構(gòu)建RPN,這些卷積層同時在規(guī)則網(wǎng)格上的每個位置上回歸區(qū)域邊界和目標分數(shù)。因此RPN是一種全卷積網(wǎng)絡(luò)(FCN)[7],可以針對生成檢測區(qū)域建議的任務(wù)進行端到端的訓練。

RPN旨在有效預(yù)測具有廣泛尺度和長寬比的區(qū)域提議。與使用圖像金字塔(圖1,a)或濾波器金字塔(圖1,b)的流行方法[8],[9],[1]相比,我們引入新的“錨”盒作為多種尺度和長寬比的參考。我們的方案可以被認為是回歸參考金字塔(圖1,c),它避免了枚舉多種比例或長寬比的圖像或濾波器。這個模型在使用單尺度圖像進行訓練和測試時運行良好,從而有利于運行速度。

Figure 1

圖1:解決多尺度和尺寸的不同方案。(a)構(gòu)建圖像和特征映射金字塔,分類器以各種尺度運行。(b)在特征映射上運行具有多個比例/大小的濾波器的金字塔。(c)我們在回歸函數(shù)中使用參考邊界框金字塔。

為了將RPN與Fast R-CNN 2]目標檢測網(wǎng)絡(luò)相結(jié)合,我們提出了一種訓練方案,在微調(diào)區(qū)域提議任務(wù)和微調(diào)目標檢測之間進行交替,同時保持區(qū)域提議的固定。該方案快速收斂,并產(chǎn)生兩個任務(wù)之間共享的具有卷積特征的統(tǒng)一網(wǎng)絡(luò)。

我們在PASCAL VOC檢測基準數(shù)據(jù)集上[11]綜合評估了我們的方法,其中具有Fast R-CNN的RPN產(chǎn)生的檢測精度優(yōu)于使用選擇性搜索的Fast R-CNN的強基準。同時,我們的方法在測試時幾乎免除了選擇性搜索的所有計算負擔——區(qū)域提議的有效運行時間僅為10毫秒。使用[3]的昂貴的非常深的模型,我們的檢測方法在GPU上仍然具有5fps的幀率(包括所有步驟),因此在速度和準確性方面是實用的目標檢測系統(tǒng)。我們還報告了在MS COCO數(shù)據(jù)集上[12]的結(jié)果,并使用COCO數(shù)據(jù)研究了在PASCAL VOC上的改進。代碼可公開獲得https://github.com/shaoqingren/faster_rcnn(在MATLAB中)和https://github.com/rbgirshick/py-faster-rcnn(在Python中)。

這個手稿的初步版本是以前發(fā)表的[10]。從那時起,RPN和Faster R-CNN的框架已經(jīng)被采用并推廣到其他方法,如3D目標檢測[13],基于部件的檢測[14],實例分割[15]和圖像標題[16]。我們快速和有效的目標檢測系統(tǒng)也已經(jīng)在Pinterest[17]的商業(yè)系統(tǒng)中建立了,并報告了用戶參與度的提高。

在ILSVRC和COCO 2015競賽中,F(xiàn)aster R-CNN和RPN是ImageNet檢測,ImageNet定位,COCO檢測和COCO分割中幾個第一名參賽者[18]的基礎(chǔ)。RPN完全從數(shù)據(jù)中學習提議區(qū)域,因此可以從更深入和更具表達性的特征(例如[18]中采用的101層殘差網(wǎng)絡(luò))中輕松獲益。Faster R-CNN和RPN也被這些比賽中的其他幾個主要參賽者所使用。這些結(jié)果表明,我們的方法不僅是一個實用合算的解決方案,而且是一個提高目標檢測精度的有效方法。

2. 相關(guān)工作

目標提議。目標提議方法方面有大量的文獻。目標提議方法的綜合調(diào)查和比較可以在[19],[20],[21]中找到。廣泛使用的目標提議方法包括基于超像素分組(例如,選擇性搜索[4],CPMC[22],MCG[23])和那些基于滑動窗口的方法(例如窗口中的目標[24],EdgeBoxes[6])。目標提議方法被采用為獨立于檢測器(例如,選擇性搜索[4]目標檢測器,R-CNN[5]和Fast R-CNN[2])的外部模塊。

用于目標檢測的深度網(wǎng)絡(luò)。R-CNN方法[5]端到端地對CNN進行訓練,將提議區(qū)域分類為目標類別或背景。R-CNN主要作為分類器,并不能預(yù)測目標邊界(除了通過邊界框回歸進行細化)。其準確度取決于區(qū)域提議模塊的性能(參見[20]中的比較)。一些論文提出了使用深度網(wǎng)絡(luò)來預(yù)測目標邊界框的方法[25],[9],[26],[27]。在OverFeat方法[9]中,訓練一個全連接層來預(yù)測假定單個目標定位任務(wù)的邊界框坐標。然后將全連接層變成卷積層,用于檢測多個類別的目標。MultiBox方法[26],[27]從網(wǎng)絡(luò)中生成區(qū)域提議,網(wǎng)絡(luò)最后的全連接層同時預(yù)測多個類別不相關(guān)的邊界框,并推廣到OverFeat的“單邊界框”方式。這些類別不可知的邊界框框被用作R-CNN的提議區(qū)域[5]。與我們的全卷積方案相比,MultiBox提議網(wǎng)絡(luò)適用于單張裁剪圖像或多張大型裁剪圖像(例如224×224)。MultiBox在提議區(qū)域和檢測網(wǎng)絡(luò)之間不共享特征。稍后在我們的方法上下文中會討論OverFeat和MultiBox。與我們的工作同時進行的,DeepMask方法[28]是為學習分割提議區(qū)域而開發(fā)的。

卷積[9],[1],[29],[7],[2]的共享計算已經(jīng)越來越受到人們的關(guān)注,因為它可以有效而準確地進行視覺識別。OverFeat論文[9]計算圖像金字塔的卷積特征用于分類,定位和檢測。共享卷積特征映射的自適應(yīng)大小池化(SPP)[1]被開發(fā)用于有效的基于區(qū)域的目標檢測[1],[30]和語義分割[29]。Fast R-CNN[2]能夠?qū)蚕砭矸e特征進行端到端的檢測器訓練,并顯示出令人信服的準確性和速度。

3. FASTER R-CNN

我們的目標檢測系統(tǒng),稱為Faster R-CNN,由兩個模塊組成。第一個模塊是提議區(qū)域的深度全卷積網(wǎng)絡(luò),第二個模塊是使用提議區(qū)域的Fast R-CNN檢測器[2]。整個系統(tǒng)是一個單個的,統(tǒng)一的目標檢測網(wǎng)絡(luò)(圖2)。使用最近流行的“注意力”[31]機制的神經(jīng)網(wǎng)絡(luò)術(shù)語,RPN模塊告訴Fast R-CNN模塊在哪里尋找。在第3.1節(jié)中,我們介紹了區(qū)域提議網(wǎng)絡(luò)的設(shè)計和屬性。在第3.2節(jié)中,我們開發(fā)了用于訓練具有共享特征模塊的算法。

Figure 2

圖2:Faster R-CNN是一個單一,統(tǒng)一的目標檢測網(wǎng)絡(luò)。RPN模塊作為這個統(tǒng)一網(wǎng)絡(luò)的“注意力”。

3.1 區(qū)域提議網(wǎng)絡(luò)

區(qū)域提議網(wǎng)絡(luò)(RPN)以任意大小的圖像作為輸入,輸出一組矩形的目標提議,每個提議都有一個目標得分。我們用全卷積網(wǎng)絡(luò)[7]對這個過程進行建模,我們將在本節(jié)進行描述。因為我們的最終目標是與Fast R-CNN目標檢測網(wǎng)絡(luò)[2]共享計算,所以我們假設(shè)兩個網(wǎng)絡(luò)共享一組共同的卷積層。在我們的實驗中,我們研究了具有5個共享卷積層的Zeiler和Fergus模型[32](ZF)和具有13個共享卷積層的Simonyan和Zisserman模型[3](VGG-16)。

為了生成區(qū)域提議,我們在最后的共享卷積層輸出的卷積特征映射上滑動一個小網(wǎng)絡(luò)。這個小網(wǎng)絡(luò)將輸入卷積特征映射的$n×n$空間窗口作為輸入。每個滑動窗口映射到一個低維特征(ZF為256維,VGG為512維,后面是ReLU[33])。這個特征被輸入到兩個子全連接層——一個邊界框回歸層(reg)和一個邊界框分類層(cls)。在本文中,我們使用$n=3$,注意輸入圖像上的有效感受野是大的(ZF和VGG分別為171和228個像素)。圖3(左)顯示了這個小型網(wǎng)絡(luò)的一個位置。請注意,因為小網(wǎng)絡(luò)以滑動窗口方式運行,所有空間位置共享全連接層。這種架構(gòu)通過一個n×n卷積層,后面是兩個子1×1卷積層(分別用于reg和cls)自然地實現(xiàn)。

Figure 3

圖3:左:區(qū)域提議網(wǎng)絡(luò)(RPN)。右:在PASCAL VOC 2007測試集上使用RPN提議的示例檢測。我們的方法可以檢測各種尺度和長寬比的目標。

3.1.1 錨點

在每個滑動窗口位置,我們同時預(yù)測多個區(qū)域提議,其中每個位置可能提議的最大數(shù)目表示為$k$。因此,reg層具有$4k$個輸出,編碼$k$個邊界框的坐標,cls層輸出$2k$個分數(shù),估計每個提議是目標或不是目標的概率。相對于我們稱之為錨點的$k$個參考邊界框,$k$個提議是參數(shù)化的。錨點位于所討論的滑動窗口的中心,并與一個尺度和長寬比相關(guān)(圖3左)。默認情況下,我們使用3個尺度和3個長寬比,在每個滑動位置產(chǎn)生$k=9$個錨點。對于大小為W×H(通常約為2400)的卷積特征映射,總共有$WHk$個錨點。

平移不變的錨點

我們的方法的一個重要特性是它是平移不變的,無論是在錨點還是計算相對于錨點的區(qū)域提議的函數(shù)。如果在圖像中平移目標,提議應(yīng)該平移,并且同樣的函數(shù)應(yīng)該能夠在任一位置預(yù)測提議。這個平移不變的屬性是由我們的方法保證的。作為比較,MultiBox方法[27]使用k-means生成800個錨點,這不是平移不變的。所以如果平移目標,MultiBox不保證會生成相同的提議。

平移不變特性也減小了模型的大小。MultiBox有$(4+1)\times 800$維的全連接輸出層,而我們的方法在$k=9$個錨點的情況下有$(4+2)\times 9$維的卷積輸出層。因此,對于VGG-16,我們的輸出層具有$2.8\times104$個參數(shù)(對于VGG-16為$512\times(4+2)\times9$),比MultiBox輸出層的$6.1\times106$個參數(shù)少了兩個數(shù)量級(對于MultiBox [27]中的GoogleNet[34]為$1536\times(4+1)\times800$)。如果考慮到特征投影層,我們的提議層仍然比MultiBox少一個數(shù)量級。我們期望我們的方法在PASCAL VOC等小數(shù)據(jù)集上有更小的過擬合風險。

多尺度錨點作為回歸參考

我們的錨點設(shè)計提出了一個新的方案來解決多尺度(和長寬比)。如圖1所示,多尺度預(yù)測有兩種流行的方法。第一種方法是基于圖像/特征金字塔,例如DPM[8]和基于CNN的方法[9],[1],[2]中。圖像在多個尺度上進行縮放,并且針對每個尺度(圖1(a))計算特征映射(HOG[8]或深卷積特征[9],[1],[2])。這種方法通常是有用的,但是非常耗時。第二種方法是在特征映射上使用多尺度(和/或長寬比)的滑動窗口。例如,在DPM[8]中,使用不同的濾波器大?。ɡ?×7和7×5)分別對不同長寬比的模型進行訓練。如果用這種方法來解決多尺度問題,可以把它看作是一個“濾波器金字塔”(圖1(b))。第二種方法通常與第一種方法聯(lián)合采用[8]。

作為比較,我們的基于錨點方法建立在錨點金字塔上,這是更具成本效益的。我們的方法參照多尺度和長寬比的錨盒來分類和回歸邊界框。它只依賴單一尺度的圖像和特征映射,并使用單一尺寸的濾波器(特征映射上的滑動窗口)。我們通過實驗來展示這個方案解決多尺度和尺寸的效果(表8)。

表8:Faster R-CNN在PAS-CAL VOC 2007測試數(shù)據(jù)集上使用不同錨點設(shè)置的檢測結(jié)果。網(wǎng)絡(luò)是VGG-16。訓練數(shù)據(jù)是VOC 2007訓練集。使用3個尺度和3個長寬比($69.9%$)的默認設(shè)置,與表3中的相同。

Table 8

由于這種基于錨點的多尺度設(shè)計,我們可以簡單地使用在單尺度圖像上計算的卷積特征,F(xiàn)ast R-CNN檢測器也是這樣做的[2]。多尺度錨點設(shè)計是共享特征的關(guān)鍵組件,不需要額外的成本來處理尺度。

3.1.2 損失函數(shù)

為了訓練RPN,我們?yōu)槊總€錨點分配一個二值類別標簽(是目標或不是目標)。我們給兩種錨點分配一個正標簽:(i)具有與實際邊界框的重疊最高交并比(IoU)的錨點,或者(ii)具有與實際邊界框的重疊超過0.7 IoU的錨點。注意,單個真實邊界框可以為多個錨點分配正標簽。通常第二個條件足以確定正樣本;但我們?nèi)匀徊捎玫谝粋€條件,因為在一些極少數(shù)情況下,第二個條件可能找不到正樣本。對于所有的真實邊界框,如果一個錨點的IoU比率低于0.3,我們給非正面的錨點分配一個負標簽。既不正面也不負面的錨點不會有助于訓練目標函數(shù)。

根據(jù)這些定義,我們對目標函數(shù)Fast R-CNN[2]中的多任務(wù)損失進行最小化。我們對圖像的損失函數(shù)定義為:$$
L(\lbrace p_i \rbrace, \lbrace t_i \rbrace) = \frac{1}{N_{cls}}\sum_i L_{cls}(p_i, p^{*}_i) \\ + \lambda\frac{1}{N_{reg}}\sum_i p^{*}_i L_{reg}(t_i, t^{*}_i).
$$其中,$i$是一個小批量數(shù)據(jù)中錨點的索引,$p_i$是錨點$i$作為目標的預(yù)測概率。如果錨點為正,真實標簽$p{*}_i$為1,如果錨點為負,則為0。$t_i$是表示預(yù)測邊界框4個參數(shù)化坐標的向量,而$t{*}_i$是與正錨點相關(guān)的真實邊界框的向量。分類損失$L_{cls}$是兩個類別上(目標或不是目標)的對數(shù)損失。對于回歸損失,我們使用$L_{reg}(t_i, t^{*}_i)=R(t_i - t{*}_i)$,其中$R$是在[2]中定義的魯棒損失函數(shù)(平滑$L_1$)。項$p{*}_i L_{reg}$表示回歸損失僅對于正錨點激活,否則被禁用($p^{*}_i=0$)。clsreg層的輸出分別由${p_i}$和${t_i}$組成。

這兩個項用$N_{cls}$和$N_{reg}$進行標準化,并由一個平衡參數(shù)$\lambda$加權(quán)。在我們目前的實現(xiàn)中(如在發(fā)布的代碼中),方程(1)中的$cls$項通過小批量數(shù)據(jù)的大?。?N_{cls}=256$)進行歸一化,$reg$項根據(jù)錨點位置的數(shù)量(即,$N_{reg}\sim 24000$)進行歸一化。默認情況下,我們設(shè)置$\lambda=10$,因此clsreg項的權(quán)重大致相等。我們通過實驗顯示,結(jié)果對寬范圍的$\lambda$值不敏感(表9)。我們還注意到,上面的歸一化不是必需的,可以簡化。

表9:Faster R-CNN使用方程(1)中不同的$\lambda$值在PASCAL VOC 2007測試集上的檢測結(jié)果。網(wǎng)絡(luò)是VGG-16。訓練數(shù)據(jù)是VOC 2007訓練集。使用$\lambda = 10$($69.9%$)的默認設(shè)置與表3中的相同。

Table 9

對于邊界框回歸,我們采用[5]中的4個坐標參數(shù)化:$$
t_{\textrm{x}} = (x - x_{\textrm{a}})/w_{\textrm{a}},\quad
t_{\textrm{y}} = (y - y_{\textrm{a}})/h_{\textrm{a}},\\
t_{\textrm{w}} = \log(w / w_{\textrm{a}}), \quad
t_{\textrm{h}} = \log(h / h_{\textrm{a}}),\\
t^{*}_{\textrm{x}} = (x^{*} - x_{\textrm{a}})/w_{\textrm{a}},\quad
t^{*}_{\textrm{y}} = (y^{*} - y_{\textrm{a}})/h_{\textrm{a}},\\
t^{*}_{\textrm{w}} = \log(w^{*} / w_{\textrm{a}}),\quad
t^{*}_{\textrm{h}} = \log(h^{*} / h_{\textrm{a}}),
$$ 其中,$x$,$y$,$w$和$h$表示邊界框的中心坐標及其寬和高。變量$x$,$x_{\textrm{a}}$和$x^{*}$分別表示預(yù)測邊界框,錨盒和實際邊界框(類似于$y, w, h$)。這可以被認為是從錨盒到鄰近的實際邊界框的回歸。

然而,我們的方法通過與之前的基于RoI(感興趣區(qū)域)方法[1],[2]不同的方式來實現(xiàn)邊界框回歸。在[1],[2]中,對任意大小的RoI池化的特征執(zhí)行邊界框回歸,并且回歸權(quán)重由所有區(qū)域大小共享。在我們的公式中,用于回歸的特征在特征映射上具有相同的空間大?。?×3)。為了說明不同的大小,學習一組$k$個邊界框回歸器。每個回歸器負責一個尺度和一個長寬比,而$k$個回歸器不共享權(quán)重。因此,由于錨點的設(shè)計,即使特征具有固定的尺度/比例,仍然可以預(yù)測各種尺寸的邊界框。

3.1.3 訓練RPN

RPN可以通過反向傳播和隨機梯度下降(SGD)進行端對端訓練[35]。我們遵循[2]的“以圖像為中心”的采樣策略來訓練這個網(wǎng)絡(luò)。每個小批量數(shù)據(jù)都從包含許多正面和負面示例錨點的單張圖像中產(chǎn)生。對所有錨點的損失函數(shù)進行優(yōu)化是可能的,但是這樣會偏向于負樣本,因為它們是占主導地位的。取而代之的是,我們在圖像中隨機采樣256個錨點,計算一個小批量數(shù)據(jù)的損失函數(shù),其中采樣的正錨點和負錨點的比率可達1:1。如果圖像中的正樣本少于128個,我們使用負樣本填充小批量數(shù)據(jù)。

我們通過從標準方差為0.01的零均值高斯分布中提取權(quán)重來隨機初始化所有新層。所有其他層(即共享卷積層)通過預(yù)訓練的ImageNet分類模型[36]來初始化,如同標準實踐[5]。我們調(diào)整ZF網(wǎng)絡(luò)的所有層,以及VGG網(wǎng)絡(luò)的conv3_1及其之上的層以節(jié)省內(nèi)存[2]。對于60k的小批量數(shù)據(jù),我們使用0.001的學習率,對于PASCAL VOC數(shù)據(jù)集中的下一個20k小批量數(shù)據(jù),使用0.0001。我們使用0.9的動量和0.0005的重量衰減[37]。我們的實現(xiàn)使用Caffe[38]。

3.2 RPN和Fast R-CNN共享特征

到目前為止,我們已經(jīng)描述了如何訓練用于區(qū)域提議生成的網(wǎng)絡(luò),沒有考慮將利用這些提議的基于區(qū)域的目標檢測CNN。對于檢測網(wǎng)絡(luò),我們采用Fast R-CNN[2]。接下來我們介紹一些算法,學習由RPN和Fast R-CNN組成的具有共享卷積層的統(tǒng)一網(wǎng)絡(luò)(圖2)。

獨立訓練的RPN和Fast R-CNN將以不同的方式修改卷積層。因此,我們需要開發(fā)一種允許在兩個網(wǎng)絡(luò)之間共享卷積層的技術(shù),而不是學習兩個獨立的網(wǎng)絡(luò)。我們討論三個方法來訓練具有共享特征的網(wǎng)絡(luò):

(一)交替訓練。在這個解決方案中,我們首先訓練RPN,并使用這些提議來訓練Fast R-CNN。由Fast R-CNN微調(diào)的網(wǎng)絡(luò)然后被用于初始化RPN,并且重復(fù)這個過程。這是本文所有實驗中使用的解決方案。

(二)近似聯(lián)合訓練。在這個解決方案中,RPN和Fast R-CNN網(wǎng)絡(luò)在訓練期間合并成一個網(wǎng)絡(luò),如圖2所示。在每次SGD迭代中,前向傳遞生成區(qū)域提議,在訓練Fast R-CNN檢測器將這看作是固定的、預(yù)計算的提議。反向傳播像往常一樣進行,其中對于共享層,組合來自RPN損失和Fast R-CNN損失的反向傳播信號。這個解決方案很容易實現(xiàn)。但是這個解決方案忽略了關(guān)于提議邊界框的坐標(也是網(wǎng)絡(luò)響應(yīng))的導數(shù),因此是近似的。在我們的實驗中,我們實驗發(fā)現(xiàn)這個求解器產(chǎn)生了相當?shù)慕Y(jié)果,與交替訓練相比,訓練時間減少了大約$25-50%$。這個求解器包含在我們發(fā)布的Python代碼中。

(三)非近似的聯(lián)合訓練。如上所述,由RPN預(yù)測的邊界框也是輸入的函數(shù)。Fast R-CNN中的RoI池化層[2]接受卷積特征以及預(yù)測的邊界框作為輸入,所以理論上有效的反向傳播求解器也應(yīng)該包括關(guān)于邊界框坐標的梯度。在上述近似聯(lián)合訓練中,這些梯度被忽略。在一個非近似的聯(lián)合訓練解決方案中,我們需要一個關(guān)于邊界框坐標可微分的RoI池化層。這是一個重要的問題,可以通過[15]中提出的“RoI扭曲”層給出解決方案,這超出了本文的范圍。

四步交替訓練。在本文中,我們采用實用的四步訓練算法,通過交替優(yōu)化學習共享特征。在第一步中,我們按照3.1.3節(jié)的描述訓練RPN。該網(wǎng)絡(luò)使用ImageNet的預(yù)訓練模型進行初始化,并針對區(qū)域提議任務(wù)進行了端到端的微調(diào)。在第二步中,我們使用由第一步RPN生成的提議,由Fast R-CNN訓練單獨的檢測網(wǎng)絡(luò)。該檢測網(wǎng)絡(luò)也由ImageNet的預(yù)訓練模型進行初始化。此時兩個網(wǎng)絡(luò)不共享卷積層。在第三步中,我們使用檢測器網(wǎng)絡(luò)來初始化RPN訓練,但是我們修正共享的卷積層,并且只對RPN特有的層進行微調(diào)?,F(xiàn)在這兩個網(wǎng)絡(luò)共享卷積層。最后,保持共享卷積層的固定,我們對Fast R-CNN的獨有層進行微調(diào)。因此,兩個網(wǎng)絡(luò)共享相同的卷積層并形成統(tǒng)一的網(wǎng)絡(luò)。類似的交替訓練可以運行更多的迭代,但是我們只觀察到可以忽略的改進。

3.3 實現(xiàn)細節(jié)

我們在單尺度圖像上訓練和測試區(qū)域提議和目標檢測網(wǎng)絡(luò)[1],[2]。我們重新縮放圖像,使得它們的短邊是$s=600$像素[2]。多尺度特征提取(使用圖像金字塔)可能會提高精度,但不會表現(xiàn)出速度與精度的良好折衷[2]。在重新縮放的圖像上,最后卷積層上的ZF和VGG網(wǎng)絡(luò)的總步長為16個像素,因此在調(diào)整大?。?500×375)之前,典型的PASCAL圖像上的總步長為?10個像素。即使如此大的步長也能提供良好的效果,盡管步幅更小,精度可能會進一步提高。

對于錨點,我們使用了3個尺度,邊界框面積分別為$1282$,$2562$和$512^2$個像素,以及1:1,1:2和2:1的長寬比。這些超參數(shù)不是針對特定數(shù)據(jù)集仔細選擇的,我們將在下一節(jié)中提供有關(guān)其作用的消融實驗。如上所述,我們的解決方案不需要圖像金字塔或濾波器金字塔來預(yù)測多個尺度的區(qū)域,節(jié)省了大量的運行時間。圖3(右)顯示了我們的方法在廣泛的尺度和長寬比方面的能力。表1顯示了使用ZF網(wǎng)絡(luò)的每個錨點學習到的平均提議大小。我們注意到,我們的算法允許預(yù)測比基礎(chǔ)感受野更大。這樣的預(yù)測不是不可能的——如果只有目標的中間部分是可見的,那么仍然可以粗略地推斷出目標的范圍。

表1:使用ZF網(wǎng)絡(luò)的每個錨點學習到的平均提議大?。?s=600$的數(shù)字)。

Table 1

跨越圖像邊界的錨盒需要小心處理。在訓練過程中,我們忽略了所有的跨界錨點,所以不會造成損失。對于一個典型的$1000 \times 600$的圖片,總共將會有大約20000($\approx 60 \times 40 \times 9$)個錨點??缃珏^點被忽略,每張圖像約有6000個錨點用于訓練。如果跨界異常值在訓練中不被忽略,則會在目標函數(shù)中引入大的,難以糾正的誤差項,且訓練不會收斂。但在測試過程中,我們?nèi)匀粚⑷矸eRPN應(yīng)用于整張圖像。這可能會產(chǎn)生跨邊界的提議邊界框,我們剪切到圖像邊界。

一些RPN提議互相之間高度重疊。為了減少冗余,我們在提議區(qū)域根據(jù)他們的cls分數(shù)采取非極大值抑制(NMS)。我們將NMS的IoU閾值固定為0.7,這就給每張圖像留下了大約2000個提議區(qū)域。正如我們將要展示的那樣,NMS不會損害最終的檢測準確性,但會大大減少提議的數(shù)量。在NMS之后,我們使用前N個提議區(qū)域來進行檢測。接下來,我們使用2000個RPN提議對Fast R-CNN進行訓練,但在測試時評估不同數(shù)量的提議。

4. 實驗

4.1 PASCAL VOC上的實驗

我們在PASCAL VOC 2007檢測基準數(shù)據(jù)集[11]上全面評估了我們的方法。這個數(shù)據(jù)集包含大約5000張訓練評估圖像和在20個目標類別上的5000張測試圖像。我們還提供了一些模型在PASCAL VOC 2012基準數(shù)據(jù)集上的測試結(jié)果。對于ImageNet預(yù)訓練網(wǎng)絡(luò),我們使用具有5個卷積層和3個全連接層的ZF網(wǎng)絡(luò)[32]的“快速”版本以及具有13個卷積層和3個全連接層的公開的VGG-16模型[3]。我們主要評估檢測的平均精度均值(mAP),因為這是檢測目標的實際指標(而不是關(guān)注目標提議代理度量)。

表2(頂部)顯示了使用各種區(qū)域提議方法進行訓練和測試的Fast R-CNN結(jié)果。這些結(jié)果使用ZF網(wǎng)絡(luò)。對于選擇性搜索(SS)[4],我們通過“快速”模式生成約2000個提議。對于EdgeBoxes(EB)[6],我們通過調(diào)整0.7 IoU的默認EB設(shè)置生成提議。SS在Fast R-CNN框架下的mAP為$58.7%$,EB的mAP為$58.6%$。RPN與Fast R-CNN取得了有競爭力的結(jié)果,使用多達300個提議,mAP為$59.9%$。由于共享卷積計算,使用RPN比使用SS或EB產(chǎn)生了更快的檢測系統(tǒng);較少的建議也減少了區(qū)域方面的全連接層成本(表5)。

表2:PASCAL VOC 2007測試集上的檢測結(jié)果(在VOC 2007訓練評估集上進行了訓練)。檢測器是帶有ZF的Fast R-CNN,但使用各種提議方法進行訓練和測試。

Table 2

表5:K40 GPU上的時間(ms),除了SS提議是在CPU上評估?!皡^(qū)域方面”包括NMS,池化,全連接和softmax層。查看我們發(fā)布的代碼來分析運行時間。

Table 5

RPN上的消融實驗。為了研究RPN作為提議方法的性能,我們進行了幾項消融研究。首先,我們顯示了RPN和Fast R-CNN檢測網(wǎng)絡(luò)共享卷積層的效果。為此,我們在四步訓練過程的第二步之后停止訓練。使用單獨的網(wǎng)絡(luò)將結(jié)果略微減少到$58.7%$(RPN+ZF,非共享,表2)。我們觀察到,這是因為在第三步中,當使用檢測器調(diào)整的特征來微調(diào)RPN時,提議質(zhì)量得到了改善。

接下來,我們分析RPN對訓練Fast R-CNN檢測網(wǎng)絡(luò)的影響。為此,我們通過使用2000個SS提議和ZF網(wǎng)絡(luò)來訓練Fast R-CNN模型。我們固定這個檢測器,并通過改變測試時使用的提議區(qū)域來評估檢測的mAP。在這些消融實驗中,RPN不與檢測器共享特征。

在測試階段用300個RPN提議替換SS提議得到了$56.8%$的MAP。mAP的損失是因為訓練/測試提議不一致。這個結(jié)果作為以下比較的基準。

有些令人驚訝的是,RPN在測試時使用排名最高的100個提議仍然會導致有競爭力的結(jié)果($55.1%$),表明排名靠前的RPN提議是準確的。相反的,使用排名靠前的6000個RPN提議(無NMS)具有相當?shù)膍AP($55.2%$),這表明NMS不會損害檢測mAP并可能減少誤報。

接下來,我們通過在測試時分別關(guān)閉RPN的clsreg輸出來調(diào)查RPN的作用。當cls層在測試時被移除(因此不使用NMS/排名),我們從未得分的區(qū)域中隨機采樣$N$個提議。當$N=1000$($55.8
%$)時,mAP幾乎沒有變化,但是當$N=100$時,會大大降低到$44.6%$。這表明cls分數(shù)考慮了排名最高的提議的準確性。

另一方面,當在測試階段移除reg層(所以提議變成錨盒)時,mAP將下降到$52.1%$。這表明高質(zhì)量的提議主要是由于回歸的邊界框。錨盒雖然具有多個尺度和長寬比,但不足以進行準確的檢測。

我們還單獨評估了更強大的網(wǎng)絡(luò)對RPN提議質(zhì)量的影響。我們使用VGG-16來訓練RPN,仍然使用上述的SS+ZF檢測器。mAP從$56.8%$(使用RPN+ZF)提高到$59.2%$(使用RPN+VGG)。這是一個很有希望的結(jié)果,因為這表明RPN+VGG的提議質(zhì)量要好于RPN+ZF。由于RPN+ZF的提議與SS具有競爭性(當一致用于訓練和測試時,都是$58.7%$),所以我們可以預(yù)期RPN+VGG比SS更好。以下實驗驗證了這個假設(shè)。

VGG-16的性能。表3顯示了VGG-16的提議和檢測結(jié)果。使用RPN+VGG,非共享特征的結(jié)果是$68.5%$,略高于SS的基準。如上所示,這是因為RPN+VGG生成的提議比SS更準確。與預(yù)先定義的SS不同,RPN是主動訓練的并從更好的網(wǎng)絡(luò)中受益。對于特性共享的變種,結(jié)果是$69.9%$——比強壯的SS基準更好,但幾乎是零成本的提議。我們在PASCAL VOC 2007和2012的訓練評估數(shù)據(jù)集上進一步訓練RPN和檢測網(wǎng)絡(luò)。該mAP是$73.2%$。圖5顯示了PASCAL VOC 2007測試集的一些結(jié)果。在PASCAL VOC 2012測試集(表4)中,我們的方法在VOC 2007的trainval+test和VOC 2012的trainval的聯(lián)合數(shù)據(jù)集上訓練的模型取得了$70.4%$的mAP。表6和表7顯示了詳細的數(shù)字。

表3:PASCAL VOC 2007測試集的檢測結(jié)果。檢測器是Fast R-CNN和VGG-16。訓練數(shù)據(jù):“07”:VOC 2007 trainval,“07 + 12”:VOC 2007 trainval和VOC 2012 trainval的聯(lián)合訓練集。對于RPN,訓練時Fast R-CNN的提議數(shù)量為2000。?:[2]中報道的數(shù)字;使用本文提供的倉庫,這個結(jié)果更高(68.1)。

Table 3

表4:PASCAL VOC 2012測試集的檢測結(jié)果。檢測器是Fast R-CNN和VGG-16。訓練數(shù)據(jù):“07”:VOC 2007 trainval,“07 + 12”:VOC 2007 trainval和VOC 2012 trainval的聯(lián)合訓練集。對于RPN,訓練時Fast R-CNN的提議數(shù)量為2000。?:http://host.robots.ox.ac.uk:8080/anonymous/HZJTQA.html。?:http://host.robots.ox.ac.uk:8080/anonymous/YNPLXB.html。§:http://host.robots.ox.ac.uk:8080/anonymous/XEDH10.html。

Table 4

表6:使用Fast R-CNN檢測器和VGG-16在PASCAL VOC 2007測試集上的結(jié)果。對于RPN,訓練時Fast R-CNN的提議數(shù)量為2000。${RPN}^*$表示沒有共享特征的版本。

Table 6

表7:使用Fast R-CNN檢測器和VGG-16在PASCAL VOC 2012測試集上的結(jié)果。對于RPN,訓練時Fast R-CNN的提議數(shù)量為2000。

Table 7
Figure 5

圖5:使用Faster R-CNN系統(tǒng)在PASCAL VOC 2007測試集上選擇的目標檢測結(jié)果示例。該模型是VGG-16,訓練數(shù)據(jù)是07+12 trainval(2007年測試集中$73.2%$的mAP)。我們的方法檢測廣泛的尺度和長寬比目標。每個輸出框都與類別標簽和[0,1]之間的softmax分數(shù)相關(guān)聯(lián)。使用0.6的分數(shù)閾值來顯示這些圖像。獲得這些結(jié)果的運行時間為每張圖像198ms,包括所有步驟。

在表5中我們總結(jié)了整個目標檢測系統(tǒng)的運行時間。根據(jù)內(nèi)容(平均大約1.5s),SS需要1-2秒,而使用VGG-16的Fast R-CNN在2000個SS提議上需要320ms(如果在全連接層上使用SVD[2],則需要223ms)。我們的VGG-16系統(tǒng)在提議和檢測上總共需要198ms。在共享卷積特征的情況下,單獨RPN只需要10ms計算附加層。我們的區(qū)域計算也較低,這要歸功于較少的提議(每張圖片300個)。我們的采用ZF網(wǎng)絡(luò)的系統(tǒng),幀速率為17fps。

對超參數(shù)的敏感度。在表8中,我們調(diào)查錨點的設(shè)置。默認情況下,我們使用3個尺度和3個長寬比(表8中$69.9%$的mAP)。如果在每個位置只使用一個錨點,那么mAP的下降幅度將是$3-4%$。如果使用3個尺度(1個長寬比)或3個長寬比(1個尺度),則mAP更高,表明使用多種尺寸的錨點作為回歸參考是有效的解決方案。在這個數(shù)據(jù)集上,僅使用具有1個長寬比($69.8%$)的3個尺度與使用具有3個長寬比的3個尺度一樣好,這表明尺度和長寬比不是檢測準確度的解決維度。但我們?nèi)匀辉谠O(shè)計中采用這兩個維度來保持我們的系統(tǒng)靈活性。

在表9中,我們比較了公式(1)中$\lambda$的不同值。默認情況下,我們使用$\lambda=10$,這使方程(1)中的兩個項在歸一化之后大致相等地加權(quán)。表9顯示,當$\lambda$在大約兩個數(shù)量級(1到100)的范圍內(nèi)時,我們的結(jié)果只是稍微受到影響($\sim 1%$)。這表明結(jié)果對寬范圍內(nèi)的$\lambda$不敏感。

分析IoU召回率。接下來,我們使用實際邊界框來計算不同IoU比率的提議召回率。值得注意的是,Recall-to-IoU度量與最終的檢測精度的相關(guān)性是松散的[19,20,21]。使用這個指標來診斷提議方法比評估提議方法更合適。

在圖4中,我們顯示了使用300,1000和2000個提議的結(jié)果。我們與SS和EB進行比較,根據(jù)這些方法產(chǎn)生的置信度,N個提議是排名前N的提議。從圖中可以看出,當提議數(shù)量從2000個減少到300個時,RPN方法表現(xiàn)優(yōu)雅。這就解釋了為什么RPN在使用300個提議時具有良好的最終檢測mAP。正如我們之前分析過的,這個屬性主要歸因于RPN的cls項。當提議較少時,SS和EB的召回率下降的比RPN更快。

Figure 4

圖4:PASCAL VOC 2007測試集上的召回率和IoU重疊率。

一階段檢測與兩階段提議+檢測。OverFeat論文[9]提出了一種在卷積特征映射的滑動窗口上使用回歸器和分類器的檢測方法。OverFeat是一個一階段,類別特定的檢測流程,而我們的是兩階段級聯(lián),包括類不可知的提議和類別特定的檢測。在OverFeat中,區(qū)域特征來自一個尺度金字塔上一個長寬比的滑動窗口。這些特征用于同時確定目標的位置和類別。在RPN中,這些特征來自正方形($3\times 3$)滑動窗口,并且預(yù)測相對于錨點具有不同尺度和長寬比的提議。雖然這兩種方法都使用滑動窗口,但區(qū)域提議任務(wù)只是Faster R-CNN的第一階段——下游的Fast R-CNN檢測器會致力于對提議進行細化。在我們級聯(lián)的第二階段,在更忠實覆蓋區(qū)域特征的提議框中,區(qū)域特征自適應(yīng)地聚集[1],[2]。我們相信這些功能會帶來更準確的檢測結(jié)果。

為了比較一階段和兩階段系統(tǒng),我們通過一階段Fast R-CNN來模擬OverFeat系統(tǒng)(從而也規(guī)避了實現(xiàn)細節(jié)的其他差異)。在這個系統(tǒng)中,“提議”是3個尺度(128,256,512)和3個長寬比(1:1,1:2,2:1)的密集滑動窗口。訓練Fast R-CNN來預(yù)測類別特定的分數(shù),并從這些滑動窗口中回歸邊界框位置。由于OverFeat系統(tǒng)采用圖像金字塔,我們也使用從5個尺度中提取的卷積特征進行評估。我們使用[1],[2]中5個尺度。

表10比較了兩階段系統(tǒng)和一階段系統(tǒng)的兩個變種。使用ZF模型,一階段系統(tǒng)具有$53.9%$的mAP。這比兩階段系統(tǒng)($58.7%$)低$4.8%$。這個實驗驗證了級聯(lián)區(qū)域提議和目標檢測的有效性。在文獻[2],[39]中報道了類似的觀察結(jié)果,在這兩篇論文中,用滑動窗取代SS區(qū)域提議會導致$\sim 6%$的退化。我們也注意到,一階段系統(tǒng)更慢,因為它產(chǎn)生了更多的提議。

表10:一階段檢測與兩階段提議+檢測。使用ZF模型和Fast R-CNN在PASCAL VOC 2007測試集上的檢測結(jié)果。RPN使用未共享的功能。

Table 10

4.2 在MS COCO上的實驗

我們在Microsoft COCO目標檢測數(shù)據(jù)集[12]上提供了更多的結(jié)果。這個數(shù)據(jù)集包含80個目標類別。我們用訓練集上的8萬張圖像,驗證集上的4萬張圖像以及測試開發(fā)集上的2萬張圖像進行實驗。我們評估了$IoU \in [0.5:0.05:0.95]$的平均mAP(COCO標準度量,簡稱為mAP@[.5,.95])和mAP@0.5(PASCAL VOC度量)。

我們的系統(tǒng)對這個數(shù)據(jù)集做了一些小的改動。我們在8 GPU實現(xiàn)上訓練我們的模型,RPN(每個GPU 1個)和Fast R-CNN(每個GPU 2個)的有效最小批大小為8個。RPN步驟和Fast R-CNN步驟都以24萬次迭代進行訓練,學習率為0.003,然后以0.0003的學習率進行8萬次迭代。我們修改了學習率(從0.003而不是0.001開始),因為小批量數(shù)據(jù)的大小發(fā)生了變化。對于錨點,我們使用3個長寬比和4個尺度(加上$64^2$),這主要是通過處理這個數(shù)據(jù)集上的小目標來激發(fā)的。此外,在我們的Fast R-CNN步驟中,負樣本定義為與實際邊界框的最大IOU在[0,0.5)區(qū)間內(nèi)的樣本,而不是[1],[2]中使用的[0.1,0.5)之間。我們注意到,在SPPnet系統(tǒng)[1]中,在[0.1,0.5)中的負樣本用于網(wǎng)絡(luò)微調(diào),但[0,0.5)中的負樣本仍然在具有難例挖掘SVM步驟中被訪問。但是Fast R-CNN系統(tǒng)[2]放棄了SVM步驟,所以[0,0.1]中的負樣本都不會被訪問。包括這些[0,0.1)的樣本,在Fast R-CNN和Faster R-CNN系統(tǒng)在COCO數(shù)據(jù)集上改進了mAP@0.5(但對PASCAL VOC的影響可以忽略不計)。

其余的實現(xiàn)細節(jié)與PASCAL VOC相同。特別的是,我們繼續(xù)使用300個提議和單一尺度($s=600$)測試。COCO數(shù)據(jù)集上的測試時間仍然是大約200ms處理一張圖像。

在表11中,我們首先報告了使用本文實現(xiàn)的Fast R-CNN系統(tǒng)[2]的結(jié)果。我們的Fast R-CNN基準在test-dev數(shù)據(jù)集上有$39.3%$的mAP@0.5,比[2]中報告的更高。我們推測造成這種差距的原因主要是由于負樣本的定義以及小批量大小的變化。我們也注意到mAP@[.5,.95]恰好相當。

表11:在MS COCO數(shù)據(jù)集上的目標檢測結(jié)果(%)。模型是VGG-16。

Table 11

接下來我們評估我們的Faster R-CNN系統(tǒng)。使用COCO訓練集訓練,在COCO測試開發(fā)集上Faster R-CNNN有$42.1%$的mAP@0.5和$21.5%$的mAP@[0.5,0.95]。與相同協(xié)議下的Fast R-CNN相比,mAP@0.5要高$2.8%$,mAP@[.5, .95]要高$2.2%$(表11)。這表明,在更高的IoU閾值上,RPN對提高定位精度表現(xiàn)出色。使用COCO訓練集訓練,在COCO測試開發(fā)集上Faster R-CNN有$42.7%$的mAP@0.5和$21.9%$的mAP@[.5, .95]。圖6顯示了MS COCO測試開發(fā)數(shù)據(jù)集中的一些結(jié)果。

Figure 6

圖6:使用Faster R-CNN系統(tǒng)在MS COCO test-dev數(shù)據(jù)集上選擇的目標檢測結(jié)果示例。該模型是VGG-16,訓練數(shù)據(jù)是COCO訓練數(shù)據(jù)(在測試開發(fā)數(shù)據(jù)集上為$42.7%$的mAP@0.5)。每個輸出框都與一個類別標簽和[0, 1]之間的softmax分數(shù)相關(guān)聯(lián)。使用0.6的分數(shù)閾值來顯示這些圖像。對于每張圖像,一種顏色表示該圖像中的一個目標類別。

在ILSVRC和COCO 2015比賽中的Faster R-CNN。我們已經(jīng)證明,由于RPN通過神經(jīng)網(wǎng)絡(luò)完全學習了提議區(qū)域,F(xiàn)aster R-CNN從更好的特征中受益更多。即使將深度增加到100層以上,這種觀察仍然是有效的[18]。僅用101層殘差網(wǎng)絡(luò)(ResNet-101)代替VGG-16,F(xiàn)aster R-CNN系統(tǒng)就將mAP從$41.5
%/21.2%$(VGG-16)增加到$48.4%/27.2%$(ResNet-101)。與其他改進正交于Faster R-CNN,何等人[18]在COCO測試開發(fā)數(shù)據(jù)集上獲得了單模型$55.7%/34.9%$的結(jié)果和$59.0%/37.4%$的組合結(jié)果,在COCO 2015目標檢測競賽中獲得了第一名。同樣的系統(tǒng)[18]也在ILSVRC 2015目標檢測競賽中獲得了第一名,超過第二名絕對的$8.5%$。RPN也是ILSVRC2015定位和COCO2015分割競賽第一名獲獎輸入的基石,詳情請分別參見[18]和[15]。

4.3 從MS COCO到PASCAL VOC

大規(guī)模數(shù)據(jù)對改善深度神經(jīng)網(wǎng)絡(luò)至關(guān)重要。接下來,我們調(diào)查MS COCO數(shù)據(jù)集如何幫助改進在PASCAL VOC上的檢測性能。

作為一個簡單的基準數(shù)據(jù),我們直接在PASCAL VOC數(shù)據(jù)集上評估COCO檢測模型,而無需在任何PASCAL VOC數(shù)據(jù)上進行微調(diào)。這種評估是可能的,因為COCO類別是PASCAL VOC上類別的超集。在這個實驗中忽略COCO專有的類別,softmax層僅在20個類別和背景上執(zhí)行。這種設(shè)置下PASCAL VOC 2007測試集上的mAP為$76.1%$(表12)。即使沒有利用PASCAL VOC的數(shù)據(jù),這個結(jié)果也好于在VOC07+12($73.2%$)上訓練的模型的結(jié)果。

然后我們在VOC數(shù)據(jù)集上對COCO檢測模型進行微調(diào)。在這個實驗中,COCO模型代替了ImageNet的預(yù)訓練模型(用于初始化網(wǎng)絡(luò)權(quán)重),F(xiàn)aster R-CNN系統(tǒng)按3.2節(jié)所述進行微調(diào)。這樣做在PASCAL VOC 2007測試集上可以達到$78.8%$的mAP。來自COCO集合的額外數(shù)據(jù)增加了$5.6%$的mAP。表6顯示,在PASCAL VOC 2007上,使用COCO+VOC訓練的模型在每個類別上具有最好的AP值。在PASCAL VOC 2012測試集(表12和表7)中也觀察到類似的改進。我們注意到獲得這些強大結(jié)果的測試時間速度仍然是每張圖像200ms左右。

表6:Fast R-CNN檢測器和VGG-16在PASCAL VOC 2007測試集上的結(jié)果。對于RPN,F(xiàn)ast R-CNN的訓練時的提議數(shù)量是2000。$RPN^*$表示取消共享特征的版本。

Table 6

表12:使用不同的訓練數(shù)據(jù)在PASCAL VOC 2007測試集和2012測試集上檢測Faster R-CNN的檢測mAP(%)。模型是VGG-16?!癈OCO”表示COCOtrainval數(shù)據(jù)集用于訓練。另見表6和表7。

Table 12

表7:Fast R-CNN檢測器和VGG-16在PASCAL VOC 2012測試集上的結(jié)果。對于RPN,F(xiàn)ast R-CNN的訓練時的提議數(shù)量是2000。

Table 7

5. 結(jié)論

我們已經(jīng)提出了RPN來生成高效,準確的區(qū)域提議。通過與下游檢測網(wǎng)絡(luò)共享卷積特征,區(qū)域提議步驟幾乎是零成本的。我們的方法使統(tǒng)一的,基于深度學習的目標檢測系統(tǒng)能夠以接近實時的幀率運行。學習到的RPN也提高了區(qū)域提議的質(zhì)量,從而提高了整體的目標檢測精度。

REFERENCES

[1] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” in European Conference on Computer Vision (ECCV), 2014.

[2] R. Girshick, “Fast R-CNN,” in IEEE International Conference on Computer Vision (ICCV), 2015.

[3] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015.

[4] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders, “Selective search for object recognition,” International
Journal of Computer Vision (IJCV), 2013.

[5] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[6] C. L. Zitnick and P. Dolla?r, “Edge boxes: Locating object proposals from edges,” in European Conference on Computer Vision(ECCV),2014.

[7] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[8] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained part-based models,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2010.

[9] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun, “Overfeat: Integrated recognition, localization and detection using convolutional networks,” in International Conference on Learning Representations (ICLR), 2014.

[10] S. Ren, K. He, R. Girshick, and J. Sun, “FasterR-CNN: Towards real-time object detection with region proposal networks,” in
Neural Information Processing Systems (NIPS), 2015.

[11] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The PASCAL Visual Object Classes Challenge 2007 (VOC2007) Results,” 2007.

[12] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dolla?r, and C. L. Zitnick, “Microsoft COCO: Common Objects in Context,” in European Conference on Computer Vision (ECCV), 2014.

[13] S. Song and J. Xiao, “Deep sliding shapes for amodal 3d object detection in rgb-d images,” arXiv:1511.02300, 2015.

[14] J. Zhu, X. Chen, and A. L. Yuille, “DeePM: A deep part-based model for object detection and semantic part localization,” arXiv:1511.07131, 2015.

[15] J. Dai, K. He, and J. Sun, “Instance-aware semantic segmentation via multi-task network cascades,” arXiv:1512.04412, 2015.

[16] J. Johnson, A. Karpathy, and L. Fei-Fei, “Densecap: Fully convolutional localization networks for dense captioning,” arXiv:1511.07571, 2015.

[17] D. Kislyuk, Y. Liu, D. Liu, E. Tzeng, and Y. Jing, “Human curation and convnets: Powering item-to-item recommendations on pinterest,” arXiv:1511.04003, 2015.

[18] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” arXiv:1512.03385, 2015.

[19] J. Hosang, R. Benenson, and B. Schiele, “How good are detection proposals, really?” in British Machine Vision Conference (BMVC), 2014.

[20] J. Hosang, R. Benenson, P. Dollar, and B. Schiele, “What makes for effective detection proposals?” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2015.

[21] N. Chavali, H. Agrawal, A. Mahendru, and D. Batra, “Object-Proposal Evaluation Protocol is ’Gameable’,” arXiv: 1505.05836, 2015.

[22] J. Carreira and C. Sminchisescu, “CPMC: Automatic object segmentation using constrained parametric min-cuts,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.

[23] P. Arbelaez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik, “Multiscale combinatorial grouping,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[24] B. Alexe, T. Deselaers, and V. Ferrari, “Measuring the objectness of image windows,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.

[25] C. Szegedy, A. Toshev, and D. Erhan, “Deep neural networks for object detection,” in Neural Information Processing Systems (NIPS), 2013.

[26] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, “Scalable object detection using deep neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[27] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov, “Scalable, high-quality object detection,” arXiv:1412.1441 (v1), 2015.

[28] P. O. Pinheiro, R. Collobert, and P. Dollar, “Learning to segment object candidates,” in Neural Information Processing Systems (NIPS), 2015.

[29] J. Dai, K. He, and J. Sun, “Convolutional feature masking for joint object and stuff segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[30] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun, “Object detection networks on convolutional feature maps,” arXiv:1504.06066, 2015.

[31] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, “Attention-based models for speech recognition,” in Neural Information Processing Systems (NIPS), 2015.

[32] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional neural networks,” in European Conference on Computer Vision (ECCV), 2014.

[33] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in International Conference on Machine Learning (ICML), 2010.

[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, and A. Rabinovich, “Going deeper with convolutions,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[35] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural computation, 1989.

[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, “ImageNet Large Scale Visual Recognition Challenge,” in International Journal of Computer Vision (IJCV), 2015.

[37] A. Krizhevsky, I. Sutskever, and G. Hinton, “Imagenet classification with deep convolutional neural networks,” in Neural Information Processing Systems (NIPS), 2012.

[38] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell, “Caffe: Convolutional architecture for fast feature embedding,” arXiv:1408.5093, 2014.

[39] K. Lenc and A. Vedaldi, “R-CNN minus R,” in British Machine Vision Conference (BMVC), 2015.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,786評論 6 534
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,656評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,697評論 0 379
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,098評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,855評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,254評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,322評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,473評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,014評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,833評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,016評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,568評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,273評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,680評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,946評論 1 288
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,730評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,006評論 2 374

推薦閱讀更多精彩內(nèi)容