DetNet(A Backbone network for Object)

arxiv:https://arxiv.org/abs/1804.06215

在目標檢測任務過程中,大多數backbone網絡都是基于ImageNet上的分類任務進行開發的,作者認為這樣的網絡往往會提取較高層的語義特征,這樣適合分類,但不利于定位(特征金字塔(FPN)和擴張卷積(dilation)等技巧在一定程度上補償了這類問題)。因此,文中提出了一種更適合目標檢測的backbone,相較于ResNet101網絡,參數量更少,效果卻更強大。

文中認為傳統backbone網絡主要存在如下三個問題:
  1. stage的數量:分類網絡中,如ResNet有5個stages,特征圖會縮小32倍,但是在對大目標進行檢測時,FPN會加入P6層, RetinaNet會添加P6,P7,但是這幾層是沒有ImageNet預訓練的。
  2. 大物體可見能力較弱:特征圖在縮小32倍后,邊界信息較為模糊,大物體難以回歸到很準確的邊界信息。
  3. 小物體容易丟失:較低的采樣層可能包含足夠的小物體信息,但低階的語義的信息不足以用于區分類別,而在較深的特征中小物體可能丟失,即使通過反卷積得到較大特征圖,目標信息可能已經丟失。
挑戰:

1.保留大的空間信息將會帶來更多參數和計算量。
2.減少下采樣將會減小感受野,不利于分類(classification)或分割(semantic segmentation)等任務。

針對上述問題:

網絡設計:

1.保留ResNet的前四個stages,如圖Fig.1。stage 5保持和stage 4相同的大小,并且增加P6層,P4,P5,P6大小相同,均為16×(保證足夠大的定位特征圖)。模型名稱為DetNet59。
2.在stage 4以后均使用Fig. 2B中的dilated bottleneck(保證足夠大的感受野)來代替之前的卷積過程。



結果:

DetNet59相較于resnet101有更少的參數量,但在分類,檢測,分割等任務中均有著很好的表現。


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容