摘要概述
小目標(biāo)問題在物體檢測(cè)和語義分割等視覺任務(wù)中一直是存在的一個(gè)難點(diǎn),小目標(biāo)的檢測(cè)精度通常只有大目標(biāo)的一半。
CVPR2019論文: Augmentation for small object detection 提到了一些應(yīng)對(duì)小目標(biāo)檢測(cè)的方法,筆者結(jié)合這篇論文以及查閱其它資料,對(duì)小目標(biāo)檢測(cè)相關(guān)技巧在本文進(jìn)行了部分總結(jié)。
小目標(biāo)的定義:在MS COCO數(shù)據(jù)集中,面積小于 32*32 的物體被認(rèn)為是小物體。
在COCO數(shù)據(jù)集中,小目標(biāo)的數(shù)量更多,具體為:
41% of objects are small (area < 322)
34% are medium (322 < area < 962)
24% are large (area > 962)
area的計(jì)算方法:像素點(diǎn)的個(gè)數(shù)。
MS COCO Metrics 詳細(xì)介紹參考:https://blog.csdn.net/wangdongwei0/article/details/83033340
小目標(biāo)難以檢測(cè)的原因:分辨率低,圖像模糊,攜帶的信息少。由此所導(dǎo)致特征表達(dá)能力弱,也就是在提取特征的過程中,能提取到的特征非常少,這不利于我們對(duì)小目標(biāo)的檢測(cè)。
現(xiàn)有的比較流行的方法是如何解決小目標(biāo)檢測(cè)問題的?
1、由于小目標(biāo)面積太小,可以放大圖片后再做檢測(cè),也就是在尺度上做文章,如FPN(Feature Pyramid Networks for Object Detection),SNIP(An Analysis of Scale Invariance in Object Detection – SNIP)。
Feature-Fused SSD: Fast Detection for Small Objects, Detecting Small Objects Using a Channel-Aware Deconvolutional Network 也是在多尺度上做文章的論文。
2、在Anchor上做文章(Faster Rcnn,SSD, FPN都有各自的anchor設(shè)計(jì)),anchor在設(shè)置方面需要考慮三個(gè)因素:
anchor的密度:由檢測(cè)所用feature map的stride決定,這個(gè)值與前景閾值密切相關(guān)。
anchor的范圍:RetinaNet中是anchor范圍是32~512,這里應(yīng)根據(jù)任務(wù)檢測(cè)目標(biāo)的范圍確定,按需調(diào)整anchor范圍,或目標(biāo)變化范圍太大如MS COCO,這時(shí)候應(yīng)采用多尺度測(cè)試。
anchor的形狀數(shù)量:RetinaNet每個(gè)位置預(yù)測(cè)三尺度三比例共9個(gè)形狀的anchor,這樣可以增加anchor的密度,但stride決定這些形狀都是同樣的滑窗步進(jìn),需考慮步進(jìn)會(huì)不會(huì)太大,如RetinaNet框架前景閾值是0.5時(shí),一般anchor大小是stride的4倍左右。
該部分anchor內(nèi)容參考于:https://zhuanlan.zhihu.com/p/55824651
3、在ROI Pooling上做文章,文章SINet: A Scale-Insensitive Convolutional Neural Network for Fast Vehicle Detection 認(rèn)為小目標(biāo)在pooling之后會(huì)導(dǎo)致物體結(jié)構(gòu)失真,于是提出了新的Context-Aware RoI Pooling方法。
4、用生成對(duì)抗網(wǎng)絡(luò)(GAN)來做小目標(biāo)檢測(cè):Perceptual Generative Adversarial Networks for Small Object Detection。
進(jìn)一步從量化的角度來分析(參考CVPR2019論文:Augmentation for small object detection ):
1、從COCO上的統(tǒng)計(jì)圖可以發(fā)現(xiàn),小目標(biāo)的個(gè)數(shù)多,占到了41.43%,但是含有小目標(biāo)的圖片只有51.82%,大目標(biāo)所占比例為24.24%,但是含有大目標(biāo)的圖像卻有82.28%。這說明有一半的圖像是不含小目標(biāo)的,大部分的小目標(biāo)都集中在一些少量的圖片中。這就導(dǎo)致在訓(xùn)練的過程中,模型有一半的時(shí)間是學(xué)習(xí)不到小目標(biāo)的特性的。
此外,對(duì)于小目標(biāo),平均能夠匹配的anchor數(shù)量為1個(gè),平均最大的IoU為0.29,這說明很多情況下,有些小目標(biāo)是沒有對(duì)應(yīng)的anchor或者對(duì)應(yīng)的anchor非常少的,即使有對(duì)應(yīng)的anchor,他們的IoU也比較小,平均最大的IoU也才0.29。
如上圖,左上角是一個(gè)anchor示意圖,右上角是一個(gè)小目標(biāo)所對(duì)應(yīng)的anchor,一共有只有三個(gè)anchor能夠與小目標(biāo)配對(duì),且配對(duì)的IoU也不高。左下角是一個(gè)大目標(biāo)對(duì)應(yīng)的anchor,可以發(fā)現(xiàn)有非常多的anchor能夠與其匹配。匹配的anchor數(shù)量越多,則此目標(biāo)被檢出的概率也就越大。
實(shí)現(xiàn)方法:
1、Oversampling :我們通過在訓(xùn)練期間對(duì)這些圖像進(jìn)行過采樣來解決包含小對(duì)象的相對(duì)較少圖像的問題(多用這類圖片)。在實(shí)驗(yàn)中,我們改變了過采樣率和研究不僅對(duì)小物體檢測(cè)而且對(duì)檢測(cè)中大物體的過采樣效果
2、Copy-Pasting Strategies:將小物體在圖片中復(fù)制多分,在保證不影響其他物體的基礎(chǔ)上,增加小物體在圖片中出現(xiàn)的次數(shù)(把小目標(biāo)扣下來貼到原圖中去),提升被anchor包含的概率。
如上圖右下角,本來只有一個(gè)小目標(biāo),對(duì)應(yīng)的anchor數(shù)量為3個(gè),現(xiàn)在將其復(fù)制三份,則在圖中就出現(xiàn)了四個(gè)小目標(biāo),對(duì)應(yīng)的anchor數(shù)量也就變成了12個(gè),大大增加了這個(gè)小目標(biāo)被檢出的概率。從而讓模型在訓(xùn)練的過程中,也能夠有機(jī)會(huì)得到更多的小目標(biāo)訓(xùn)練樣本。
具體的實(shí)現(xiàn)方式如下圖:圖中網(wǎng)球和飛碟都是小物體,本來圖中只有一個(gè)網(wǎng)球,一個(gè)飛碟,通過人工復(fù)制的方式,在圖像中復(fù)制多份。同時(shí)要保證復(fù)制后的小物體不能夠覆蓋該原來存在的目標(biāo)。
參考代碼:https://github.com/zhpmatrix/VisDrone2018/tree/master/DataAug_Patching
該部分參考文章:https://zhuanlan.zhihu.com/p/57760020
網(wǎng)上有人說可以試一下lucid data dreaming Lucid Data Dreaming for Multiple Object Tracking,這是一種在視頻跟蹤/分割里面比較有效的數(shù)據(jù)增強(qiáng)手段,據(jù)說對(duì)于小目標(biāo)物體檢測(cè)也很有效。
參考代碼:https://github.com/ankhoreva/LucidDataDreaming
其他
基于無人機(jī)拍攝圖片的檢測(cè)目前也是個(gè)熱門研究點(diǎn)(難點(diǎn)是目標(biāo)小,密度大)。
相關(guān)論文:
The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking(數(shù)據(jù)集)
Drone-based Object Counting by Spatially Regularized Regional Proposal Network
Simultaneously Detecting and Counting Dense Vehicles from Drone Images
Vision Meets Drones: A Challenge(數(shù)據(jù)集)
參考文獻(xiàn)
1:https://zhuanlan.zhihu.com/p/55824651
2:https://zhuanlan.zhihu.com/p/57760020
3:https://www.zhihu.com/question/269877902/answer/548594081
4:https://zhuanlan.zhihu.com/p/60033229
5:https://arxiv.org/abs/1902.07296
6:http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Perceptual_Generative_Adversarial_CVPR_2017_paper.pdf
7:http://openaccess.thecvf.com/content_cvpr_2017/papers/Lin_Feature_Pyramid_Networks_CVPR_2017_paper.pdf