R-CNN:R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation

Step1:原始圖像的預(yù)處理

利用selective search對原始圖像取得2000個目標候選區(qū)域,得到的候選區(qū)大小不一,因網(wǎng)絡(luò)最后有全連接層的存在,故需將尺度進行縮放,此處縮放至(227*227)【方式:將原來每個區(qū)域向外擴展16個像素,然后再進行縮放;原因:使每個區(qū)域都能包含一些背景信息,可提供先驗信息】??先驗信息的作用

Step2:利用模型對每個區(qū)域提取特征

利用在ImageNet上訓(xùn)練好的AlexNet除去1000-softmax層(5層CNN+fc6+fc7),換成(N+1)-SVMs,進行精調(diào)(??調(diào)的是哪一層還是整個網(wǎng)絡(luò)),【將softmax換成svm的原因:softmax中的背景樣本是共享的,而SVM的背景樣本是獨立的,更加嚴格,能帶來更好的分類效果???】此時正負樣本的確定依據(jù)是IoU<0.5為負樣本。并且將學(xué)習(xí)率設(shè)置成原模型中學(xué)習(xí)率的1/10(??目的是為了既能學(xué)到新東西但不會完全否定舊的東西,是指精調(diào)還是指學(xué)習(xí)率的設(shè)置),batch的大小為128,其中正負樣本的比例為1:3

Step3:對SVMs進行訓(xùn)練

此時正負樣本的定義與Step2中的定義不同,取IoU<0.3的為負樣本,至于如何得到的這些參數(shù)取值,則是通過實驗嘗試。

**分別將pool5,fc6,fc7得到的特征用于SVM進行分類,其得到的分類結(jié)果近似,作者得出的結(jié)論是:CNN的特征表達能力大部分集中在卷積層。

**pool5經(jīng)過精調(diào)之后,mAP值提高不明顯,由此得出結(jié)論:卷積層提取出來的特征時具有普遍性的,(即提取到的是一般性的特征??);而fc7經(jīng)過精調(diào)后,結(jié)果得到很大的提升,由此得到結(jié)論:精調(diào)的效果主要是在全連接層上。



Step4:測試

對于一張圖片,進行與訓(xùn)練時相同的數(shù)據(jù)預(yù)處理操作,然后對2000個區(qū)域均進行分類,得到其所屬的類別,然后對同類別的候選區(qū)進行非極大值抑制對候選區(qū)進行篩選得到檢測目標。最后再進行Boundary-box regression(即:對矩形框的四個值(x,y,width,height)進行回歸)對篩選出的區(qū)域進一步進行物體的定位,使得mAP有所提高。【因為在對圖片進行預(yù)處理時,是擴展了16個像素后再進行的縮放,也就是得到的bounding-box是偏大的】

Ending:

基于區(qū)域進行卷積提取特征,然后將多目標檢測問題轉(zhuǎn)換成多分類問題,利用卷積網(wǎng)絡(luò)提取到的特征訓(xùn)練分類器其效果比原始的特征提取方法效果更好。

不足:但是,因為對每張圖都會得到2000個候選區(qū),其計算量很大,不利于實時操作。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容