建議先讀文獻,再讀一下別人的理解
- SPP-net: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recog-nition
Spatial Pyramid Network
解決RCNN需要從 region proposals多次提取特征,用 SPP-net 抽一次特征,之后再分對應的 region proposals 要抽取的特征。
并且抽完的特征不用 crop 或者 warp,用多個pooling 層固定輸出的大小。
(candidate object locations = region proposals)
輸入圖片不能隨意大小的原因受限與全連接層,即使全連接層能根據feature map選擇w的個數,但是訓練的時候,每次w個數都要更改,或者反向傳播都是問題。
- Fast R-CNN: Fast R-CNN
Fast R-CNN
重要改變: Region of Interest pooling layer
提高準確性
- Faster R-CNN: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(這篇建議直接看別人的講解,論文講的有點繞)
Faster R-CNN(實際是分步訓練)
重要改進:對 Region proposals 的選擇,建立了一個 Region Proposal Network。
anchor, 即原候選區。選完anchor之后,輸出的anchor作為proposals.