CS231N 學習筆記 Lectore11&12:Dectection and segmentation

開始學生問了一個問題,怎么在訓練的時候增加一層,這個老師說了兩個論文,一個是Lan Goodfellow的Net2Net,還有一個是微軟的網絡形態(可能是這個network morphology),下來搜索一下吧。

計算機視覺中的其他任務:



1. Semantic Segmentation語義分割

輸入一個圖像,然后輸出圖像中每個像素的類別。對每個像素進行標注。這個任務的解決方法是使用一個滑動窗口。但是有一個問題就是計算效率低,沒有reuse重疊區域的特征。


解決方法是Fully Convolutional,使得可以同時預測每個像素

C是類別數量,損失函數是交叉熵,每個像素都有預測的類別和其真實類別。


downsampling用于縮小feature map

upsampling:


轉置卷積Transpose Convolution:

一種可學習的上采樣

對于重疊區域,求和即可。也有一些其他名稱,例如Deconvolution...。下圖給出了一個一緯的轉置卷積的例子:

可以將卷積操作看作是矩陣相乘的操作:下圖中[0, a, b, c, d, 0]表示的是一緯的圖片,用0做了padding。卷積核為[x, y, z],步長為1,因此可以將卷積操作看成是兩個矩陣相乘。轉置卷積就是將相同的權重矩陣做轉置,

步長為1


步長為2



2. Classification + Localization

在預測某個物品的種類的同時,給該物品畫一個邊框

將localization任務看作是一個回歸問題。有兩個損失函數。

其他問題:Human Pose Estimation


輸入圖片,輸出14個數字,給出這14個關節中的每一個的x和y坐標。使用regression loss,例如是L2歐幾里得損失或L1損失。


3. Object Detection物體檢測

滑動窗口

滑動窗口每到一個位置,會檢測其是否是某個種類的。但是一個問題對象可能出現在圖像中的任何位置,任何大小,任意長寬比。


區域提案

使用傳統的信號處理。selective search。


R-CNN網絡,根據區域提案提出的區域,因為其區域是大小不同的,將其處理為warped image regions,接著將各個區域送到CNN中然后進行分類。然而其也是有問題的,計算代價很昂貴,訓練和測試都很慢,因此有了Fast R-CNN。

Fast R-CNN
訓練階段,多任務Loss

然而Fast R-CNN在測試階段,將大部分時間用于抽取區域提案,占用了很多時間,相反對于這些提案進行預測的時間到很快。所以出現了Faster R-CNN:使得網絡預測自己的區域提案


Dense Captioning密集字幕

給每個區域寫一個標題


4. Instance Segmentation


Lecture12中主要說了可視化CNN中的格層,其中有一個feature inversion特征反演和texture synthesis紋理合成??梢杂糜陲L格轉換style transfer:




最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。