開始學生問了一個問題,怎么在訓練的時候增加一層,這個老師說了兩個論文,一個是Lan Goodfellow的Net2Net,還有一個是微軟的網絡形態(可能是這個network morphology),下來搜索一下吧。
計算機視覺中的其他任務:
1. Semantic Segmentation語義分割
輸入一個圖像,然后輸出圖像中每個像素的類別。對每個像素進行標注。這個任務的解決方法是使用一個滑動窗口。但是有一個問題就是計算效率低,沒有reuse重疊區域的特征。
解決方法是Fully Convolutional,使得可以同時預測每個像素
C是類別數量,損失函數是交叉熵,每個像素都有預測的類別和其真實類別。
downsampling用于縮小feature map
upsampling:
轉置卷積Transpose Convolution:
一種可學習的上采樣
對于重疊區域,求和即可。也有一些其他名稱,例如Deconvolution...。下圖給出了一個一緯的轉置卷積的例子:
可以將卷積操作看作是矩陣相乘的操作:下圖中[0, a, b, c, d, 0]表示的是一緯的圖片,用0做了padding。卷積核為[x, y, z],步長為1,因此可以將卷積操作看成是兩個矩陣相乘。轉置卷積就是將相同的權重矩陣做轉置,
2. Classification + Localization
在預測某個物品的種類的同時,給該物品畫一個邊框
將localization任務看作是一個回歸問題。有兩個損失函數。
其他問題:Human Pose Estimation
輸入圖片,輸出14個數字,給出這14個關節中的每一個的x和y坐標。使用regression loss,例如是L2歐幾里得損失或L1損失。
3. Object Detection物體檢測
滑動窗口
滑動窗口每到一個位置,會檢測其是否是某個種類的。但是一個問題對象可能出現在圖像中的任何位置,任何大小,任意長寬比。
使用傳統的信號處理。selective search。
R-CNN網絡,根據區域提案提出的區域,因為其區域是大小不同的,將其處理為warped image regions,接著將各個區域送到CNN中然后進行分類。然而其也是有問題的,計算代價很昂貴,訓練和測試都很慢,因此有了Fast R-CNN。
然而Fast R-CNN在測試階段,將大部分時間用于抽取區域提案,占用了很多時間,相反對于這些提案進行預測的時間到很快。所以出現了Faster R-CNN:使得網絡預測自己的區域提案
Dense Captioning密集字幕
4. Instance Segmentation
Lecture12中主要說了可視化CNN中的格層,其中有一個feature inversion特征反演和texture synthesis紋理合成??梢杂糜陲L格轉換style transfer: