摘要
基于數據增強和從分利用標注樣本,提出了一個網絡結構和訓練策略。該體系結構由兩部分組成:
- 使用contracting path捕獲上下文信息
- 使用均衡的expanding path精確定位
網絡速度快,在單片GPU上處理一張512x512的圖像最多需要一秒。
引言
在視覺識別任務中,深度卷積網絡成功的原因在于大的訓練數據集和網絡結構。卷積網絡的典型應用是分類,然而對于像醫學圖像處理這樣的任務,需要精確的進行定位——一個類別標簽應該被分給每個像素。同時海量數據集在生物醫學上是難以獲得的。
Ciresan在滑動窗口中設置網絡,通過在像素周圍提供一個局部區域(patch)來預測每個像素的類標簽。該方法有兩個缺點:
- 因為每個像素會和周圍的像素重疊,所以會產生冗余計算,導致效率很低。
- 在應用上下文和定位精度之間存在取舍,越大的patchs需要更多的max-pooling層,這會降低分割精度,而小的patchs只能由很小的視野。
為了實現定位,我們將來自contracting path的高分辨率特征圖和上采樣相結合(應該就是結構圖中的灰色箭頭吧),接著使用一個連續的卷積就可以學到更精確的輸出。通過使用特性通道將上下文信息傳到更高的分辨率層,結果contracting path和expensive path相對稱,所以產生了U結構(contracting path應該就是圖中的棗紅色箭頭,expansive path應該就是圖中的綠色箭頭吧)。
因為數據較少的原因,我們通過彈性形變將可用的數據進行數據增強,這使得網絡可以學到這種變形的不變性,這在生物醫學圖像中是非常重要的,因為組織的變形和變異在實際中是很常見的,這就使得現實的變形可以被有效的模擬。
細胞分割的另一個挑戰是對同一類可觸摸對象的分離(the separation of touching objects of the same class?)。為此,我們建議使用加權損失,在損失函數中,相接觸的細胞之間的背景分離標簽會獲得一個較大的權重。
網絡體系結構
如圖1,它由一條contracting path(左邊)和一條expansive path(右邊)組成。
contracting path遵循一個卷積網絡的典型結構:兩個3x3卷積(不填充)的重復應用,每一個卷積后都有一個糾正的線性單元(ReLU)和stride=2的2x2的max pooling。在每次下采樣中將特征圖的通道數加倍。
expansive path中的每一步都包含一個特征圖的上采樣,然后是一個2x2的上卷積將特征通道的數目減半(因為有來自contracting path的相應剪裁特征圖的連接),以及兩個3x3的卷積,每一個卷積后有一個ReLU函數。在最后一層,使用1x1的卷積將每個64分量的特征向量映射到所需的類數中。
整個網絡有23層。
訓練
輸入的圖像及其相應的分割圖用于訓練網絡,同時使用了隨機梯度下降進行參數更新。由于卷積時沒有進行填充,所以輸出圖像比輸入圖像的邊界寬度要小。我們傾向于在大批量的情況下使用較大的輸入切片,因此將圖片批量減少到單個圖像。我們使用了一個較高的動量(0.99),這樣可以使用大量先前所見的樣本決定當前優化步驟的更新。
結合最終的特征圖和交叉熵損失函數,在其上通過像素級的Softmax計算energy function(能量函數?)。
數據增強
我們利用隨機位移向量在粗糙的3x3的網格上生成平滑的變形。位移是使用具有10個像素標準差的高斯分布采樣得到的,然后使用雙三次插值計算每個像素的位移。在contracting path的末尾使用Drop-out層可以隱式地進一步進行數據增強。