U-Net:用于生物醫學圖像分割的卷積網絡
??大量同意深度網絡的成功培訓需要數千個帶注釋的訓練樣本。在本文中,我們提出了一種網絡和培訓策略,它依賴于強烈使用數據擴充來更有效地使用可用的注釋樣本。該體系結構包括捕獲上下文的收縮路徑和實現精確定位的對稱擴展路徑。我們表明,這種網絡可以從非常少的圖像端到端地進行訓練,并且優于ISBI挑戰中的先前最佳方法(滑動窗口卷積網絡),用于電子顯微鏡堆疊中的神經元結構的分割。使用在透射光顯微鏡圖像(相位對比度和DIC)上訓練的相同網絡,我們在這些類別中大幅度地贏得了2015年ISBI細胞追蹤挑戰。而且,網絡速度很快。在最近的GPU上,512x512圖像的分割不到一秒鐘。完整的實施(基于Caffe)和經過培訓的網絡可在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net上獲得。
??在過去兩年中,深度卷積網絡在許多視覺識別任務中表現優于現有技術,例如, [7,3]。雖然卷積網絡已經存在了很長時間[8],但由于可用訓練集的大小和所考慮網絡的規模,它們的成功受到限制。 Krizhevsky等人的突破。 [7]是由于對ImageNet數據集上有8層和數百萬個參數的大型網絡的監督培訓,其中包含100萬個訓練圖像。從那時起,即使是更大更深的網絡也經過了培訓[12]。卷積網絡的典型用途是分類任務,其中圖像的輸出是單個類別標簽。然而,在許多視覺任務中,尤其是在生物醫學圖像處理中,期望的輸出應該包括定位,即,應該將類標簽分配給每個像素。此外,生物醫學任務中通常無法獲得數千張訓練圖像。因此,Ciresan等人。 [1]在滑動窗口設置中訓練網絡,通過在該像素周圍提供局部區域(補片)作為輸入來預測每個像素的類標簽。首先,這個網絡可以本地化。其次,補丁方面的訓練數據遠遠大于訓練圖像的數量。由此產生的網絡在ISBI 2012上大幅提升了EM分段挑戰。
??顯然,Ciresan等人的策略。 [1]有兩個缺點。首先,它非常慢,因為必須為每個補丁單獨運行網絡,并且由于補丁重疊而存在大量冗余。其次,在本地化準確性和上下文的使用之間存在權衡。較大的補丁需要更多的最大池層來降低定位精度,而小補丁則允許網絡只能看到很少的上下文。最近的方法[11,4]提出了一種分類器輸出,其考慮了來自多個層的特征。良好的本地化和上下文的使用是可能的。
??在本文中,我們建立了一個更優雅的架構,即所謂的“完全卷積網絡”[9]。我們對這種架構進行了修改和擴展,使得它只需很少的訓練圖像就可以進行更精確的分割;參見圖1. [9]中的主要思想是通過連續層補充通常的合同網絡,其中池化運算符由上采樣運算符替換。因此,這些層增加了輸出的分辨率。為了進行本地化,來自收縮路徑的高分辨率特征與上采樣輸出相結合。然后,連續卷積層可以學習基于該信息組裝更精確的輸出。
圖1. U-net架構(最低分辨率為32x32像素的示例)。 每個藍色框對應于多通道特征圖。 通道數在框頂部表示。 x-y尺寸提供在盒子的左下邊緣。 白框表示復制的要素圖。 箭頭表示不同的操作。
??我們的架構中的一個重要修改是在上采樣部分中我們還有大量的特征通道,這些通道允許網絡將上下文信息傳播到更高分辨率的層。因此,擴展路徑或多或少地與收縮路徑對稱,并產生U形結構。網絡沒有任何完全連接的層,并且僅使用每個卷積的有效部分,即,分割圖僅包含在輸入圖像中可獲得完整上下文的像素。該策略允許通過重疊區塊策略無縫分割任意大的圖像(參見圖2)。為了預測圖像邊界區域中的像素,通過鏡像輸入圖像來外推缺失的上下文。這種平鋪策略對于將網絡應用于大圖像很重要,否則分辨率將受到GPU內存的限制。
圖2.用于任意大圖像的無縫分割的重疊平鋪策略(這里是EM堆棧中神經元結構的分割)。 預測黃色區域中的分割,需要藍色區域內的圖像數據作為輸入。 通過鏡像推斷缺少輸入數據
??至于我們的任務,可用的訓練數據非常少,我們通過對可用的訓練圖像應用彈性變形來使用過多的數據增強。這允許網絡學習這種變形的不變性,而不需要在帶注釋的圖像語料庫中看到這些變換。這在生物醫學分割中尤其重要,因為變形曾經是組織中最常見的變化,并且可以有效地模擬真實的變形。 Dosovitskiy等人已經證明了學習不變性的數據增加的價值。 [2]在無監督特征學習的范圍內。
??許多細胞分割任務中的另一個挑戰是分離同一類的觸摸物體;為此,我們建議使用加權損失,其中觸摸單元之間的分離背景標簽在損失函數中獲得大的權重。
??由此產生的網絡適用于各種生物醫學分割問題。在本文中,我們展示了EM堆棧中神經元結構分段的結果(ISBI 2012開始的持續競爭),我們在那里超越了Ciresan等人的網絡。 [1]。此外,我們在2015年ISBI細胞追蹤挑戰的光學顯微鏡圖像中顯示了細胞分割的結果。在這里,我們在兩個最具挑戰性的2D透射光數據集上獲得了巨大的優勢。
??網絡架構如圖1所示。它由一個收縮路徑(左側)和一個擴展路徑(右側)組成。簽約路徑遵循卷積網絡的典型架構。它包括重復應用兩個3x3卷積(無襯墊卷積),每個卷積后跟一個整流線性單元(ReLU)和一個2x2最大匯集操作,步長2用于下采樣。在每個下采樣步驟中,我們將特征通道的數量加倍。擴展路徑中的每一步都包括對特征映射進行上采樣,然后進行2x2卷積(“向上卷積”),將特征通道數量減半,與來自收縮路徑的相應裁剪特征映射串聯,以及兩個3x3卷積,每個都是ReLU。由于每個卷積中邊界像素的丟失,裁剪是必要的。在最后一層,使用1x1卷積將每個64分量特征向量映射到所需數量的類。總的來說,網絡有23個卷積層。
??為了實現輸出分割圖的無縫平鋪(參見圖2),選擇輸入切片大小非常重要,這樣所有2x2最大池操作都應用于具有偶數x和y大小的層。