論文:《Pyramid Scene Parsing Network》by Hengshuang Zhao etc.
使用FCN進行語義分割存在以下三個常見問題:
- Mismatched Relationship: 匹配關系錯誤,如將在水中的船識別為車。
- Confusion Categories: 模糊的分類,如 hill 和 mountain的區分。
- Inconspicuous classes: 無視小尺寸物品。
(關于FCN的細節可以看我的另一篇文章生物醫學圖像語義分割(一)FCN)
總結起來,這些錯誤與語義間的關系以及不同感知區域的全局信息有關。通常情況下,我們可以粗略認為,卷積層卷積核大小(感知域)能夠表示結構考慮了多大范圍的context。然而,在研究中表面,卷積層實際感知域小于理論。因此,很多結構并不能很好地表現全局信息。
文中提出pyramid pooling modules的結構來解決以上問題。結構如下圖所示。
Architecture
Pyramid scene parsing network
- 上圖結構首先將輸入圖片(a)用ResNet提取成特征圖(b)。
- 通過pyramid pooling modules 來進行不同尺寸的池化。文章中將特征圖大小分別池化為:1x1,2x2,3x3,6x6。并通過一個卷積層將每個特征通道數變為feature map通道數的1/N,其中N為級數,此時N=4。
- 最后將池化結果上采樣(文中使用了雙線性插值),與特征圖(b)連接后,通過卷積層輸出結果。
這個結構與FCN不同的是,它通過pyramid的池化層考慮了不同尺寸的全局信息。而在FCN中只考慮了某一個池化層,如FCN-16s 只考慮pool4。
下圖為PSPNet解決前面提出的三個問題的結果。
results
更多參考:【總結】圖像語義分割之特征整合和結構預測 by ycszen