深度學習在圖像超分辨率重建中的應用

姓名:于川皓 學號:16140210089

轉載自:https://zhuanlan.zhihu.com/p/25532538?utm_medium=social&utm_source=weibo

【嵌牛導讀】:超分辨率技術(Super-Resolution)是指從觀測到的低分辨率圖像重建出相應的高分辨率圖像,在監控設備、衛星圖像和醫學影像等領域都有重要的應用價值。

【嵌牛鼻子】:深度學習,超分辨率

【嵌牛提問】:深度學習在圖片超分辨率重建的實現方法是什么?

【嵌牛正文】:超分辨率技術(Super-Resolution)是指從觀測到的低分辨率圖像重建出相應的高分辨率圖像,在監控設備、衛星圖像和醫學影像等領域都有重要的應用價值。SR可分為兩類:從多張低分辨率圖像重建出高分辨率圖像和從單張低分辨率圖像重建出高分辨率圖像。基于深度學習的SR,主要是基于單張低分辨率的重建方法,即Single Image Super-Resolution (SISR)。

SISR是一個逆問題,對于一個低分辨率圖像,可能存在許多不同的高分辨率圖像與之對應,因此通常在求解高分辨率圖像時會加一個先驗信息進行規范化約束。在傳統的方法中,這個先驗信息可以通過若干成對出現的低-高分辨率圖像的實例中學到。而基于深度學習的SR通過神經網絡直接學習分辨率圖像到高分辨率圖像的端到端的映射函數。

本文介紹幾個較新的基于深度學習的SR方法,包括SRCNN,DRCN, ESPCN,VESPCN和SRGAN等。

1,SRCNN

Super-Resolution Convolutional Neural Network (SRCNN, PAMI 2016, 代碼)是較早地提出的做SR的卷積神經網絡。該網絡結構十分簡單,僅僅用了三個卷積層。

該方法對于一個低分辨率圖像,先使用雙三次(bicubic)插值將其放大到目標大小,再通過三層卷積網絡做非線性映射,得到的結果作為高分辨率圖像輸出。作者將三層卷積的結構解釋成與傳統SR方法對應的三個步驟:圖像塊的提取和特征表示,特征非線性映射和最終的重建。

三個卷積層使用的卷積核的大小分為為9x9, 1x1和5x5,前兩個的輸出特征個數分別為64和32. 該文章分別用Timofte數據集(包含91幅圖像)和ImageNet大數據集進行訓練。相比于雙三次插值和傳統的稀疏編碼方法,SRCNN得到的高分辨率圖像更加清晰,下圖是一個放大倍數為3的例子。

對SR的質量進行定量評價常用的兩個指標是PSNR(Peak Signal-to-Noise Ratio)和SSIM(Structure Similarity Index)。這兩個值越高代表重建結果的像素值和金標準越接近,下圖表明,在不同的放大倍數下,SRCNN都取得比傳統方法好的效果。

2, DRCN

SRCNN的層數較少,同時感受野也較小(13x13)。DRCN (Deeply-Recursive Convolutional Network for Image Super-Resolution, CVPR 2016, 代碼)提出使用更多的卷積層增加網絡感受野(41x41),同時為了避免過多網絡參數,該文章提出使用遞歸神經網絡(RNN)。網絡的基本結構如下:

與SRCNN類似,該網絡分為三個模塊,第一個是Embedding network,相當于特征提取,第二個是Inference network, 相當于特征的非線性變換,第三個是Reconstruction network,即從特征圖像得到最后的重建結果。其中的Inference network是一個遞歸網絡,即數據循環地通過該層多次。將這個循環進行展開,就等效于使用同一組參數的多個串聯的卷積層,如下圖所示:

其中的H_1到H_D是D個共享參數的卷積層。DRCN將每一層的卷積結果都通過同一個Reconstruction Net得到一個重建結果,從而共得到D個重建結果,再把它們加權平均得到最終的輸出。另外,受到ResNet的啟發,DRCN通過skip connection將輸入圖像與H_d的輸出相加后再作為Reconstruction Net的輸入,相當于使Inference Net去學習高分辨率圖像與低分辨率圖像的差,即恢復圖像的高頻部分。

實驗部分,DRCN也使用了包含91張圖像的Timofte數據集進行訓練。得到的效果比SRCNN有了較大提高。

3, ESPCN

在SRCNN和DRCN中,低分辨率圖像都是先通過上采樣插值得到與高分辨率圖像同樣的大小,再作為網絡輸入,意味著卷積操作在較高的分辨率上進行,相比于在低分辨率的圖像上計算卷積,會降低效率。 ESPCN(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network,CVPR 2016, 代碼)提出一種在低分辨率圖像上直接計算卷積得到高分辨率圖像的高效率方法。

ESPCN的核心概念是亞像素卷積層(sub-pixel convolutional layer)。如上圖所示,網絡的輸入是原始低分辨率圖像,通過兩個卷積層以后,得到的特征圖像大小與輸入圖像一樣,但是特征通道為r^2(r是圖像的目標放大倍數)。將每個像素的r^2個通道重新排列成一個r x r的區域,對應于高分辨率圖像中的一個r x r大小的子塊,從而大小為r^2 x H x W的特征圖像被重新排列成1 x rH x rW大小的高分辨率圖像。這個變換雖然被稱作sub-pixel convolution, 但實際上并沒有卷積操作。

通過使用sub-pixel convolution, 圖像從低分辨率到高分辨率放大的過程,插值函數被隱含地包含在前面的卷積層中,可以自動學習到。只在最后一層對圖像大小做變換,前面的卷積運算由于在低分辨率圖像上進行,因此效率會較高。

重建效果上,用PSNR指標看來ESPCN比SRCNN要好一些。對于1080HD的視頻圖像,做放大四倍的高分辨率重建,SRCNN需要0.434s而ESPCN只需要0.029s。

4, VESPCN

在視頻圖像的SR問題中,相鄰幾幀具有很強的關聯性,上述幾種方法都只在單幅圖像上進行處理,而VESPCN( Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation, arxiv 2016)提出使用視頻中的時間序列圖像進行高分辨率重建,并且能達到實時處理的效率要求。其方法示意圖如下,主要包括三個方面:

一是糾正相鄰幀的位移偏差,即先通過Motion estimation估計出位移,然后利用位移參數對相鄰幀進行空間變換,將二者對齊。二是把對齊后的相鄰若干幀疊放在一起,當做一個三維數據,在低分辨率的三維數據上使用三維卷積,得到的結果大小為r^2\times H\times W。三是利用ESPCN的思想將該卷積結果重新排列得到大小為1\times rH\times rW的高分辨率圖像。

Motion estimation這個過程可以通過傳統的光流算法來計算,DeepMind 提出了一個Spatial Transformer Networks, 通過CNN來估計空間變換參數。VESPCN使用了這個方法,并且使用多尺度的Motion estimation:先在比輸入圖像低的分辨率上得到一個初始變換,再在與輸入圖像相同的分辨率上得到更精確的結果,如下圖所示:

由于SR重建和相鄰幀之間的位移估計都通過神經網路來實現,它們可以融合在一起進行端到端的聯合訓練。為此,VESPCN使用的損失函數如下:

第一項是衡量重建結果和金標準之間的差異,第二項是衡量相鄰輸入幀在空間對齊后的差異,第三項是平滑化空間位移場。下圖展示了使用Motion Compensation 后,相鄰幀之間對得很整齊,它們的差值圖像幾乎為0.

從下圖可以看出,使用了Motion Compensation,重建出的高分辨率視頻圖像更加清晰。

5, SRGAN

SRGAN (Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, arxiv, 21 Nov, 2016)將生成式對抗網絡(GAN)用于SR問題。其出發點是傳統的方法一般處理的是較小的放大倍數,當圖像的放大倍數在4以上時,很容易使得到的結果顯得過于平滑,而缺少一些細節上的真實感。因此SRGAN使用GAN來生成圖像中的細節。

傳統的方法使用的代價函數一般是最小均方差(MSE),即

該代價函數使重建結果有較高的信噪比,但是缺少了高頻信息,出現過度平滑的紋理。SRGAN認為,應當使重建的高分辨率圖像與真實的高分辨率圖像無論是低層次的像素值上,還是高層次的抽象特征上,和整體概念和風格上,都應當接近。整體概念和風格如何來評估呢?可以使用一個判別器,判斷一副高分辨率圖像是由算法生成的還是真實的。如果一個判別器無法區分出來,那么由算法生成的圖像就達到了以假亂真的效果。

因此,該文章將代價函數改進為

第一部分是基于內容的代價函數,第二部分是基于對抗學習的代價函數?;趦热莸拇鷥r函數除了上述像素空間的最小均方差以外,又包含了一個基于特征空間的最小均方差,該特征是利用VGG網絡提取的圖像高層次特征:

對抗學習的代價函數是基于判別器輸出的概率:

其中D_{\theta D}()是一個圖像屬于真實的高分辨率圖像的概率。G_{\theta G}(I^{LR})是重建的高分辨率圖像。SRGAN使用的生成式網絡和判別式網絡分別如下:

該方法的實驗結果如下

從定量評價結果上來看,PSNR和SSIM這兩個指標評價的是重建結果和金標準在像素值空間的差異。SRGAN得到的評價值不是最高。但是對于MOS(mean opinion score)的評價顯示,SRGAN生成的高分辨率圖像看起來更真實。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,565評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,115評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 177,577評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,514評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,234評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,621評論 1 326
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,641評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,822評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,380評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,128評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,319評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,879評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,548評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,970評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,229評論 1 291
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,048評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,285評論 2 376

推薦閱讀更多精彩內容