2017.7.28

學(xué)習(xí)情況總述:

1、理論性論文:

· Improved wgan :Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein gans[J]. arXiv preprint arXiv:1704.00028, 2017

· ACGAN:Odena A, Olah C, Shlens J. Conditional image synthesis with auxiliary classifier gans[J]. arXiv preprint arXiv:1610.09585, 2016.

· DenseNet:Huang G, Liu Z, Weinberger K Q, et al. Densely connected convolutional networks[J]. arXiv preprint arXiv:1608.06993, 2016.

2、醫(yī)療應(yīng)用型論文:

·Nie D, Cao X, Gao Y, et al. Estimating CT image from MRI data using 3D fully convolutional networks[C]//International Workshop on Large-Scale Annotation of Biomedical Data and Expert Label Synthesis. Springer International Publishing, 2016: 170-178.

·Oktay O, Bai W, Lee M, et al. Multi-input cardiac image super-resolution using convolutional neural networks[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer International Publishing, 2016: 246-254.

3、模型實(shí)現(xiàn):根據(jù)所提供的improved wgan開源代碼,實(shí)現(xiàn)了cifar數(shù)據(jù)生成模型。

4、后續(xù):前兩天的CVPR2017所篩選出的論文:

· MDNet:A Semantically and Visually Interpretable Medical Image Diagnosis Network

· Fast PET reconstruction using Multi-scale FCN

· High-Resolution Image Inpainting using Multi-Scale Neural Patch Synthesis

· Enhanced Deep Residual Networks for Single Image Super-Resolution

論文解讀:

· Improved wgan:現(xiàn)階段最先進(jìn)的生成對(duì)抗網(wǎng)絡(luò)。

在WGAN中,研究者們發(fā)現(xiàn)失敗的案例通常是由使用權(quán)重剪枝來對(duì)critic實(shí)施Lipschitz約束導(dǎo)致的。蒙特利爾大學(xué)的研究者對(duì)WGAN進(jìn)行改進(jìn),提出了一種替代WGAN判別器中權(quán)重剪枝的方法,下面是他們所做的工作:,

1、通過小數(shù)據(jù)集上的實(shí)驗(yàn),概述了判別器中的權(quán)重剪枝是如何導(dǎo)致影響穩(wěn)定性和性能的病態(tài)行為的。

2、提出具有梯度懲罰的WGAN(WGAN with gradient penalty),從而避免同樣的問題。

3、展示該方法相比標(biāo)準(zhǔn)WGAN擁有更快的收斂速度,并能生成更高質(zhì)量的樣本。

4、展示該方法如何提供穩(wěn)定的GAN訓(xùn)練:幾乎不需要超參數(shù)調(diào)參,成功訓(xùn)練多種針對(duì)圖片生成和語(yǔ)言模型的GAN架構(gòu)

由于在WGAN中使用權(quán)重剪枝可能會(huì)導(dǎo)致不良結(jié)果,研究者考慮在訓(xùn)練目標(biāo)上使用Lipschitz約束的一種替代方法:一個(gè)可微的函數(shù)是1-Lipschitz,當(dāng)且僅當(dāng)它的梯度具有小于或等于1的范數(shù)時(shí)。因此,可以直接約束critic函數(shù)對(duì)其輸入的梯度范數(shù)。新的critic函數(shù)為:

為了展示該方法訓(xùn)練過程中的穩(wěn)定性,研究者在LSUN臥室訓(xùn)練集上訓(xùn)練了多種不同的GAN架構(gòu),除了DCGAN外,研究者還選擇了另外六種較難訓(xùn)練的架構(gòu),如下圖所示:

上圖顯示的樣本都是經(jīng)過200k次迭代的結(jié)果。前為止,梯度懲罰的WGAN是唯一一種使用同一種默認(rèn)超參數(shù),并在每個(gè)架構(gòu)下都成功訓(xùn)練的方法。而所有其他方法,都在一些架構(gòu)下不穩(wěn)定。論文還有更多實(shí)驗(yàn)了論證wgan-gp的性能。

· DenseNet:CVPR2017 best paper,主要對(duì)比了殘差網(wǎng)絡(luò),性能最好的CNN模型。

近幾年來,隨著卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的迅速發(fā)展,學(xué)術(shù)界涌現(xiàn)出一大批非常高效的模型,如 GoogleNet、VGGNet、ResNet 等,在各種計(jì)算機(jī)視覺任務(wù)上均嶄露頭角。但隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)在訓(xùn)練過程中的前傳信號(hào)和梯度信號(hào)在經(jīng)過很多層之后可能會(huì)逐漸消失。先前有一些非常好的工作來解決這一問題。如在 Highway 和 ResNet 結(jié)構(gòu)中均提出了一種數(shù)據(jù)旁路(skip-layer)的技術(shù)來使得信號(hào)可以在輸入層和輸出層之間高速流通,核心思想都是創(chuàng)建了一個(gè)跨層連接來連通網(wǎng)路中前后層。在本文中,作者基于這個(gè)核心理念設(shè)計(jì)了一種全新的連接模式。為了最大化網(wǎng)絡(luò)中所有層之間的信息流,作者將網(wǎng)絡(luò)中的所有層兩兩都進(jìn)行了連接,使得網(wǎng)絡(luò)中每一層都接受它前面所有層的特征作為輸入。由于網(wǎng)絡(luò)中存在著大量密集的連接,作者將這種網(wǎng)絡(luò)結(jié)構(gòu)稱為 DenseNet。其結(jié)構(gòu)示意圖如下左圖所示:


它主要擁有以下兩個(gè)特性:1)一定程度上減輕在訓(xùn)練過程中梯度消散的問題。因?yàn)閺纳献髨D我們可以看出,在反傳時(shí)每一層都會(huì)接受其后所有層的梯度信號(hào),所以不會(huì)隨著網(wǎng)絡(luò)深度的增加,靠近輸入層的梯度會(huì)變得越來越小。2)由于大量的特征被復(fù)用,使得使用少量的卷積核就可以生成大量的特征,最終模型的尺寸也比較小。

上右圖所示的是構(gòu)成 DenseNet 的單元模塊,看上去和 ResNet 的單元模塊非常相似,但實(shí)際上差異較大。

1)為了進(jìn)行特征復(fù)用,在跨層連接時(shí)使用的是在特征維度上的 Concatenate 操作,而不是 Element-wise Addition 操作。

2)由于不需要進(jìn)行 Elewise-wise 操作,所以在每個(gè)單元模塊的最后不需要一個(gè) 1X1 的卷積來將特征層數(shù)升維到和輸入的特征維度一致。

3)采用 Pre-activation 的策略來設(shè)計(jì)單元,將 BN 操作從主支上移到分支之前。(BN->ReLU->1x1Conv->BN->ReLU->3x3Conv)

4)由于網(wǎng)絡(luò)中每層都接受前面所有層的特征作為輸入,為了避免隨著網(wǎng)絡(luò)層數(shù)的增加,后面層的特征維度增長(zhǎng)過快,在每個(gè)階段之后進(jìn)行下采樣的時(shí)候,首先通過一個(gè)卷積層將特征維度壓縮至當(dāng)前輸入的一半,然后再進(jìn)行 Pooling 的操作。

5)增長(zhǎng)率的設(shè)置。增長(zhǎng)率指的是每個(gè)單元模塊最后那個(gè) 3x3 的卷積核的數(shù)量,記為 k。由于每個(gè)單元模塊最后是以 Concatenate 的方式來進(jìn)行連接的,所以每經(jīng)過一個(gè)單元模塊,下一層的特征維度就會(huì)增長(zhǎng) k。它的值越大意味著在網(wǎng)絡(luò)中流通的信息也越大,相應(yīng)地網(wǎng)絡(luò)的能力也越強(qiáng),但是整個(gè)模型的尺寸和計(jì)算量也會(huì)變大。作者在本文中使用了 k=32 和 k=48 兩種設(shè)置。

在 ImageNet 上的實(shí)驗(yàn)結(jié)果如下:

Comparison of the DenseNet and ResNet Top-1 (single model and single-crop)error rates on the ImageNet classification dataset as a function of learned parameters (left) and flops during test-time (right).

上左圖表示的是參數(shù)量和錯(cuò)誤率的關(guān)系,上右圖表示的是模型測(cè)試的計(jì)算量和錯(cuò)誤率的關(guān)系。我們不難看出,在達(dá)到相同精度時(shí),DenseNet 的參數(shù)量和計(jì)算量均為 ResNet 的一半左右。

總的來說,這是一篇非常有創(chuàng)新性的工作,提出了共享特征、任意層間互連的概念很大程度上減輕了深層網(wǎng)絡(luò)在訓(xùn)練過程中梯度消散而難以優(yōu)化的問題,同時(shí)也減小了模型的尺寸和計(jì)算量,在標(biāo)準(zhǔn)數(shù)據(jù)集上獲得了非常好的性能。唯一可能的不足是網(wǎng)絡(luò)不能設(shè)計(jì)地特別「深」,因?yàn)殡S著 DenseNet 網(wǎng)絡(luò)層數(shù)的增加,模型的特征維度會(huì)線性增長(zhǎng),使得在訓(xùn)練過程中的計(jì)算量和顯存開銷也會(huì)爆發(fā)地增長(zhǎng)。

· ACGAN:我之前的想法與部分內(nèi)容有些雷同了

摘要

合成高分辨率圖像是機(jī)器學(xué)習(xí)中一個(gè)長(zhǎng)期存在的挑戰(zhàn),文中介紹了圖像合成的一個(gè)改進(jìn)訓(xùn)練GANs的新方法。我們運(yùn)用標(biāo)簽條件構(gòu)建了一個(gè)變種GANs,產(chǎn)生顯示出全局一致性的128×128分辨率的圖像樣本。我們擴(kuò)展了以前的圖像質(zhì)量評(píng)價(jià)工作,提出了兩種新的分析方法,以評(píng)價(jià)類別條件圖像合成模型的樣本的可區(qū)分性和多樣性。這些分析表明,高分辨率樣本提供了在低分辨率樣本中不存在的類別信息。在1000個(gè)ImageNet類中,128×128的樣本比人工調(diào)整的32×32 大小的樣本高出兩倍的可分性。并且,84.7%的類別具有與真實(shí)ImageNet 數(shù)據(jù)可比擬的樣本表達(dá)多樣性。

其目的:

1、生成高分辨率圖像改善可分性

構(gòu)建類條件圖像合成模型需要測(cè)量合成圖像看起來屬于預(yù)期類的程度。特別酸,我們想知道一個(gè)高分辨率樣本不僅僅是單純的調(diào)整一個(gè)低分辨率樣本的大小??紤]一個(gè)簡(jiǎn)單的實(shí)驗(yàn),假設(shè)存在一個(gè)合成32×32大小圖像的模型??梢酝ㄟ^執(zhí)行雙線性插值來簡(jiǎn)單地提升合成圖像的分辨率,但是這些圖像只是低分辨率圖像的模糊版本,是不可分辨的。因此,圖像合成模型的目標(biāo)不是簡(jiǎn)單地生成高分辨率圖像,而是生成比地分辨率圖像更可分的高分辨率圖像。

為了測(cè)量可分辯性,我們將合成圖像提供給一個(gè)預(yù)訓(xùn)練的初始網(wǎng)絡(luò),并報(bào)告了初始網(wǎng)絡(luò)分配出正確標(biāo)簽的樣本分?jǐn)?shù)。我們?cè)谝幌盗姓鎸?shí)和合成圖像上計(jì)算這一精度測(cè)量,這些圖像通過雙線性插值人為地降低了空間分辨率。注意,隨著空間分辨率的降低,精度也隨之降低,表明產(chǎn)生的圖像包含較少的類信息。我們通過ImagNet訓(xùn)練數(shù)據(jù)的所有1000個(gè)ImageNet 類別,圖3中的128×128分辨率和64×64 分辨率中總結(jié)出這一發(fā)現(xiàn)。該分析的目的是現(xiàn)實(shí)合成更高分辨率的圖像導(dǎo)致可辨別性增加。

2、測(cè)量生成圖像的多樣性

醫(yī)學(xué)應(yīng)用性論文:見上次未講的ppt。

模型實(shí)現(xiàn):

根據(jù)論文所提供的代碼,實(shí)現(xiàn)了論文中的cifar數(shù)據(jù)集實(shí)驗(yàn)。

WGAN-GP經(jīng)過200000輪生成的圖片
每輪所需時(shí)間
訓(xùn)練集損失函數(shù)的收斂曲線

大致復(fù)原了實(shí)驗(yàn),驗(yàn)證了WGAN-GP的性能。

原論文實(shí)驗(yàn)中關(guān)于生成模型的inception_sorce曲線在我的實(shí)驗(yàn)中未跑通實(shí)現(xiàn),inception_sorce主要用于定量評(píng)價(jià)生成圖像的指標(biāo)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容