A Neural Algorithm of Artistic Style:https://arxiv.org/pdf/1508.06576v2.pdf
一. 介紹
1. Content reconstructions:?
CNN被廣泛運(yùn)用于訓(xùn)練目標(biāo)識(shí)別,隨著訓(xùn)練的進(jìn)行,它們能夠有一種將圖片抽象的能力。最終,圖片被抽象為只含有實(shí)際內(nèi)容的信息,而丟掉許多像素細(xì)節(jié)。越多層的CNN越能捕捉主要的圖片內(nèi)容。所以我們將深層的CNN抽象出來(lái)的內(nèi)容稱(chēng)為content representation.
2. Style reconstructions:
為了獲得圖片的風(fēng)格特征,我們利用feature space去捕捉圖片的質(zhì)地特征。這些feature space建立于每層網(wǎng)絡(luò)的filter之上。它由特征圖(feature map)的空間范圍內(nèi)的不同濾波器響應(yīng)之間的相關(guān)性組成。
這篇論文的發(fā)現(xiàn)是style reconstructions和content reconstructions是可分的。那就是說(shuō),可以分別從不同的圖片得到style和不同的圖片得到content,然后將它們結(jié)合起來(lái),構(gòu)成新的圖片。
二. 方法
1. 結(jié)構(gòu)
(1) style reconstructions
We used the feature space provided by the 16 convolutional and 5 pooling layers of the 19 layer VGG-Network. We do not use any of the fully connected layers.
(2) image synthesis
we found that replacing the max-pooling operation by average pooling improves the gradient flow and one obtains slightly more appealing results, which is why the images shown were generated with average pooling.
2. 誤差函數(shù)
(1) content reconstructions loss function:
每層有N_l個(gè)不同的濾波器,有N_l個(gè)M_l大小的feature map, M_l指的是feature map的高度乘以寬度。 所以feature在l層的表示被存在一個(gè)F_L的矩陣?yán)铮現(xiàn)_l(i,j)指的是在l層,位置j的第i個(gè)filter的激活值。P_I(i,j)就是在上面位置的原圖的值。
(2) style reconstructions loss function:
(3) image synthesis loss function: