Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification讓世界充滿顏色：端到端圖片自動著色協同算法

1.論文概要

論文題目：Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification
論文作者：Satoshi Iizuka, Edgar Simo-Serra, and Hiroshi Ishikawa
原文連接：http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf

2.論文內容

image.png

2.1摘要

??本文基于CNN提出了一種聯合局部特征和全局先驗信息的灰度圖自動著色技術。基于CNN，本文提出了一種綜合考慮全局先驗信息和局部特征信息的融合特征層來給圖片著色。整個框架以端到端的形式訓練，而且與一般CNN不同，該框架可以處理任意分辨率的圖片。此外，本文使用現有的大規模圖片分類數據集來訓練模型，將分類標簽加入其中，更有效地學習到更具判別性的全局先驗信息。與時下最優的算法相比，無論是用戶研究還是在一百多年以前的老照片上做的實驗，本文算法都取得了顯著的提升。

2.2引入

??對于傳統的上色算法來講，無論是用戶涂色或者圖片分割的形式，都需要進行用戶交互。但這篇論文里，作者提出了一種完全自動的基于數據驅動的灰度圖上色方法，即從整張圖片獲得全局先驗信息和從局部patch中獲得局部圖片特征聯合自動上色。全局先驗信息從整張圖片的角度提供信息，如圖片是室內拍的還是室外拍的，是白天拍的還是晚上拍的等等。局部信息則提供了紋理或者物體信息。綜合這兩種特征，無論是給什么圖片上色，都不需要用戶交互。
??本文訓練網絡時使用了圖片類別信息，不過這個步驟對于著色來講并不是必需的。本文使用的色彩空間為CIE Lab顏色空間，通過網絡模型來預測圖片的色彩信號a和b，最后結合灰度圖本身的L信息，進行最終著色。使用Lab顏色空間，不需要進行L通道的計算，這樣一來既節省計算資源，又能讓預測更準確。整個方法不需要預處理或者后處理。
??本算法網絡模型包含4個主要部分：低階特征網絡，中階特征網絡，全局特征網絡和著色網絡。首先，一組共享的低階特征通過低階特征網絡計算出來。通過使用這些低階特征，中階特征網絡和高階特征網絡分別進行特征提取，然后再通過融合層進行融合。融合后的特征作為著色網絡的輸入，最終輸出圖片的色彩信號。此外，網絡還有一個副產品就是預測圖片的類別信息。整個網絡可以處理任意分辨率的圖片。
??由于圖片的全局先驗信息和局部特征是分開計算的，這使得本方法可以將一張圖片的全局先驗信息和另一張圖片的局部特征進行融合，來改變一張圖片的風格。例如，如果我們將一張黃昏時候拍攝的照片的全局先驗特征和一個晴朗的沙灘風光的局部特征進行融合，我們就會得到一個晴朗的沙灘的黃昏時候的照片風光。除此之外，一張照片也可以被處理成它是在另外一個不同的季節拍攝的效果。這些反映了模型的靈活性。
??驗證算法時，作者請用戶來觀看照片，并判斷照片是不是自然拍攝的。本算法處理的照片有92.6%被用戶認為是“自然的”，而另外一些算法則大概只有70%的概率。對于一些20世紀初期拍攝的黑白照片，本算法也顯示了令人信服的效果。
??總之，本文貢獻有以下幾點：
??無需用戶交互；
??端到端的協同網絡；
??加入圖片標簽增強性能；
??圖片風格轉換技術；
??通過用戶研究和百年以上的老照片驗證算法。

2.3網絡結構

image.png

??本文網絡結構如圖所示，除了著色層的輸出層使用Sigmoid激活函數以外，其他層激活函數均使用ReLU激活函數。

2.3.1共享低階特征

??6層的CNN獲得圖片低階特征信息，卷積濾波器組是共享的，輸送特征至全局特征網絡和中階特征網絡。這一點和雙胞胎網絡相似，但是本模型里只有這一個子部分是共享的。本文沒有使用max-pooling來降低feature map的尺度，而是通過增加卷積步長來實現這個效果。不是每個像素連續計算卷積，而是每隔一個像素計算一次卷積。通過padding來使得輸出層尺寸是輸入層的一半。這樣可以替換掉max-pooling層，并且維持很好的性能。本文只使用了33的卷積核，使用11的padding來確保輸出尺寸是輸入尺寸的一半或者和輸入尺寸相等。

2.3.2全局特征

??最終的全局特征是一個256維的向量。由于全局特征網絡中全連接層的存在，全局特征網絡的低階特征網絡部分需要將輸入圖片的尺寸變換為224*224大小。不過這個不影響整個方法。

2.3.3中階特征

??中階特征緊接著低階特征層的輸出。由于低階特征到中階特征是全卷積的，所以輸入是h*w的圖片時，輸出是h/8 * w/8 * 256的特征。

2.3.4

??為了將全局特征的256維向量和和局部特征的h/8 * w/8 * 256進行融合，我們使用以下公式：

image.png

其中，

是坐標(u,v)處的特征，是一個256維的向量，全局特征也是256維向量，而W是256*512矩陣，b是256維偏置向量，所以最后得到融合特征為一個256維向量。W和b都可以通過網絡學習得到。這部分可以看作把全局特征和中階特征通過一個單層網絡聯合起來，并處理成一個尺寸和中階特征一致的3D型特征。因此，這使得最后的結果不受類似于全局特征的那種分辨率限制。

2.3.5著色層

??特征一旦融合完成，它們會繼續被卷積層和上采樣層處理。上采樣使用最近鄰插值法，輸出會變成輸入的2倍。當最終結果是輸入尺寸hw的一半時停止卷積和上采樣操作。這部分的卷積層激活函數為Sigmoid函數，這令最后的輸出為2個0到1之間的數，這2個數分別作為La*b顏色空間的a和b的值。而L即為灰度值，這是已知的。所以，最后將h/2 * w/2 *2的特征上采樣為h * w * 2后與初始灰度圖h * w * 1合并，即為彩色圖像。整個網絡使用MSE(Mean Square Error)準則進行訓練，通過BP算法更新網絡權值。

2.3.6考慮類別進行著色

??只用彩色圖片訓練效果尚可，但是會出現明顯的錯誤，因為模型難以學習到正確的上下文，比如照片是室內還是室外等。由于網絡結構處理不了上下文問題，作者使用圖片的類別信息來協同訓練模型。類別標簽可以用來指導圖片的全局特征模型的訓練。本文引入了一個包含2個全連接層的小型網絡來實現這個功能。包含256個節點的隱含層，和相應數量的類別輸出層，本文為205類。這個小型網絡的輸入是全局特征網絡的倒數第二層輸出。同樣的，使用MSE損失函數來訓練模型：

image.png

3實驗效果

3.1照片著色效果

image.png

3.2與最優算法的對比實驗

image.png

3.3有全局信息(α≠0)和沒全局信息時的對比(α=0)，可以看出全局信息很關鍵

image.png

3.4風格轉換實驗

image.png

3.5對一百年前的老照片的處理

image.png

3.6不同顏色空間做出來的最后效果

image.png

3.7作者給出了典型的錯誤

image.png

3.8自己試驗

??作者在個人主頁給出了在線demo，大家可以去試一下：http://hi.cs.waseda.ac.jp:8082/
??我試了一些老照片，感覺有風景的都著色的比較好，純人物的話效果不是很好。個人猜想，可能是樹、草、云之類的東西紋理比較單一，容易被識別出來，建筑、室內裝飾之類的變化比較大，相對而言訓練數據不夠豐富。下面是一些測試結果：

1.jpg

2.jpg

3.jpg

4.jpg

最后編輯于：2017.12.08 07:54:45

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,698評論 6贊 539
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,202評論 3贊 426
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,742評論 0贊 382
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,580評論 1贊 316
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,297評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,688評論 1贊 327
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,693評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,875評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,438評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,183評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,384評論 1贊 372
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,931評論 5贊 363
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,612評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,022評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,297評論 1贊 292
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,093評論 3贊 397
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,330評論 2贊 377

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification讓世界充滿顏色：端到端圖片自動著色協同算法

Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification讓世界充滿顏色：端到端圖片自動著色協同算法

1.論文概要

2.論文內容

2.1摘要

2.2引入

2.3網絡結構

2.3.1共享低階特征

2.3.2全局特征

2.3.3中階特征

2.3.4

2.3.5著色層

2.3.6考慮類別進行著色

3實驗效果

3.1照片著色效果

3.2與最優算法的對比實驗

3.3有全局信息(α≠0)和沒全局信息時的對比(α=0)，可以看出全局信息很關鍵

3.4風格轉換實驗

3.5對一百年前的老照片的處理

3.6不同顏色空間做出來的最后效果

3.7作者給出了典型的錯誤

3.8自己試驗

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification讓世界充滿顏色：端到端圖片自動著色協同算法

1.論文概要

2.論文內容

2.1摘要

2.2引入

2.3網絡結構

2.3.1共享低階特征

2.3.2全局特征

2.3.3中階特征

2.3.4

2.3.5著色層

2.3.6考慮類別進行著色

3實驗效果

3.1照片著色效果

3.2與最優算法的對比實驗

3.3有全局信息(α≠0)和沒全局信息時的對比(α=0)，可以看出全局信息很關鍵

3.4風格轉換實驗

3.5對一百年前的老照片的處理

3.6不同顏色空間做出來的最后效果

3.7作者給出了典型的錯誤

3.8自己試驗

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

3.3有全局信息(α≠0)和沒全局信息時的對比(α=0)，可以看出全局信息很關鍵