題目
Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis
摘要
本文提出了一種基于語義布局的層次化文本圖像合成方法。該算法不是學習從文本到圖像的直接映射,而是將生成過程分解為多個步驟,首先通過布局生成器從文本中構造語義布局,然后通過圖像生成器將布局轉換為圖像。所提出的布局生成器通過生成對象邊界框并通過估計框內的對象形狀來細化每個框,以從粗到細的方式漸進地構建語義布局。圖像生成器根據(jù)推斷出的語義布局合成圖像,該語義布局提供與文本描述匹配的圖像的有用語義結構。我們的模型不僅生成語義上更有意義的圖像,而且允許通過修改生成的場景布局來自動注釋生成的圖像和用戶控制的生成過程。我們證明了該模型在挑戰(zhàn)MS-COCO數(shù)據(jù)集上的能力,并且表明該模型可以顯著地改善圖像質量、輸出的可解釋性以及對輸入文本的語義對齊。
簡介
從文本描述生成圖像一直是計算機視覺中一個活躍的研究課題。通過允許用戶用自然語言描述視覺概念,它為圖像生成提供了自然而靈活的接口。近年來,基于條件生成對抗網絡(GAN)的文本到圖像合成任務顯示出良好的結果[21,34,23]。通過對文本的生成器和鑒別器進行調節(jié),這些方法能夠生成既不同又與輸入文本相關的真實圖像。基于條件GAN框架,最近提出的方法通過生成高分辨率圖像[34]或增強文本信息[6,4]來進一步提高預測質量。然而,現(xiàn)有方法的成功主要局限于簡單的數(shù)據(jù)集,如鳥類[33]和花[17],而生成復雜的真實世界。
然而,現(xiàn)有方法的成功主要局限于簡單的數(shù)據(jù)集,如鳥類[33]和花[17],而生成復雜的、真實世界的圖像,如MS-COCO[13]仍然是一個公開的挑戰(zhàn)。如圖1所示,從句子“人們騎著大象穿過河流”生成圖像需要對多種視覺概念進行多種推理,比如對象類別(人和大象)、對象的空間配置(騎馬)、場景上下文(穿過河流)等等。這比在simpler數(shù)據(jù)集[33,17]中生成單個的大對象更復雜。由于從一般圖像學習直接文本到像素映射的復雜性,現(xiàn)有方法無法為這種復雜的文本描述生成合理的圖像。
與學習從文本到圖像的直接映射不同的是,我們提出了一種替代方法,將語義布局構造為文本和圖像之間的中間表示。語義布局基于對象實例定義場景的結構,并提供場景的細粒度信息,如對象的數(shù)量、對象類別、位置、大小、形狀等(圖1)。通過引入顯式地將圖像語義結構與文本對齊的機制,該方法可以生成匹配復雜文本描述的復雜圖像。此外,根據(jù)語義結構調整圖像生成允許我們的模型生成語義上更有意義的圖像,這些圖像易于識別和解釋。
我們的層次化文本到圖像合成模型包括兩部分:布局生成器,從文本描述構造語義標簽映射;圖像生成器,通過考慮文本將估計的布局轉換為圖像。由于學習從文本到細粒度語義布局的直接映射仍然是一個難題,因此我們將任務進一步分解為兩個可管理的子任務:首先使用框生成器估計圖像的邊界框布局,然后使用形狀生成器細化框內的每個對象的形狀。然后,生成的布局用于指導圖像生成器進行像素級合成。盒子生成器、形狀生成器和圖像生成器由獨立的神經網絡實現(xiàn),并與相應的監(jiān)督并行訓練。
我們的層次化文本到圖像合成模型包括兩部分:布局生成器,從文本描述構造語義標簽映射;圖像生成器,通過考慮文本將估計的布局轉換為圖像。由于學習從文本到細粒度語義布局的直接映射仍然是一個難題,因此我們將任務進一步分解為兩個可管理的子任務:首先使用框生成器估計圖像的邊界框布局,然后使用形狀生成器細化框內的每個對象的形狀。然后,生成的布局用于指導圖像生成器進行像素級合成。盒子生成器、形狀生成器和圖像生成器由獨立的神經網絡實現(xiàn),并與相應的監(jiān)督并行訓練。
生成語義布局不僅提高了文本到圖像合成的質量,而且提供了許多潛在的好處。首先,語義布局在生成的圖像上提供基于實例的注釋,這些注釋可以直接用于自動場景解析和對象重新篩選。其次,為控制圖像的生成過程提供了一個交互式界面,用戶可以通過刪除/添加對象、改變對象的大小和位置等方式修改精簡布局,生成期望的圖像。
這篇文章的貢獻如下:
本文提出了一種從復雜文本描述合成圖像的新方法。該模型從文本描述出發(fā),明確構建語義布局,并利用推理出的語義布局指導圖像生成。
通過在顯式布局預測上調節(jié)圖像生成,我們的方法能夠生成語義有意義且與輸入描述良好對齊的圖像。
我們對具有挑戰(zhàn)性的MS-COCO數(shù)據(jù)集進行了廣泛的定量和定性評估,并證明與現(xiàn)有工程相比,生成圖像質量顯著提高。
論文的其余部分組織如下。我們簡要回顧了第二節(jié)中的相關工作,并提供了第三節(jié)中建議的方法的概述。我們的布局和圖像生成模型分別在第4節(jié)和第5節(jié)中介紹。我們在第六節(jié)討論了MS-COCO數(shù)據(jù)集上的實驗結果。
相關工作
從文本描述生成圖像最近引起了研究界的廣泛關注。為了將任務作為條件圖像生成問題來研究,基于變分自動編碼器(VAE)[14]、自回歸模型[22]、優(yōu)化技術[16]等提出了多種方法。近年來,基于條件生成對抗網絡(GAN)[7]的應用在文本到圖像之間顯示出良好的合成結果[21,23,34,6,4]。里德等人[21]提出以文本嵌入為條件學習生成器和鑒別器。張等[34]采用兩級GAN提高圖像分辨率,提高了圖像質量。其他方法包括通過用合成的字幕擴充文本數(shù)據(jù)來改進條件泛型[6],或在類標簽上添加條件[4]。雖然這些方法在特定類別(例如,鳥類[33]和花[17])的數(shù)據(jù)集上顯示了令人印象深刻的生成結果,但是在具有復雜圖像的數(shù)據(jù)集(例如,MS-COCO[13])上,生成的感知質量趨向于顯著降低。通過對推理語義布局的生成條件進行調整,研究了一種提高一般圖像文本到圖像合成的方法。
最近[3,10,12,22]研究了從逐像素語義標簽生成圖像的問題。在這些方法中,圖像生成的任務是作為將語義標簽翻譯成像素。伊索拉等。[10]提出了一種將密集的像素級標簽轉換為圖像的像素對像素轉換網絡,以及Chen[3]提出了一種級聯(lián)細化網絡,用于生成密集語義標簽的高分辨率輸出。卡拉坎等[12]使用密集布局和屬性向量來使用條件GAN生成圖像。尤其里德等[22]像我們的方法一樣利用稀疏標簽映射。與以前要求生成基本真值布局的方法不同,我們的方法推斷精義布局,因此更一般地適用于各種生成任務。注意,我們的主要貢獻是對這些方法的補充,并且可以集成現(xiàn)有的像素分割生成方法,以生成根據(jù)由我們的方法推斷的布局調整的圖像。
用于圖像生成的場景結構推斷的思想并不新鮮,因為最近一些領域的工作已經對它進行了探索。例如,王等人[32]提出將表面法線圖推斷為生成室內場景圖像的中間結構,以及Villegas等[29]預測用于未來幀預測的人體關節(jié)。與我們的方法最相關的工作是Reed等[23],用于預測鳥類或人類的局部關鍵點,用于文本-圖像合成。與以往的預測這種特定類型的圖像生成結構的方法不同,我們提出的方法旨在預測語義標簽映射,這是自然圖像的一般表示。
綜述
建議的框架的整個流水線如圖2所示。給定文本描述,我們的模型通過利用以下生成序列細化圖像的語義結構來逐步構建場景:
邊界框生成器以文本嵌入s作為輸入,并通過在圖像中按原樣組合對象來生成粗略布局??蛏善鞯妮敵鍪且唤M邊界框B 1:T={B 1,...,B T},其中每個邊界框B t定義第t個對象的位置、大小和類別標簽。
形狀生成器從框生成器中獲取一組邊界框,并預測框內的對象的形狀。形狀生成器的輸出是一組二進制掩碼M 1:T={M 1,...,M T},其中每個掩碼M T定義第t個對象的前景形狀。
圖像生成器采用通過聚合實例化掩碼獲得的語義標簽映射M和文本嵌入作為輸入,并通過將語義布局轉換為匹配文本描述的像素來生成圖像。
從文本中推斷語義布局
邊界框生成
給定輸入文本嵌入s,我們首先以目標邊界框的形式生成圖像的粗略布局。我們將每個邊界框B t與一個類標簽相關聯(lián),以定義要放置的對象的類和位置,這對于確定場景的全局布局起著關鍵作用。特別地,我們將第t個對象的標記邊界框表示為B t=(b t,l t),其中b t=[b t,x,b t,y,b t,w,b t,h]∈R 4表示邊界框的位置和大小,并且l t∈{0,1}L+1是L類上的一個熱類標簽。我們保留第(L+1)類作為序列末尾的特殊指示符。
邊界框生成器G框定義從輸入文本s到一組T對象邊界框B 1:T={B 1,...,B T}的隨機映射:
模型。我們采用自回歸譯碼器作為盒生成器,通過將條件聯(lián)合邊界Q T盒概率分解為p(B 1:T|s)=t=1p(B 1:t_1,s),其中條件由LSTM[9]近似。在生成過程中,我們首先為第t個對象采樣一個類標簽l t,然后生成條件為l t的箱坐標b t,即p(B t|·)=p(b t,l t|·)=p(l t|·)p(b t|l t,·)。這兩個條件分別由高斯混合模型(GMM)和分類分布[8]建模:
訓練。我們通過最小化真值邊界框的負對數(shù)可能性來訓練盒生成器:
在測試時,我們分別通過等式(2)和(3)對框坐標和類標簽進行祖先采樣來生成邊界框。當采樣的類標簽對應于終止指示符(L+1)時,我們終止采樣,從而基于文本自適應地確定對象的數(shù)量。
形狀生成器
給定由邊界框生成器獲得的一組邊界邊界框,形狀生成器以對象掩碼的形式預測更詳細的圖像結構。具體地,對于由等式(1)得到的每個對象包圍盒B t,我們生成一個二進制掩碼MT∈R H×W,它定義了盒內對象的形狀。為此,我們首先將離散邊界盒的輸出{B t}轉換為二元張量B t∈{0,1}H×W×L,其元素是1當且僅當它包含在相應的類標號盒中。使用符號M 1:T={M 1,...,M T},我們將形狀生成器G掩碼定義為
生成精確的對象形狀應滿足兩個要求:(i)首先,每個實例式掩模MT都應該匹配B t的位置和類信息,并且可以識別為單個實例(實例式約束)。(ii)第二,每個物體形狀必須與其周圍環(huán)境(全局約束)對齊。為了滿足兩者,我們將形狀發(fā)生器設計成遞歸神經網絡,該神經網絡通過如下描述的兩個條件對抗損失進行訓練。
模型。我們使用卷積遞歸神經網絡[25]構建形狀生成器G掩碼,如圖2所示。在每個步驟t,模型通過編碼CNN取B t,并通過雙向卷積LSTM(Bi-convLSTM)對所有對象實例的信息進行編碼。在第t步的convLSTM輸出之上,通過空間平鋪和連接來添加噪聲z t,并通過解碼器CNN轉發(fā)來生成掩碼MT。
訓練。形狀生成器的訓練基于GAN框架[7],其中發(fā)生器和鑒別器交替訓練。為了執(zhí)行前面討論的全局約束和實例約束,我們使用兩個條件對抗性損失[15],其中實例鑒別器D inst和全局鑒別器D.。
首先,我們鼓勵每個對象掩碼與由對象邊界框編碼的類和位置信息兼容。我們通過優(yōu)化下列實例的對抗損失來訓練實例鑒別器D inst:
另一方面,全局丟失鼓勵所有基于實例的掩碼形成全局一致的上下文。為了考慮不同對象之間的關系,我們將它們聚合為一個全局掩碼1G全局(B 1:T,z 1:T)=P(t)t G掩碼(B 1:t,z 1:t),并計算類似于等式(6)的全局對抗損失。
最后,我們另外強加一個重建損失L rec,它鼓勵預測的實例掩碼與地面事實相似。我們使用感知損耗[11,3,31,2]來實現(xiàn)這個想法,它測量在預訓練CNN的特征空間中真實圖像和偽圖像的距離。
結合等式(6)、(7)和(8),形狀生成器的總體訓練目標變?yōu)?/p>
從文本和布局中合成圖像
布局生成器的輸出定義對象的位置、大小、形狀和類信息,這些信息提供與文本相關的場景的語義結構。給定語義結構和文本,圖像生成器的目標是生成符合這兩種條件的圖像。為此,我們首先將二進制對象掩碼M 1:T聚集到一個語義標簽映射M∈{0,1}H×W×L,使得M i j k=1當且僅當存在掩碼M T覆蓋像素(i,j)的k類對象。然后,給定語義布局M和文本s,圖像生成器被定義為
模型。圖3說明了圖像生成器的總體架構。我們的發(fā)生器網絡是基于卷積編譯碼器網絡[10],經過若干修改。首先通過幾個下采樣層對語義布局M進行編碼,構造布局特征A∈R h×w×d。我們考慮布局特征沿通道維度對輸入布局的各種上下文信息進行編碼。為了自適應地選擇與文本相關的上下文,我們將注意力放在布局特征上。具體地,我們從文本嵌入中計算一個d維向量,并在空間上復制它來構造S∈R h×w×d。然后,我們用A g=A_(S)對布局特征進行門控,其中是sigmoid非線性度,而_表示元素乘法。為了進一步對背景中的文本信息進行編碼,我們計算另一個嵌入有獨立全連通層的文本,并將其空間復制到大小h×w上,然后將柵極布局特征A g、文本嵌入和噪聲沿通道維進行級聯(lián),然后依次饋入多個剩余塊并解碼。der被映射到圖像。我們采用級聯(lián)網絡[3]作為解碼器,將語義布局M作為每個上采樣層的常規(guī)輸入。我們發(fā)現(xiàn),級聯(lián)網絡增強了對布局結構的調節(jié),產生了更好的對象邊界。
對于鑒別器網絡D img,我們首先將生成的圖像X和語義布局M連接起來,通過一系列下采樣塊進行饋電,得到大小為h′×w′的特征圖。我們將其與空間平鋪的文本嵌入連接起來,從中我們計算鑒別器的決策得分。
訓練。在[20]所提取的語義布局M和文本嵌入s的條件下,圖像生成器G img與鑒別器D img聯(lián)合訓練。我們用L img=λaLadv+λrLrec定義目標函數(shù),其中
實驗
實驗裝置
數(shù)據(jù)集。我們使用MS-COCO數(shù)據(jù)集[13]來評估我們的模型。它包含超過80個語義類的164000個訓練圖像,其中每個圖像與逐個實例的注釋(即,對象邊界框和分割掩碼)和5個文本描述相關聯(lián)。數(shù)據(jù)集具有復雜場景,其中許多對象在不同的上下文中,這使得生成非常具有挑戰(zhàn)性。我們分別使用MS-COCO 2014的正式訓練和驗證片段來訓練和評價我們的模型。
評估度量。我們使用各種度量來評估文本條件圖像生成性能:初始評分、標題生成和人類評價。
初始分數(shù)-我們通過對合成圖像應用預先訓練的分類器并調查其得分分布的統(tǒng)計來計算初始分數(shù)[24]。它測量生成的圖像的可識別性和多樣性,并且已知與人們對視覺質量的感知相關[18]。我們使用ImageNet[5]上預訓練的Inception-v3[27]網絡進行評估,并測量所有驗證圖像的得分。
字幕生成-除了初始評分,評估文本條件圖像生成的性能需要測量生成的圖像與輸入文本的相關性。為此,我們從合成圖像中生成句子,并測量輸入文本和預測語句之間的相似度?;镜闹庇X是,如果生成的圖像與輸入文本相關,并且其內容是可識別的,那么應該能夠從合成圖像中猜測原始文本。我們使用在MS-COCO上訓練的圖像字幕生成器[30]來生成句子,其中每個圖像通過貪婪解碼生成一個句子。我們報告了三種標準的語言相似性度量:BLEU[19]、METEOR[1]和CIDER[28]。
人類評價-基于字幕生成的評價對大規(guī)模評價是有益的,但是可能引入字幕生成器的意外偏倚。為了驗證基于字幕的評估的有效性,我們使用AmazonMachineryTurk進行人性化評估。對于從MS-COCO驗證集中隨機選擇的每個文本,我們給出了用不同方法生成的5幅圖像,并要求用戶根據(jù)生成的圖像與文本的相關性對它們進行排序。我們收集了1000個句子的結果,每個句子由5個用戶注釋。我們根據(jù)每種方法被評為最佳方法的比率,以及我們與基線的一對一比較來報告結果。
定量分析
我們將我們的方法與基于條件GAN的兩種最新方法[21,34]進行比較。表1和表2總結了定量評價結果。
與其他方法的比較。我們首先給出基于初始評分和字幕生成性能的系統(tǒng)評估結果。結果總結在表1中。所提出的方法顯著優(yōu)于基于兩個評估度量的現(xiàn)有方法。在初始評分方面,我們的方法以相當大的優(yōu)勢優(yōu)于現(xiàn)有的方法,可能是因為我們的方法生成了更多可識別的對象。字幕生成性能表明,從合成圖像中生成的字幕與輸入文本的關聯(lián)性比基線更強。這表明,我們的方法生成的圖像與去腳本更好地對齊,并且更容易識別語義內容。
表2總結了基于人類評價的比較結果。當要求用戶根據(jù)圖像與輸入文本的相關性對圖像進行排序時,他們選擇由我們的方法生成的圖像作為所有呈現(xiàn)文本的大約60%中的最佳,這大大高于基線(約20%)。這與表1中的字幕生成結果一致,在表1中,我們的方法的性能顯著優(yōu)于基線,而它們的性能是可比的。
圖4說明了定性比較。由于通用的訓練,由其他方法生成的圖像,尤其是StackGAN[34],趨向于清晰并顯示高頻細節(jié)。然而,由于圖像往往不能預測物體和場景的重要語義結構,因此很難從圖像中識別出內容。作為結果,從生成的圖像中重構的標題通常與輸入文本不相關。與它們相比,我們的方法通過利用推斷的語義布局來調節(jié)生成的條件,從而生成更加可識別和語義有意義的圖像,并且能夠重構與輸入句子更好地對齊的描述。
燒蝕分析。為了理解預測的語義布局的質量及其重要性,我們用基本事實逐步替換布局生成器預測的邊界框和掩模布局,進行消融研究。表1總結了定量評估結果。正如它顯示的,將預測的布局替換為基本事實將導致逐漸的性能改進,這顯示了邊界框和掩碼布局中的預測錯誤。
定性分析
圖5顯示了我們方法的定性結果。對于每個文本,我們將生成的圖像與預測的語義布局一起呈現(xiàn)。與前一節(jié)一樣,我們還給出了以基本事實布局為條件的結果。如它所示,我們的方法生成合理的語義布局和匹配輸入文本的圖像;生成與文本中嵌入的細粒度場景結構(即對象類別、對象數(shù)量)相對應的邊界框,以及捕獲特定于類的視覺屬性以及與其他對象的關系的對象掩碼。根據(jù)推斷的布局,我們的圖像生成器生成正確的對象外觀和與文本兼容的背景。用基本事實替換預測的布局使得生成的圖像具有與原始圖像類似的上下文。
樣本的多樣性。為了評估生成中的多樣性,我們在固定輸入文本的同時對多個圖像進行采樣。圖6說明了我們的方法生成的示例圖像。我們的方法根據(jù)相同的文本描述生成不同的語義結構,同時保留語義細節(jié),如對象數(shù)量和對象類別。
文本條件生成。為了了解我們的模型在生成過程中如何結合文本描述,我們在修改部分描述的同時生成圖像。圖7說明了示例結果。在改變對象類別、對象數(shù)量、對象空間組成、背景模式等描述上下文時,該方法根據(jù)文本修改后的部分正確地調整語義結構和圖像。
可控制圖像生成。我們通過修改邊界框布局來演示可控圖像生成。圖8說明了示例結果。我們的方法基于修改后的語義布局(例如,添加新對象、改變對象的空間配置)更新對象形狀和上下文,并生成合理的圖像。
結論
我們提出了一種文本到圖像的合成方法,它顯式地推斷和利用語義布局作為文本到圖像的中間表示。我們的模型通過一系列生成器以從粗到細的方式分層地構建語義布局。通過將圖像生成條件限定在顯式布局預測上,我們的方法生成了保留語義細節(jié)并且與文本描述高度相關的復雜圖像。我們還表明,所預測的布局可以用于控制生成過程。我們相信,對布局和圖像生成的端到端的訓練將是今后有趣的工作。