High-Resolution Image Synthesis with Latent Diffusion Models2022-11-19

motivation

由于擴散模型(Diffusion Models,DM)通常直接在像素空間中操作,優化功能強大的DM通常會消耗數百個GPU天,而且由于順序計算,擴散模型的推理也非常昂貴。為了在有限的計算資源上進行DM訓練,同時保持其質量和靈活性,本文在強大的預訓練自動編碼器的潛在空間中使用擴散模型。與之前的工作相比,在這種表示上訓練擴散模型允許在復雜性降低和細節保留之間達到一個接近最優的點,極大地提高了視覺保真度。通過在模型體系結構中引入交叉注意層(cross-attention layers),本文將擴散模型轉化為強大而靈活的生成器,可以有通用的條件輸入,比如文本,候選框等,并且能夠以卷積等方式實現超分辨率。

我們的方法從分析在像素空間中已經訓練過的擴散模型開始:圖2顯示了一個訓練過的擴散模型的速率失真權衡( rate-distortion trade-off )。與任何基于似然的模型一樣,學習可以大致分為兩個階段:第一個是感知壓縮階段,除了學習高頻細節,仍能學習到很少的語義變化。在第二階段,實際生成模型學習數據的語義和概念組成(語義壓縮)。因此,我們的目標是首先找到一個感知上等價,但計算上更合適的空間,在這個空間中我們將訓練用于高分辨率圖像合成的擴散模型
因此我們將訓練分為兩個不同的階段:首先,我們訓練一個自動編碼器,它提供一個低緯的感知空間。重要的是,我們不需要過度依賴空間壓縮,因為我們在習得的潛在空間中訓練dm,該空間相對于空間維度具有更好的縮放特性。降低的復雜度也使得從潛在空間生成圖像更加有效。我們將得到的模型稱為潛擴散模型(ldm) 。并且我們只需要訓練一次通用自動編碼階段,可以將其重用于不同的DM訓練或完全不同的任務[78]。這使得能夠高效地適用于各種圖像到圖像和文本到圖像任務



如下圖可說明:橫軸是隱變量每個維度壓縮的bit率,縱坐標是模型的損失。模型在學習的過程中,隨著壓縮率變大,剛開始模型的損失下降很快,后面下降很慢,但仍然在優化。模型首先學習到的是semantic部分的壓縮/轉換(大框架),這一階段是人物semantic部分轉變,然后學習到的是細節部分的壓縮/轉換,這是perceptual細節處的轉變

contribution

提出了Latent Diffusion Models(LDMs)

1、對比transformer-based的方法,該方法能夠在壓縮的空間(work on a compression level)對圖像進行重建,生成比之前的方法更加可靠與詳細的結果。并能應用于百萬像素圖像的高分辨率合成(high-resolution synthesis of megapixel images)。
2、在多任務上均有較好的表現,同時顯著降低計算成本。并且對比像素級別的diffusion方法,節省了推斷成本。
3、該方法不需要平衡重建和生成的能力,對latent space幾乎不需要正則化。
4、本文設計了一種基于cross-attention的通用條件生成控制機制,能夠實現多模態的訓練。(class-conditional, text-to-image、layout-to-image)

Method

1. Perceptual Image Compression

我們使用了一個自動編碼模型,該模型學習的空間在感知上與圖像空間等效,但顯著降低了計算復雜度。由一個通過結合感知損失[102]和基于patch的[32]對抗損失[20,23,99]訓練的自動編碼器組成。


2. Latent Diffusion Models

通過我們預訓練的由E和D組成的感知壓縮模型,我們現在可以訪問一個高效的、低維的潛在空間,其中高頻的、難以察覺的細節被抽象出來。與高維像素空間相比,該空間更適合基于可能性的生成模型,因為它們現在可以(i)專注于數據的重要語義位,(ii)在低維、計算效率更高的空間中進行訓練



我們模型中的神經主干是一個以時間條件UNet。由于前向過程是固定的,所以在訓練過程中預訓練的編碼器中得zt,從p(z)中的采樣的樣本只需經過一次解碼器就可以解碼到圖像空間中

3. Conditioning Mechanisms

我們通過使用交叉注意機制(cross-attention mechanism)來增強DMs的底層UNet主干,從而使其成為更靈活的條件圖像生成器[94],該機制對于學習各種輸入模式的基于注意的模型非常有效[34,35]。為了預處理來自不同模態(如語言提示)的y,我們引入了一個領域特定的編碼器τθ,它將y投射到一個中間表示,然后通過交叉注意層映射到UNet的中間層



交叉注意力機制的實現為


實驗

1. On Perceptual Compression Tradeoffs

不同的壓縮率變現不同其中LDM4-16效果比較好

2. Image Generation with Latent Diffusion


3. Conditional Latent Diffusion
Transformer Encoders for LDMs

Convolutional Sampling Beyond 2562
Super-Resolution with Latent Diffusion

Inpainting with Latent Diffusion

此博客只做為自己記錄,可以參考其他優秀博客

https://zhuanlan.zhihu.com/p/573984443

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容