姓名:侯雅昕? ?學(xué)號(hào):22021110253? ?學(xué)院:電子工程學(xué)院
援引:人工智能內(nèi)容生成元年—AI繪畫原理解析_AI記憶的博客-CSDN博客_ai繪畫原理 sunbaigui
【嵌牛導(dǎo)讀】AI繪畫的原理解釋
【嵌牛鼻子】AI繪畫
【嵌牛提問】AI繪畫是怎么實(shí)現(xiàn)的?
【嵌牛正文】
一、背景
? ? ? ? 2022年AIGC(AI生成內(nèi)容)煥發(fā)出了勃勃生機(jī),大有元年之勢,技術(shù)與應(yīng)用迭代都扎堆呈現(xiàn)。在各種新聞媒體處可以看到諸多關(guān)于學(xué)術(shù)前沿研究,以及相應(yīng)落地的商用案例。可謂出現(xiàn)了現(xiàn)象級的學(xué)術(shù)-商業(yè)共振。以往學(xué)術(shù)研究內(nèi)容離商用一般較遠(yuǎn),因?yàn)閷W(xué)術(shù)研究相應(yīng)實(shí)驗(yàn)數(shù)據(jù)通常為閉集即固定數(shù)據(jù)場景,而商業(yè)應(yīng)用則為開集即非固定數(shù)據(jù)場景(能見到各式各樣、甚至亂七八糟的數(shù)據(jù))。所以將學(xué)術(shù)研究內(nèi)容轉(zhuǎn)化為商業(yè)應(yīng)用的時(shí)候,就需要以工匠精神去做產(chǎn)品化設(shè)計(jì)與迭代,主要目的就是不斷提升其可用性以達(dá)到商業(yè)化標(biāo)準(zhǔn)(避免出現(xiàn)不符預(yù)期、甚至亂七八糟的結(jié)果)。
? ? ? ? 但AIGC領(lǐng)域似乎大大縮短了這一轉(zhuǎn)化進(jìn)程,尤其以近期短時(shí)間內(nèi)爆火的AI繪畫、AI作畫類應(yīng)用為代表。這無疑是人工智能發(fā)展至今的巨大勝利時(shí)刻,這能建立極強(qiáng)、極快的螺旋式發(fā)展迭代循環(huán),商業(yè)應(yīng)用上的不足點(diǎn)能迅速反饋至學(xué)術(shù)研究側(cè),學(xué)術(shù)研究側(cè)的優(yōu)化改進(jìn)也能迅速體現(xiàn)到商業(yè)應(yīng)用側(cè),拉滿學(xué)術(shù)研究能獲得的成就感。接下來的篇幅將介紹現(xiàn)有AI繪畫、AI作畫背后的相應(yīng)基本原理、應(yīng)用、以及論文參考文獻(xiàn)。
二、原理
技術(shù)脈絡(luò)歸納:
? ? ? ? 在AI內(nèi)容生成制作爆火的2022元年,在其基礎(chǔ)框架技術(shù)部分,技術(shù)演進(jìn)的脈絡(luò)可以看作是不斷尋找更可靠的特征域建模方式,亦可看作是不斷尋找更合適的借雞生蛋方式的過程。原始圖像域的特征維度是很高的,直接來建模會(huì)有維度災(zāi)難的問題。需要不斷找到可行的中間域來做對齊:
1.)CLIP可以看作是圖像域與文本域特征對齊的大一統(tǒng)技術(shù)框架,文本域的原始特征空間跟原始圖像域的特征空間比是相對更小的。所以在同等維度特征的表達(dá)下,文本相比圖像是能更加容易被刻畫好的,所以當(dāng)align文本域特征到圖像域特征時(shí),圖像域特征表達(dá)將無疑得到了更佳的富有語義的監(jiān)督信號(hào)。這樣獲得更好的效果也就很自然了。
2.)diffusion可以看作是將原始圖像域建模轉(zhuǎn)變?yōu)樵肼曈蚪5姆椒āT肼曈蛴袃蓚€(gè)極大的好處:首先,它的特征空間比原始圖像域要小的多,非常容易建模。其次,即使噪聲域建模效果沒能接近完美,它所呈現(xiàn)出來的差異也是噪聲域的差異,而這個(gè)噪聲差異在圖像內(nèi)容域上對人眼來說往往注意不到。所以從基本原理上來說,diffusion生成的圖像細(xì)節(jié)無疑是會(huì)遠(yuǎn)遠(yuǎn)優(yōu)于gan的。
基礎(chǔ)技術(shù)部分:
? ? ? ? 基礎(chǔ)技術(shù)框架上大致可以分成如下幾個(gè)標(biāo)志性的階段:
a)GAN階段
? ? ? ? 原理摘記,生成與對抗網(wǎng)絡(luò)圖像特征域?qū)R,示意圖如論文[1]中圖所示:
b)Transformer階段
????????網(wǎng)絡(luò)由self-Attenion和Feed Forward Neural Network組成,強(qiáng)力的文本、圖像(ViT系列)編碼網(wǎng)絡(luò)框架。示意圖如論文[3]中圖所示:
c)CLIP階段
????????圖像文本域特征對齊。基于文本、視覺transformer encode統(tǒng)一框架,訓(xùn)練階段4億文本圖像配對數(shù)據(jù),訓(xùn)練至少100卡月V100。示意圖如論文[4]中圖所示:
d)Diffusion階段
????????原始圖像特征域?qū)R轉(zhuǎn)變?yōu)閳D像噪聲域?qū)R。基于參數(shù)化馬爾科夫鏈框架實(shí)現(xiàn)。示意圖如論文[5]中圖所示:
演化技術(shù)部分:
????????基于adain思想,額外學(xué)習(xí)高斯分布到風(fēng)格空間w的映射,然后風(fēng)格空間的變量作用于合成網(wǎng)絡(luò)中。示意圖如論文[2]中圖所示:
b)DALL-E 1
? ? ? ? 網(wǎng)絡(luò)可理解為VQVAE + Transformer。示意圖如論文[6]中圖所示:
c)DALL-E 2
????????網(wǎng)絡(luò)可理解為CLIP + Diffusion。示意圖如論文[7]中圖所示:
d)Stable Diffusion
????????網(wǎng)絡(luò)可理解為VAE + CLIP + Diffusion + Unet,引入LDM等加速手段,顯著降低計(jì)算復(fù)雜度。示意圖如論文[8]中圖所示:
三、應(yīng)用
? ? ? ? 目前可以看到,諸如文生圖、圖生圖、圖像編輯、圖像修復(fù)、圖像拓展等應(yīng)用功能都已實(shí)現(xiàn),國內(nèi)的AI繪畫特效類應(yīng)用也結(jié)合國風(fēng)、動(dòng)漫等風(fēng)格有了非常廣泛的應(yīng)用,這里面既有大廠也有創(chuàng)業(yè)公司等玩家的加入。于此同時(shí),對創(chuàng)意行業(yè)設(shè)計(jì)者來說,AI繪畫也正演變?yōu)樽罴阎郑蠓岣邉?chuàng)意行業(yè)的生產(chǎn)效率。相應(yīng)應(yīng)用介紹如下:
1.) Disco Diffusion:CLIP + Diffusion。https://github.com/alembics/disco-diffusion。
2.) Stable Diffusion:https://github.com/Stability-AI/stablediffusion。
3.) Stable Diffusion 2:顯著提升圖像質(zhì)量,采用LAION-5B 58.5億個(gè)圖像文本對,增加NSFW做了內(nèi)容過濾。https://huggingface.co/stabilityai/stable-diffusion-2 。
4.) Imagic : gan DALL-E 2,基于擴(kuò)散模型的真實(shí)圖像編輯方法,用文字就能實(shí)現(xiàn)真實(shí)照片的 PS,比如讓一個(gè)人豎起大拇指、讓兩只鸚鵡親吻。示意圖如論文[9]中圖所示:
5.) Imagen:更強(qiáng)力的語言模型能獲得更逼真的畫作效果。相較于視覺部分模型來講,語言模型size越大帶來的畫作逼真性越大。示意圖如論文[10]中圖所示:
6.) DreamBooth: 對輸入圖像中的主體能進(jìn)行相應(yīng)輸入文本語義下的內(nèi)容生成。示意圖如論文[11]中圖所示:
7.) Midjourney : https://midjourney.gitbook.io/docs。在美國科羅拉多州舉辦的藝術(shù)博覽會(huì),《太空歌劇院》的畫作獲得數(shù)字藝術(shù)類別冠軍。
四、文獻(xiàn)
[1]Gan:https://arxiv.org/abs/1406.2661
[2]StyleGan:https://arxiv.org/abs/1812.04948
[3]Transformer: https://arxiv.org/abs/1706.03762
[4]CLIP:https://arxiv.org/abs/2103.00020
[5]Diffusion:https://arxiv.org/abs/2006.11239
[6]DALL-E 1:https://arxiv.org/abs/2102.12092
[7]DALL-E 2:https://arxiv.org/abs/2204.06125
[8]Stable Diffusion: https://arxiv.org/abs/2112.10752
[9]Imagic:https://arxiv.org/abs/2210.09276
[10]Imagen:https://arxiv.org/abs/2205.11487
[11]DreamBooth:https://arxiv.org/abs/2208.12242