人工智能內(nèi)容生成元年—AI繪畫原理解析

姓名:侯雅昕? ?學(xué)號(hào):22021110253? ?學(xué)院:電子工程學(xué)院

援引:人工智能內(nèi)容生成元年—AI繪畫原理解析_AI記憶的博客-CSDN博客_ai繪畫原理 sunbaigui

【嵌牛導(dǎo)讀】AI繪畫的原理解釋

【嵌牛鼻子】AI繪畫

【嵌牛提問】AI繪畫是怎么實(shí)現(xiàn)的?

【嵌牛正文】

一、背景

? ? ? ? 2022年AIGC(AI生成內(nèi)容)煥發(fā)出了勃勃生機(jī),大有元年之勢,技術(shù)與應(yīng)用迭代都扎堆呈現(xiàn)。在各種新聞媒體處可以看到諸多關(guān)于學(xué)術(shù)前沿研究,以及相應(yīng)落地的商用案例。可謂出現(xiàn)了現(xiàn)象級的學(xué)術(shù)-商業(yè)共振。以往學(xué)術(shù)研究內(nèi)容離商用一般較遠(yuǎn),因?yàn)閷W(xué)術(shù)研究相應(yīng)實(shí)驗(yàn)數(shù)據(jù)通常為閉集即固定數(shù)據(jù)場景,而商業(yè)應(yīng)用則為開集即非固定數(shù)據(jù)場景(能見到各式各樣、甚至亂七八糟的數(shù)據(jù))。所以將學(xué)術(shù)研究內(nèi)容轉(zhuǎn)化為商業(yè)應(yīng)用的時(shí)候,就需要以工匠精神去做產(chǎn)品化設(shè)計(jì)與迭代,主要目的就是不斷提升其可用性以達(dá)到商業(yè)化標(biāo)準(zhǔn)(避免出現(xiàn)不符預(yù)期、甚至亂七八糟的結(jié)果)。

? ? ? ? 但AIGC領(lǐng)域似乎大大縮短了這一轉(zhuǎn)化進(jìn)程,尤其以近期短時(shí)間內(nèi)爆火的AI繪畫、AI作畫類應(yīng)用為代表。這無疑是人工智能發(fā)展至今的巨大勝利時(shí)刻,這能建立極強(qiáng)、極快的螺旋式發(fā)展迭代循環(huán),商業(yè)應(yīng)用上的不足點(diǎn)能迅速反饋至學(xué)術(shù)研究側(cè),學(xué)術(shù)研究側(cè)的優(yōu)化改進(jìn)也能迅速體現(xiàn)到商業(yè)應(yīng)用側(cè),拉滿學(xué)術(shù)研究能獲得的成就感。接下來的篇幅將介紹現(xiàn)有AI繪畫、AI作畫背后的相應(yīng)基本原理、應(yīng)用、以及論文參考文獻(xiàn)。

二、原理

技術(shù)脈絡(luò)歸納:

? ? ? ? 在AI內(nèi)容生成制作爆火的2022元年,在其基礎(chǔ)框架技術(shù)部分,技術(shù)演進(jìn)的脈絡(luò)可以看作是不斷尋找更可靠的特征域建模方式,亦可看作是不斷尋找更合適的借雞生蛋方式的過程。原始圖像域的特征維度是很高的,直接來建模會(huì)有維度災(zāi)難的問題。需要不斷找到可行的中間域來做對齊:

1.)CLIP可以看作是圖像域與文本域特征對齊的大一統(tǒng)技術(shù)框架,文本域的原始特征空間跟原始圖像域的特征空間比是相對更小的。所以在同等維度特征的表達(dá)下,文本相比圖像是能更加容易被刻畫好的,所以當(dāng)align文本域特征到圖像域特征時(shí),圖像域特征表達(dá)將無疑得到了更佳的富有語義的監(jiān)督信號(hào)。這樣獲得更好的效果也就很自然了。

2.)diffusion可以看作是將原始圖像域建模轉(zhuǎn)變?yōu)樵肼曈蚪5姆椒āT肼曈蛴袃蓚€(gè)極大的好處:首先,它的特征空間比原始圖像域要小的多,非常容易建模。其次,即使噪聲域建模效果沒能接近完美,它所呈現(xiàn)出來的差異也是噪聲域的差異,而這個(gè)噪聲差異在圖像內(nèi)容域上對人眼來說往往注意不到。所以從基本原理上來說,diffusion生成的圖像細(xì)節(jié)無疑是會(huì)遠(yuǎn)遠(yuǎn)優(yōu)于gan的。

基礎(chǔ)技術(shù)部分:

? ? ? ? 基礎(chǔ)技術(shù)框架上大致可以分成如下幾個(gè)標(biāo)志性的階段:

a)GAN階段

? ? ? ? 原理摘記,生成與對抗網(wǎng)絡(luò)圖像特征域?qū)R,示意圖如論文[1]中圖所示:


b)Transformer階段

????????網(wǎng)絡(luò)由self-Attenion和Feed Forward Neural Network組成,強(qiáng)力的文本、圖像(ViT系列)編碼網(wǎng)絡(luò)框架。示意圖如論文[3]中圖所示:


c)CLIP階段

????????圖像文本域特征對齊。基于文本、視覺transformer encode統(tǒng)一框架,訓(xùn)練階段4億文本圖像配對數(shù)據(jù),訓(xùn)練至少100卡月V100。示意圖如論文[4]中圖所示:


d)Diffusion階段

????????原始圖像特征域?qū)R轉(zhuǎn)變?yōu)閳D像噪聲域?qū)R。基于參數(shù)化馬爾科夫鏈框架實(shí)現(xiàn)。示意圖如論文[5]中圖所示:


演化技術(shù)部分:

a)StyleGan

????????基于adain思想,額外學(xué)習(xí)高斯分布到風(fēng)格空間w的映射,然后風(fēng)格空間的變量作用于合成網(wǎng)絡(luò)中。示意圖如論文[2]中圖所示:


b)DALL-E 1

? ? ? ? 網(wǎng)絡(luò)可理解為VQVAE + Transformer。示意圖如論文[6]中圖所示:


c)DALL-E 2

????????網(wǎng)絡(luò)可理解為CLIP + Diffusion。示意圖如論文[7]中圖所示:


d)Stable Diffusion

????????網(wǎng)絡(luò)可理解為VAE + CLIP + Diffusion + Unet,引入LDM等加速手段,顯著降低計(jì)算復(fù)雜度。示意圖如論文[8]中圖所示:


三、應(yīng)用

? ? ? ? 目前可以看到,諸如文生圖、圖生圖、圖像編輯、圖像修復(fù)、圖像拓展等應(yīng)用功能都已實(shí)現(xiàn),國內(nèi)的AI繪畫特效類應(yīng)用也結(jié)合國風(fēng)、動(dòng)漫等風(fēng)格有了非常廣泛的應(yīng)用,這里面既有大廠也有創(chuàng)業(yè)公司等玩家的加入。于此同時(shí),對創(chuàng)意行業(yè)設(shè)計(jì)者來說,AI繪畫也正演變?yōu)樽罴阎郑蠓岣邉?chuàng)意行業(yè)的生產(chǎn)效率。相應(yīng)應(yīng)用介紹如下:

1.) Disco Diffusion:CLIP + Diffusion。https://github.com/alembics/disco-diffusion。

2.) Stable Diffusion:https://github.com/Stability-AI/stablediffusion。

3.) Stable Diffusion 2:顯著提升圖像質(zhì)量,采用LAION-5B 58.5億個(gè)圖像文本對,增加NSFW做了內(nèi)容過濾。https://huggingface.co/stabilityai/stable-diffusion-2 。

4.) Imagic : gan DALL-E 2,基于擴(kuò)散模型的真實(shí)圖像編輯方法,用文字就能實(shí)現(xiàn)真實(shí)照片的 PS,比如讓一個(gè)人豎起大拇指、讓兩只鸚鵡親吻。示意圖如論文[9]中圖所示:


5.) Imagen:更強(qiáng)力的語言模型能獲得更逼真的畫作效果。相較于視覺部分模型來講,語言模型size越大帶來的畫作逼真性越大。示意圖如論文[10]中圖所示:


6.) DreamBooth: 對輸入圖像中的主體能進(jìn)行相應(yīng)輸入文本語義下的內(nèi)容生成。示意圖如論文[11]中圖所示:


7.) Midjourney : https://midjourney.gitbook.io/docs。在美國科羅拉多州舉辦的藝術(shù)博覽會(huì),《太空歌劇院》的畫作獲得數(shù)字藝術(shù)類別冠軍。

四、文獻(xiàn)

[1]Gan:https://arxiv.org/abs/1406.2661

[2]StyleGan:https://arxiv.org/abs/1812.04948

[3]Transformer: https://arxiv.org/abs/1706.03762

[4]CLIP:https://arxiv.org/abs/2103.00020

[5]Diffusion:https://arxiv.org/abs/2006.11239

[6]DALL-E 1:https://arxiv.org/abs/2102.12092

[7]DALL-E 2:https://arxiv.org/abs/2204.06125

[8]Stable Diffusion: https://arxiv.org/abs/2112.10752

[9]Imagic:https://arxiv.org/abs/2210.09276

[10]Imagen:https://arxiv.org/abs/2205.11487

[11]DreamBooth:https://arxiv.org/abs/2208.12242

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,546評論 6 533
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,570評論 3 418
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,505評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,017評論 1 313
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,786評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,219評論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,287評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,438評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,971評論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,796評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,995評論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,540評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,230評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,662評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,918評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,697評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,991評論 2 374

推薦閱讀更多精彩內(nèi)容