廣告

Stable Diffusion-一種深度學(xué)習(xí)文本到圖像生成模型

Stable Diffusion是一種深度學(xué)習(xí)文本到圖像生成模型,由慕尼黑大學(xué)的CompVis研究團(tuán)體開(kāi)發(fā)。它是一種潛在擴(kuò)散模型(Latent Diffusion Model, LDM),通過(guò)訓(xùn)練VAE(變分自編碼器)將圖像轉(zhuǎn)換為低維潛在空間,并在這個(gè)潛在空間中進(jìn)行擴(kuò)散。

MTIzNDU2Nzg5_759796_gAki0iiYIoX0ulgS_169

Stable Diffusion是一種深度學(xué)習(xí)文本到圖像生成模型,由慕尼黑大學(xué)的CompVis研究團(tuán)體開(kāi)發(fā)。它是一種潛在擴(kuò)散模型(Latent Diffusion Model, LDM),通過(guò)訓(xùn)練VAE(變分自編碼器)將圖像轉(zhuǎn)換為低維潛在空間,并在這個(gè)潛在空間中進(jìn)行擴(kuò)散。Stable Diffusion主要由三個(gè)部分組成:VAE、U-Net和一個(gè)文本編碼器。

它的工作原理可以分為以下步驟:

首先,VAE編碼器將輸入圖像壓縮為潛在表示,添加高斯噪聲并傳播到潛在空間。

然后,U-Net架構(gòu)用于從潛在空間中的噪聲圖像恢復(fù)圖像。這是通過(guò)從潛在空間中提取的特征進(jìn)行解碼實(shí)現(xiàn)的。

最后,文本編碼器將輸入的文本提示轉(zhuǎn)換為嵌入空間,并與潛在表示進(jìn)行融合,以產(chǎn)生最終的輸出圖像。

Stable Diffusion的主要優(yōu)點(diǎn)是它可以接受文本作為輸入,并且可以生成詳細(xì)的圖像。此外,它還具有較低的計(jì)算成本,可以在大多數(shù)配備適度GPU的計(jì)算機(jī)硬件上運(yùn)行。

需要注意的是,雖然Stable Diffusion具有許多優(yōu)點(diǎn),但它的輸出結(jié)果可能不是100%準(zhǔn)確,特別是在處理復(fù)雜和詳細(xì)的圖像時(shí)。此外,雖然該模型是“穩(wěn)定”的,但它的路徑是不可微的,這可能會(huì)限制其在一些應(yīng)用中的使用。

Midjourney和stable diffusion有什么不同?

Midjourney和Stable Diffusion都是基于深度學(xué)習(xí)的文本到圖像生成模型,但它們?cè)谀繕?biāo)、方法和技術(shù)上存在一些不同。

目標(biāo)不同:Midjourney的主要目標(biāo)是在訓(xùn)練的初期階段快速收斂到一個(gè)相對(duì)不錯(cuò)的局部最優(yōu)解,而Stable Diffusion的主要目標(biāo)則是通過(guò)減少梯度的抖動(dòng),使模型更加穩(wěn)定地收斂到全局最優(yōu)解。

方法不同:Midjourney是通過(guò)逐漸增大學(xué)習(xí)率來(lái)實(shí)現(xiàn)的,而Stable Diffusion是通過(guò)對(duì)梯度進(jìn)行平滑處理來(lái)實(shí)現(xiàn)的。

技術(shù)不同:Midjourney是基于GPT-2和GPT-3的結(jié)構(gòu),采用多層的Transformer編碼器和解碼器,而Stable Diffusion則采用了自己獨(dú)特的Diffusion Transformer結(jié)構(gòu)。

此外,Midjourney和Stable Diffusion在模型參數(shù)、預(yù)訓(xùn)練數(shù)據(jù)和適用范圍等方面也存在差異。Midjourney是目前已知參數(shù)最多的預(yù)訓(xùn)練語(yǔ)言模型之一,擁有350億個(gè)參數(shù),而Stable Diffusion的模型參數(shù)相對(duì)較少,為24億個(gè)。Midjourney使用了大規(guī)模的文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而Stable Diffusion則使用了類似維基百科的數(shù)據(jù)集以及其他來(lái)源的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。Midjourney通常適用于模型比較復(fù)雜、訓(xùn)練過(guò)程比較長(zhǎng)的情況,而Stable Diffusion適用于模型在訓(xùn)練過(guò)程中存在梯度抖動(dòng)、訓(xùn)練過(guò)程不太穩(wěn)定的情況。

總之,Midjourney和Stable Diffusion在目標(biāo)、方法、技術(shù)和適用范圍等方面存在一些不同,用戶可以根據(jù)自己的需求和實(shí)際情況選擇合適的模型。


135編輯器智能AI,可以實(shí)現(xiàn)一鍵生成圖片、小紅書筆記、知乎問(wèn)答、公眾號(hào)文章、商品宣傳文案、文案優(yōu)化、周報(bào)月報(bào)季報(bào)等。更多AI功能訪問(wèn)智能AI-135編輯器體驗(yàn)。


猜你喜歡
135編輯器
領(lǐng)先的在線圖文編輯平臺(tái)原創(chuàng)樣式素材,一鍵套用
筆格設(shè)計(jì)
受歡迎的在線作圖網(wǎng)站,新媒體配圖、手機(jī)海報(bào)應(yīng)有盡有
管小助
企業(yè)營(yíng)銷、私域流量運(yùn)營(yíng)——站式營(yíng)銷管理平臺(tái)
優(yōu)視云集
專為品牌主、代理公司、創(chuàng)作人提供的視頻創(chuàng)作及分發(fā)?具
典尚視頻素材
為用戶提供C2C素材交易服務(wù)
WinkStudio
AI技術(shù)助力高清視頻制作與美化