Stable Diffusion-一種深度學(xué)習(xí)文本到圖像生成模型

Stable Diffusion是一種深度學(xué)習(xí)文本到圖像生成模型，由慕尼黑大學(xué)的CompVis研究團體開發(fā)。它是一種潛在擴散模型（Latent Diffusion Model, LDM），通過訓(xùn)練VAE（變分自編碼器）將圖像轉(zhuǎn)換為低維潛在空間，并在這個潛在空間中進行擴散。

MTIzNDU2Nzg5_759796_gAki0iiYIoX0ulgS_169

它的工作原理可以分為以下步驟：

首先，VAE編碼器將輸入圖像壓縮為潛在表示，添加高斯噪聲并傳播到潛在空間。

然后，U-Net架構(gòu)用于從潛在空間中的噪聲圖像恢復(fù)圖像。這是通過從潛在空間中提取的特征進行解碼實現(xiàn)的。

最后，文本編碼器將輸入的文本提示轉(zhuǎn)換為嵌入空間，并與潛在表示進行融合，以產(chǎn)生最終的輸出圖像。

Stable Diffusion的主要優(yōu)點是它可以接受文本作為輸入，并且可以生成詳細的圖像。此外，它還具有較低的計算成本，可以在大多數(shù)配備適度GPU的計算機硬件上運行。

需要注意的是，雖然Stable Diffusion具有許多優(yōu)點，但它的輸出結(jié)果可能不是100%準(zhǔn)確，特別是在處理復(fù)雜和詳細的圖像時。此外，雖然該模型是“穩(wěn)定”的，但它的路徑是不可微的，這可能會限制其在一些應(yīng)用中的使用。

Midjourney和stable diffusion有什么不同？

Midjourney和Stable Diffusion都是基于深度學(xué)習(xí)的文本到圖像生成模型，但它們在目標(biāo)、方法和技術(shù)上存在一些不同。

目標(biāo)不同：Midjourney的主要目標(biāo)是在訓(xùn)練的初期階段快速收斂到一個相對不錯的局部最優(yōu)解，而Stable Diffusion的主要目標(biāo)則是通過減少梯度的抖動，使模型更加穩(wěn)定地收斂到全局最優(yōu)解。

方法不同：Midjourney是通過逐漸增大學(xué)習(xí)率來實現(xiàn)的，而Stable Diffusion是通過對梯度進行平滑處理來實現(xiàn)的。

技術(shù)不同：Midjourney是基于GPT-2和GPT-3的結(jié)構(gòu)，采用多層的Transformer編碼器和解碼器，而Stable Diffusion則采用了自己獨特的Diffusion Transformer結(jié)構(gòu)。

此外，Midjourney和Stable Diffusion在模型參數(shù)、預(yù)訓(xùn)練數(shù)據(jù)和適用范圍等方面也存在差異。Midjourney是目前已知參數(shù)最多的預(yù)訓(xùn)練語言模型之一，擁有350億個參數(shù)，而Stable Diffusion的模型參數(shù)相對較少，為24億個。Midjourney使用了大規(guī)模的文本數(shù)據(jù)進行預(yù)訓(xùn)練，而Stable Diffusion則使用了類似維基百科的數(shù)據(jù)集以及其他來源的數(shù)據(jù)集進行預(yù)訓(xùn)練。Midjourney通常適用于模型比較復(fù)雜、訓(xùn)練過程比較長的情況，而Stable Diffusion適用于模型在訓(xùn)練過程中存在梯度抖動、訓(xùn)練過程不太穩(wěn)定的情況。

總之，Midjourney和Stable Diffusion在目標(biāo)、方法、技術(shù)和適用范圍等方面存在一些不同，用戶可以根據(jù)自己的需求和實際情況選擇合適的模型。

135編輯器智能AI，可以實現(xiàn)一鍵生成圖片、小紅書筆記、知乎問答、公眾號文章、商品宣傳文案、文案優(yōu)化、周報月報季報等。更多AI功能訪問智能AI-135編輯器體驗。