AI大模型教程
一起来学习

游戏AI研究所:一文看懂!VAE 在 Stable Diffusion 中到底干了什么?

一。什么是 VAE?
VAE 是一种生成模型,由编码器和解码器组成。
编码器:将输入图像从高维的像素空间(如 512×512)压缩到低维的潜在空间(如 64×64),提取图像的核心特征。
解码器:将潜在空间中的表示还原为像素空间的图像。
这种结构使得模型能够在潜在空间中进行高效的图像生成和操作。

二。VAE 在 Stable Diffusion 中的作用?
在 Stable Diffusion 中,VAE 的主要功能包括:
1.图像压缩与还原:将图像编码到潜在空间,进行处理后再解码还原,提升生成效率。
2.提升图像质量:改善生成图像的色彩饱和度和细节表现,尤其是在面部、手部等细节区域。
3.与扩散模型协同工作:在潜在空间中进行扩散过程,提升生成图像的多样性和质量。
例如,使用 VAE 可以使生成的图像颜色更鲜艳、细节更清晰,改善面部和手部的表现。

原理:

假设Stable Diffusion 是一家大型图书馆,里面收藏了无数的图书(图像)。
编码器(Encoder):就像图书管理员将厚重的图书内容提炼成简洁的索引卡片。这些卡片保留了图书的核心信息,便于快速查找和管理。
潜在空间(Latent Space):是存放这些索引卡片的抽屉柜,结构紧凑,分类清晰。
解码器(Decoder):当读者需要某本图书时,图书管理员根据索引卡片的信息,从书库中找到并取出完整的图书。

在这个过程中,VAE 作为图书管理员,确保图书的内容在压缩和还原的过程中尽可能少地丢失信息。(如下图)

1.原始图像(像素空间):输入的高维图像数据,如 512×512 像素的图像。
2.VAE 编码器:将高维图像压缩为低维的潜在表示,提取图像的核心特征。
3.潜在空间表示(Latent Space):图像在潜在空间中的表示,维度较低,便于处理。
4.扩散模型(U-Net):在潜在空间中对图像进行去噪处理,生成更清晰的潜在表示。
5.去噪后的潜在表示:经过扩散模型处理后的潜在表示,准备还原为图像。
6.VAE 解码器:将去噪后的潜在表示解码为高维图像,恢复为人类可见的图像。
7.生成图像(像素空间):最终输出的图像,具有更高的清晰度和细节表现。

三。如何使用 VAE?
在使用 Stable Diffusion 时,通常有以下几种情况:

默认 VAE:许多模型自带 VAE,无需额外操作。
外挂 VAE:对于一些模型,用户可以选择加载不同的 VAE,以改善图像质量。

例如 VAE 如下模型:
vae-ft-ema-560000-ema-pruned:提升图像清晰度。
vae-ft-mse-840000-ema-pruned:使图像更加平滑。

四。什么情况下决定是否需要使用 VAE?

需要使用 VAE 的情况:

生成图像颜色发灰、细节模糊时。

希望提升图像的色彩和细节表现。

不需要使用 VAE 的情况:

使用的模型自带高质量的 VAE,生成效果满意。

判断是否需要使用 VAE 的方法包括:

观察生成图像的效果,若颜色发灰、细节不足,考虑使用 VAE。

查看模型发布说明,了解是否推荐使用特定的 VAE。

五.常见 VAE 一览

文章来源于互联网:游戏AI研究所:一文看懂!VAE 在 Stable Diffusion 中到底干了什么?

相关推荐: 《荷塘月色》都被AI检测标红?曝光12个AI高危写作特征+一键降AI写作技巧

近日,《人民日报》一篇报道引发热议:“朱自清的经典散文《荷塘月色》,竟被某AI检测系统误判为‘疑似AI生成’。”😅 不少大学生哭笑不得,明明是一字一句亲手敲出的毕业论文,AI率检测率却高的离谱🚨。 更有同学为了“降AI率”,无奈把论文写得越来越“口语化”“白话…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 游戏AI研究所:一文看懂!VAE 在 Stable Diffusion 中到底干了什么?
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们