本文是Stable Diffusion等一系列扩散模型的里程碑,主要解决的问题是Diffusion模型在原始的像素空间中需要的计算资源过多的问题。
提炼本文创新如下:
一、隐空间(低维向量空间)
引入了一个与图像空间感知上等同的隐空间,使用自编码器进行隐空间和像素空间的变换,忽略了一些对于感知无关的信息,进行加噪去噪都是在这个空间中进行的。
因此,能够显著减少计算复杂度。这样做有几个好处:
1.避免高维度图像空间,可以在低维度空间(去除了一些高频特征)。
2.利用了U-Net的归纳偏好(即卷积操作的局部性和平移等变性)
,对有空间结构的数据很有效,因此能够减少之前方法中会降低质量的压缩方法的需要。
3.得到了一个可以被用于通用目标的压缩模型,这种模型可以被用于训练一些下游的产生模型,比如单个图像的Clip生成。
一、
具体做法:

给定一个输入,使用编码器将输入图像的特征进行编码到一个按比例缩小的小空间,然后再用解码器还原其特征。

经过后续的验证,在这个潜在空间上而不是原始图像的像素级空间上做效果会好很多。
1.所在的空间维度降低了,采样是在低维空间上进行的,可以在高分辨率图像上进行各种任务。
2.由于在低维度空间中,一些高频、无意义的数据被忽略了,更加重要的语义数据被保留下来,一定程度上保证了生成的图像的质量。
3.将这个自编码器也就是在隐空间和像素空间进行编码和解码的过程和整个模型的训练分开,自编码器不用跟随每个扩散模型进行训练,因此它是通用的。
因此,这个模式也被后续的Diffusion沿用
二、融合输入条件的方式(控制机制):Cross-attention

简要来说,是将加入的条件使用编码器(该模态对应的conditioning)进行一个特征提取,提取后作为Cross-attention的KV后在潜在空间上的原始图像在Unet的流程中进行Cross-attention操作,以此来达到控制生成数据的目的。
最终加入控制条件后的损失函数为:
是对输入进行条件特征限制的一个编码器
三、加噪去噪过程

为什么不直接弄一个能够产生猫图片的模型,而是去加噪声并且预测加上的噪声:因为预测噪声比直接生成图像的难度更低。
实际上噪声是通过很多步自己采样加上去的:


实际用Unet预测其每一步的加入的噪声,然后在这个去噪过程中将预测的每一步加入的噪声进行减去。
每一步将而其每一步加入的噪声是自己在一个正态分布的空间中采样的,这个是已知的,因此可以以这个损失函数来进行训练。
四、自编码器
主要使用了两种矫正的措施——1.对学习的隐空间向量施加一个标准正态分布的小的KL惩罚项,以防止在隐空间上的过度随机
2.在decoder上加了一个向量量化层
以此来保证压缩比例得当并且能够取得较好的重建效果


1.原始的扩散模型和潜在扩散模型区别主要在于其去噪过程也就是模型去预测加入的噪声的空间不同
2.将原始的像素级空间的编码和解码的自编码器的训练和扩散模型分为两个阶段
3.加入了Cross-attention以灵活地加入控制信息来控制输入输出
文章来源于互联网:论文解读之High-Resolution Image Synthesis with Latent Diffusion Models(Stable Diffusion)
怎么检测AIGC检测率 在数字内容创作领域,随着人工智能(AI)技术的发展,自动生成的内容(AIGC, AI-Generated Content)越来越普遍。在这种情况下可以得出结论的是,这些由AI生成的文章、图片或视频可能会被用于不正当的目的,因此对于平台管…
5bei.cn大模型教程网










