当前位置：5bei.cn大模型教程网 > AI创作 > 正文

Diffusion扩散模型梳理笔记（二）：LDM (Stable Diffusion核心算法), DiT (Transformer架构）

2025-03-03 分类：AI创作 / stable-diffusion 阅读(641)

文章目录 隐藏

二、重要方法整理

2.1 【LDM】High-Resolution Image Synthesis with Latent Diffusion Models （Stable Diffusion 核心算法）

2.2 【DiT】Scalable Diffusion Models with Transformers

【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】

上期笔记（基础方法介绍）：Diffusion扩散模型梳理笔记（一）: DDPM, DDIM, Classifier Guidance, Classifier-Free Guidance-CSDN博客

二、重要方法整理

2.1 【LDM】High-Resolution Image Synthesis with Latent Diffusion Models
（Stable Diffusion 核心算法）

改进点：扩散在潜空间(latent space)实现【对比：DDPM是图像像素层面的扩散，效率低】
Pipeline：
- 由 VQ-VAE【编码图像到离散特征，再解码回图像】和 Diffusion【对离散特征操作】组成
- 前向：图像【输入】→ VQVAE的编码器【得离散特征】→ Diffusion对加噪 →
- 反向： → U-Net去噪【每层由CNN和交叉注意力实现，并加入条件控制生成】→ → VQVAE解码器 → 图像
条件机制：
- 先用领域编码器将不同条件转化为特征（比如文本用Bert，图像用CLIP）
- 特征作为U-Net中交叉注意力的 key 和 value
为什么在潜空间扩散会加速？
- 潜空间的特征是VQVAE压缩之后的特征，比图像特征小很多

2.2 【DiT】Scalable Diffusion Models with Transformers

改进点：用Transformer 架构替换 UNet 架构
Pipeline:
- Image Token生成：图片 → Patchify【每个patch由个像素组成】→ Tokens（一个patch为一个token）
- DiT Block（针对如何引入额外信息探索了四种策略）
  （举例时间步长和类别标签作为额外信息 : timesteps token; : class label token)
  - In-Context Conditioning：将和作为额外的token给序列，但不和图像 token区别对待
  - Cross-Attention：用交叉注意力实现图像tokens和 & 的融合
  - Adaptive layer norm (adaLN)：用和做回归得到 LayerNorm 的缩放和移位参数( 和）
  - adaLN-Zero：除了回归缩放和移位，还回归缩放系数
- 四种策略性能对比

文章来源于互联网:Diffusion扩散模型梳理笔记（二）：LDM (Stable Diffusion核心算法), DiT (Transformer架构）

相关推荐: Stable Diffusion核心网络结构——CLIP Text Encoder

🌺系列文章推荐🌺 扩散模型系列文章正在持续的更新，更新节奏如下，先更新SD模型讲解，再更新相关的微调方法文章，敬请期待！！！（本文及其之前的文章均已更新） SD模型原理： Stable Diffusion概要讲解 Stable diffusion详细讲解 S…

赞(0)

未经允许不得转载：5bei.cn大模型教程网 » Diffusion扩散模型梳理笔记（二）：LDM (Stable Diffusion核心算法), DiT (Transformer架构）

标签：ai ps Stable Diffusion

相关推荐

AI大模型,我们的未来

小欢软考联系我们