AI大模型教程
一起来学习

Diffusion扩散模型梳理笔记(二):LDM (Stable Diffusion核心算法), DiT (Transformer架构)

【如果笔记对你有帮助,欢迎关注&点赞&收藏,收到正反馈会加快更新!谢谢支持!】

二、重要方法整理

2.1 【LDM】High-Resolution Image Synthesis with Latent Diffusion Models
Stable Diffusion 核心算法)

  • 改进点:扩散在潜空间(latent space)实现【对比:DDPM是图像像素层面的扩散,效率低】
  • Pipeline:
    • VQ-VAE【编码图像  到离散特征 ,再解码回图像】和 Diffusion【对离散特征  操作】组成
    • 前向:图像【输入】→ VQVAE的编码器【得离散特征 】→ Diffusion对加噪 → 
    • 反向:  → U-Net去噪【每层由CNN和交叉注意力实现,并加入条件控制生成】→  → VQVAE解码器 → 图像
  • 条件机制:
    • 先用领域编码器  将不同条件转化为特征(比如文本用Bert,图像用CLIP)
    • 特征作为U-Net中交叉注意力的 key 和 value
  • 为什么在潜空间扩散会加速?
    • 潜空间的特征是VQVAE压缩之后的特征,比图像特征小很多

2.2 【DiT】Scalable Diffusion Models with Transformers

  • 改进点:用Transformer 架构替换 UNet 架构
  • Pipeline:
    • Image Token生成:图片 → Patchify【每个patch由  个像素组成】→ Tokens(一个patch为一个token)
    • DiT Block(针对如何引入额外信息探索了四种策略)
      ( 举例时间步长和类别标签作为额外信息   : timesteps token; : class label token)
      • In-Context Conditioning:将  和  作为额外的token给序列,但不和图像 token区别对待
      • Cross-Attention:用交叉注意力实现 图像tokens和  & 的融合
      • Adaptive layer norm (adaLN):用  和  做回归得到 LayerNorm 的缩放和移位参数( 和 
      • adaLN-Zero:除了回归缩放 和移位 , 还回归缩放系数 
    • 四种策略性能对比

 

 

 

文章来源于互联网:Diffusion扩散模型梳理笔记(二):LDM (Stable Diffusion核心算法), DiT (Transformer架构)

相关推荐: Stable Diffusion核心网络结构——CLIP Text Encoder

🌺系列文章推荐🌺 扩散模型系列文章正在持续的更新,更新节奏如下,先更新SD模型讲解,再更新相关的微调方法文章,敬请期待!!!(本文及其之前的文章均已更新)  SD模型原理: Stable Diffusion概要讲解 Stable diffusion详细讲解 S…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » Diffusion扩散模型梳理笔记(二):LDM (Stable Diffusion核心算法), DiT (Transformer架构)
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们