初探Stable Diffusion：开启AI图像生成的新纪元

文章目录 隐藏

初探Stable Diffusion（SD）

初探Stable Diffusion（SD）

Stable Diffusion是由CompVis（慕尼黑大学）与Runway ML合作开发，并由Stability AI开源发布与维护的创新图像生成技术。

首次发布：2022年8月，Stability AI发布了Stable Diffusion 1.4版本。
持续更新：后续版本如1.5、2.x以及SDXL也在其主导下推出。

Stable Diffusion基于**潜在扩散模型（Latent Diffusion Models, LDMs）**实现，是一种支持文本到图像生成（Txt2Img）的模型。

#1. SD网络结构组成

Stable Diffusion的网络结构由以下三部分组成：

组件	作用	是否可微调
Text Encoder	将文本提示词（Prompt）编码为语义向量	通常冻结（CLIP 固定）
VAE（变分自编码器）	图像与潜空间（Latent Space）的相互转换	可微调（如优化色彩）
U-Net	在潜空间中迭代去噪，生成高质量潜变量	主要训练部分
调度器（Scheduler）	控制去噪过程的步数和噪声策略（如 DDPM、DPM++）	可替换，无需训练

#mermaid-svg-fFD47VZ9rCUXUZyZ {font-family:”trebuchet ms”,verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-fFD47VZ9rCUXUZyZ .error-icon{fill:#552222;}#mermaid-svg-fFD47VZ9rCUXUZyZ .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-fFD47VZ9rCUXUZyZ .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-fFD47VZ9rCUXUZyZ .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-fFD47VZ9rCUXUZyZ .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-fFD47VZ9rCUXUZyZ .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-fFD47VZ9rCUXUZyZ .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-fFD47VZ9rCUXUZyZ .marker{fill:#333333;stroke:#333333;}#mermaid-svg-fFD47VZ9rCUXUZyZ .marker.cross{stroke:#333333;}#mermaid-svg-fFD47VZ9rCUXUZyZ svg{font-family:”trebuchet ms”,verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-fFD47VZ9rCUXUZyZ .label{font-family:”trebuchet ms”,verdana,arial,sans-serif;color:#333;}#mermaid-svg-fFD47VZ9rCUXUZyZ .cluster-label text{fill:#333;}#mermaid-svg-fFD47VZ9rCUXUZyZ .cluster-label span{color:#333;}#mermaid-svg-fFD47VZ9rCUXUZyZ .label text,#mermaid-svg-fFD47VZ9rCUXUZyZ span{fill:#333;color:#333;}#mermaid-svg-fFD47VZ9rCUXUZyZ .node rect,#mermaid-svg-fFD47VZ9rCUXUZyZ .node circle,#mermaid-svg-fFD47VZ9rCUXUZyZ .node ellipse,#mermaid-svg-fFD47VZ9rCUXUZyZ .node polygon,#mermaid-svg-fFD47VZ9rCUXUZyZ .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-fFD47VZ9rCUXUZyZ .node .label{text-align:center;}#mermaid-svg-fFD47VZ9rCUXUZyZ .node.clickable{cursor:pointer;}#mermaid-svg-fFD47VZ9rCUXUZyZ .arrowheadPath{fill:#333333;}#mermaid-svg-fFD47VZ9rCUXUZyZ .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-fFD47VZ9rCUXUZyZ .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-fFD47VZ9rCUXUZyZ .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-fFD47VZ9rCUXUZyZ .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-fFD47VZ9rCUXUZyZ .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-fFD47VZ9rCUXUZyZ .cluster text{fill:#333;}#mermaid-svg-fFD47VZ9rCUXUZyZ .cluster span{color:#333;}#mermaid-svg-fFD47VZ9rCUXUZyZ div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:”trebuchet ms”,verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-fFD47VZ9rCUXUZyZ :root{–mermaid-font-family:”trebuchet ms”,verdana,arial,sans-serif;}

Text Prompt

Text Encoder

Text Embeddings

Random Noise

U-Net

Denoised Latents

VAE Decoder

Final Image

#2. 图像尺寸对SD模型的影响

SD1.5在512×512尺寸的图像上进行预训练，因此建议微调训练时也使用该尺寸。不同尺寸的输入可能导致以下问题：

细节丢失：使用较小尺寸（如256×256）训练时。
结构畸形：使用较大尺寸（如1024×1024）训练时，因为模型未系统学习过更高分辨率的特征。

图.基于SD1.5生成的图像

#3. 预训练数据集

1️⃣核心数据集：LAION-5B

属性	描述
数据规模	58.5 亿条图文对（图像+文本描述）
数据来源	从公开网页爬取（Common Crawl），经过滤后保留高质量样本
内容覆盖	多语言、多领域（艺术、照片、插画、图表等）
分辨率	大部分图像≥512×512，部分≥1024×1024
过滤条件	使用CLIP模型筛选图文相关性（相似度≥0.28）和NSFW内容

2️⃣关键数据子集

(1) LAION-2B-en

语言：英语文本描述
用途：SD1.5 主要训练集，覆盖广泛视觉概念

(2) LAION-Aesthetics

筛选标准：人工标注美学评分≥6.0（满分10）
作用：提升生成图像的视觉质量

(3) LAION-NSFW

内容：明确标记的成人内容
处理：SD1.5 训练时已移除，但可能残留部分隐式特征

到底咯，如果这篇文章对您有些许帮助，请帮忙点个赞👍或收个藏📃。您的支持是我继续创作的动力💪！

这是笔者4月份最喜欢的句子之一，送给你：
当暴风雨⚡️过去，你不会记得自己是如何度过的，你甚至不确定暴风雨是否真的结束了。但你已经不再是当初走进暴风雨的那个人了，这就是暴风雨的意义💪。

文章来源于互联网:初探Stable Diffusion：开启AI图像生成的新纪元

初探Stable Diffusion：开启AI图像生成的新纪元

初探Stable Diffusion（SD）

#1. SD网络结构组成

#2. 图像尺寸对SD模型的影响

#3. 预训练数据集

1️⃣核心数据集：LAION-5B

2️⃣关键数据子集

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来