使用Stable Diffusion生成的图像合成数据集

文章目录 隐藏

使用Stable Diffusion生成图像合成数据集

一、Stable Diffusion的原理

二、Stable Diffusion 云部署

三、Stable Diffusion的UI界面介绍

四、生成效果图

五、Stable Diffusion生成图像合成数据集优缺点

使用Stable Diffusion生成图像合成数据集

一、Stable Diffusion的原理

Stable Diffusion是一种基于Latent Diffusion Models（潜在扩散模型，LDMs）的文图生成（text-to-image）模型。它的主要原理包括：

潜在扩散模型：Stable Diffusion通过在一个潜在表示空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像。这使得文图生成能够在消费级GPU上，在10秒级别时间生成图片，大大降低了落地门槛。
感知压缩：Stable Diffusion的核心思想是，由于每张图片满足一定规律分布，利用文本中包含的这些分布信息作为指导，把一张纯噪声的图片逐步去噪，生成一张跟文本信息匹配的图片。这种将高维特征压缩到低维，然后在低维空间上进行操作的方法具有普适性，可以很容易推广到文本、音频、视频等领域。
条件机制：Stable Diffusion引入了条件机制（Conditioning Mechanisms），通过cross-attention的方式来实现多模态训练，使得条件图片生成任务也可以实现。论文中提到的条件图片生成任务包括类别条件图片生成（class-condition Text-to-image）等。这种条件机制使得模型可以根据给定的条件生成符合条件的图像。
稳定性：Stable Diffusion的一个重要特性是它的稳定性。在训练过程中，模型会逐步去除噪声，最终生成稳定的图像。这种稳定性使得模型在生成过程中不容易受到噪声的影响，从而能够生成高质量的图像。

总的来说，Stable Diffusion是一种强大的文图生成模型，它通过在潜在表示空间中迭代去噪数据，然后将表示结果解码为完整的图像，从而实现了高质量的图像生成。同时，它还引入了条件机制，使得模型可以根据给定的条件生成符合条件的图像。这些特性使得Stable Diffusion在图像生成领域具有广泛的应用前景。

二、Stable Diffusion 云部署

电脑有GPU的话可以自行去部署，没有GPU的话可以在云上部署，这里比较推荐AutoDL平台平台（便宜）
揽睿星舟（Lanrui-ai）平台
第一步：注册/登录官网，登录后点击左上角LOGO回到主页，再点击应用市场：

第二步：安装/打开 Stable Diffusion

第三步：新建实例

第四步，进入Web UI，开启你的炼图之旅（恭喜你上路了！）

第五步，设置中文

AutoDL平台

第一步：登录注册，注意第一次使用需要实名认证

第二步：租用实力与安装

第三步，进入Web UI，开启你的炼图之旅（恭喜你上路了！）

三、Stable Diffusion的UI界面介绍

基础模型调用栏

最左上角是基础模型调用栏，这里可以切换我们用来绘画使用的基础模型（简称：底模），基础模型的调用，确定AI绘图的画风。

提示词栏

在这里输入需要让AI明白你想让他画什么，不能画什么的内容描述关键词，叫prompt，也叫Tag。

另外，你可能会看到别人发的 Tag 里面会有一些符号？比如大小括号等等。以 girl 这个 Tag 作为例子。

(girl) 加权重，这里是1.1倍。括号是可以叠加的，如（(girl)) 加很多权重。1.1*1.1=1.21倍

[girl] 减权重，一般用的少。减权重也一般就用下面的指定倍数。

(girl:1.5) 指定倍数，这里是1.5倍的权重。还可以 (girl:0.9) 达到减权重的效果。

采样器和步数

采样步数不需要太大，一般在30以内。通常24是一个不错的值。

采样器没有优劣之分，因基础模型不同，呈现的效果也不同，全看个人喜好。

提示词相关性CFG

提示词相关性代表你输入的 Tag 对画面的引导程度有多大，可以理解为 “越大AI越自由发挥”太大会出现锐化、线条变粗的效果，越小，线条会越精细。一般用默认的7值就好。

随机种子

生成图片时的随机性：当随机种子设置为-1时，图画随机生成。

结果的可重现性：当遇见中意的图片时，复制下面的种子数值，填入随机种子框内，后续生成的图画基本都是一个样子。使用相同的种子将会产生完全相同的结果，这对于实验和比较模型的性能非常重要。

参数调优：通过调整种子的数值，我们可以控制生成图片的外观，进行结果复现以及参数调优。

差异随机种子：在随机种子后的方框勾选后，会出现差异随机种子选项以及差异强度选项，这两项和随机种子是配合使用的，作用是：将随机种子值的图和差异随机种子值的图按差异强度进行融合。

微调模型lora调用栏

LoRA（Low-Rank Adaption，低秩自适应）是一种微调大语言模型的方法1234。它的主要作用包括：

降低微调的计算成本和内存需求：LoRA在微调期间仅适应语言模型中的一部分参数，同时保持其余参数不变4。这降低了微调的计算成本和内存需求。
保持与传统微调相似的性能：尽管LoRA只适应了部分参数，但它能够保持与传统微调相似的性能。
快速适应新任务：LoRA使模型能够使用更少的特定于任务的数据快速适应新任务。
不会引入额外的延迟：LoRA在训练完后其参数可以与原有预训练模型直接合并，变回单分支结构，不会引入额外的延迟。
只需要保存LoRA本身的参数：使用LoRA进行微调，在训练完毕后只需要保存LoRA本身的参数。

ControlNet调用栏

ControlNet是一个神经网络结构，它可以通过添加额外的条件来控制扩散模型。它的主要作用包括：

增强稳定扩散的方法：ControlNet提供了一种增强稳定扩散的方法，在文本到图像生成过程中使用条件输入，如涂鸦、边缘映射、分割映射、pose关键点等。这使得生成的图像将更接近输入图像，这比传统的图像到图像生成方法有了很大的改进。
提高AI绘画的可控性：ControlNet提供了包括canny边缘，语义分割图，关键点,涂鸦在内的多种输入条件，拓展了SD的能力边界，使得AI绘画的可控性大幅提高。
解决空间一致性问题：ControlNet的革命性之处在于其解决了空间一致性问题。
提供预处理器功能：ControlNet的核心能力就是能让我们通过设置各种条件来让AI更可控地生成最终图像结果。这些条件就是通过调节预处理器参数来实现的。

四、生成效果图

五、Stable Diffusion生成图像合成数据集优缺点

优点：

创新性：Stable Diffusion是一种新颖的生成模型，它能够生成具有高度复杂性的数据。在研究中，为研究提供丰富的数据。
灵活性：Stable Diffusion可以通过调整模型的参数来控制生成数据的特性。这意味着我们可以根据研究的需要来生成不同类型的数据。这种灵活性使得我们可以更好地适应研究的需求。
实用性：由于Stable Diffusion可以生成大量的数据，因此它可以用来进行大规模的研究。

缺点：

数据真实性：虽然Stable Diffusion可以生成大量的数据，但这些数据都是模拟生成的，可能无法完全反映真实的情况。
模型复杂性：Stable Diffusion是一种复杂的生成模型，需要一定的专业知识才能理解和使用。
计算资源：Stable Diffusion需要大量的计算资源来生成数据。

文章来源于互联网:使用Stable Diffusion生成的图像合成数据集

相关推荐: 【AIGC 概念理解】Zero-Shot，One-Shot，Few-Shot，In-Context Learning，Tuning-Free/Training-Free/Inference-Only

在人工智能领域，特别是自然语言处理（NLP）和机器学习中，几个重要的概念正在推动研究和应用的前沿发展。以下是few-shot learning, zero-shot learning, in-context learning, tuning-free, tra…

使用Stable Diffusion生成的图像合成数据集

使用Stable Diffusion生成图像合成数据集

一、Stable Diffusion的原理

二、Stable Diffusion 云部署

三、Stable Diffusion的UI界面介绍

四、生成效果图

五、Stable Diffusion生成图像合成数据集优缺点

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来