AI大模型教程
一起来学习

使用Stable Diffusion生成的图像合成数据集

使用Stable Diffusion生成图像合成数据集

相关论文
Stable Diffusion
DALL-E series
DALL-E series
Imagen

一、Stable Diffusion的原理

Stable Diffusion是一种基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。它的主要原理包括:

  1. 潜在扩散模型:Stable Diffusion通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像。这使得文图生成能够在消费级GPU上,在10秒级别时间生成图片,大大降低了落地门槛。
  2. 感知压缩:Stable Diffusion的核心思想是,由于每张图片满足一定规律分布,利用文本中包含的这些分布信息作为指导,把一张纯噪声的图片逐步去噪,生成一张跟文本信息匹配的图片。这种将高维特征压缩到低维,然后在低维空间上进行操作的方法具有普适性,可以很容易推广到文本、音频、视频等领域。
  3. 条件机制:Stable Diffusion引入了条件机制(Conditioning Mechanisms),通过cross-attention的方式来实现多模态训练,使得条件图片生成任务也可以实现。论文中提到的条件图片生成任务包括类别条件图片生成(class-condition Text-to-image)等。这种条件机制使得模型可以根据给定的条件生成符合条件的图像。
  4. 稳定性:Stable Diffusion的一个重要特性是它的稳定性。在训练过程中,模型会逐步去除噪声,最终生成稳定的图像。这种稳定性使得模型在生成过程中不容易受到噪声的影响,从而能够生成高质量的图像。

总的来说,Stable Diffusion是一种强大的文图生成模型,它通过在潜在表示空间中迭代去噪数据,然后将表示结果解码为完整的图像,从而实现了高质量的图像生成。同时,它还引入了条件机制,使得模型可以根据给定的条件生成符合条件的图像。这些特性使得Stable Diffusion在图像生成领域具有广泛的应用前景。

二、Stable Diffusion 云部署

电脑有GPU的话可以自行去部署,没有GPU的话可以在云上部署,这里比较推荐AutoDL平台平台(便宜)
揽睿星舟(Lanrui-ai)平台
第一步:注册/登录官网,登录后点击左上角LOGO回到主页,再点击应用市场:

第二步:安装/打开 Stable Diffusion

第三步:新建实例


第四步,进入Web UI,开启你的炼图之旅(恭喜你上路了!)

第五步,设置中文


AutoDL平台

第一步:登录注册,注意第一次使用需要实名认证

第二步:租用实力与安装


第三步,进入Web UI,开启你的炼图之旅(恭喜你上路了!)

三、Stable Diffusion的UI界面介绍


基础模型调用栏

最左上角是基础模型调用栏,这里可以切换我们用来绘画使用的基础模型(简称:底模),基础模型的调用,确定AI绘图的画风。

提示词栏

在这里输入需要让AI明白你想让他画什么,不能画什么的内容描述关键词,叫prompt,也叫Tag。

另外,你可能会看到别人发的 Tag 里面会有一些符号?比如大小括号等等。以 girl 这个 Tag 作为例子。

(girl) 加权重,这里是1.1倍。括号是可以叠加的,如((girl)) 加很多权重。1.1*1.1=1.21倍

[girl] 减权重,一般用的少。减权重也一般就用下面的指定倍数。

(girl:1.5) 指定倍数,这里是1.5倍的权重。还可以 (girl:0.9) 达到减权重的效果。

采样器和步数

采样步数不需要太大,一般在30以内。通常24是一个不错的值。

采样器没有优劣之分,因基础模型不同,呈现的效果也不同,全看个人喜好。

提示词相关性CFG

提示词相关性代表你输入的 Tag 对画面的引导程度有多大,可以理解为 “越大AI越自由发挥”太大会出现锐化、线条变粗的效果,越小,线条会越精细。一般用默认的7值就好。

随机种子

生成图片时的随机性:当随机种子设置为-1时,图画随机生成。

结果的可重现性:当遇见中意的图片时,复制下面的种子数值,填入随机种子框内,后续生成的图画基本都是一个样子。使用相同的种子将会产生完全相同的结果,这对于实验和比较模型的性能非常重要。

参数调优:通过调整种子的数值,我们可以控制生成图片的外观,进行结果复现以及参数调优。

差异随机种子:在随机种子后的方框勾选后,会出现差异随机种子选项以及差异强度选项,这两项和随机种子是配合使用的,作用是:将随机种子值的图和差异随机种子值的图按差异强度进行融合。

微调模型lora调用栏

LoRA(Low-Rank Adaption,低秩自适应)是一种微调大语言模型的方法1234。它的主要作用包括:

  1. 降低微调的计算成本和内存需求:LoRA在微调期间仅适应语言模型中的一部分参数,同时保持其余参数不变4。这降低了微调的计算成本和内存需求。
  2. 保持与传统微调相似的性能:尽管LoRA只适应了部分参数,但它能够保持与传统微调相似的性能。
  3. 快速适应新任务:LoRA使模型能够使用更少的特定于任务的数据快速适应新任务。
  4. 不会引入额外的延迟:LoRA在训练完后其参数可以与原有预训练模型直接合并,变回单分支结构,不会引入额外的延迟。
  5. 只需要保存LoRA本身的参数:使用LoRA进行微调,在训练完毕后只需要保存LoRA本身的参数。

ControlNet调用栏

ControlNet是一个神经网络结构,它可以通过添加额外的条件来控制扩散模型。它的主要作用包括:

  1. 增强稳定扩散的方法:ControlNet提供了一种增强稳定扩散的方法,在文本到图像生成过程中使用条件输入,如涂鸦、边缘映射、分割映射、pose关键点等。这使得生成的图像将更接近输入图像,这比传统的图像到图像生成方法有了很大的改进。
  2. 提高AI绘画的可控性:ControlNet提供了包括canny边缘,语义分割图,关键点,涂鸦在内的多种输入条件,拓展了SD的能力边界,使得AI绘画的可控性大幅提高。
  3. 解决空间一致性问题:ControlNet的革命性之处在于其解决了空间一致性问题。
  4. 提供预处理器功能:ControlNet的核心能力就是能让我们通过设置各种条件来让AI更可控地生成最终图像结果。这些条件就是通过调节预处理器参数来实现的。

四、生成效果图

五、Stable Diffusion生成图像合成数据集优缺点

优点

  1. 创新性:Stable Diffusion是一种新颖的生成模型,它能够生成具有高度复杂性的数据。在研究中,为研究提供丰富的数据。
  2. 灵活性:Stable Diffusion可以通过调整模型的参数来控制生成数据的特性。这意味着我们可以根据研究的需要来生成不同类型的数据。这种灵活性使得我们可以更好地适应研究的需求。
  3. 实用性:由于Stable Diffusion可以生成大量的数据,因此它可以用来进行大规模的研究。

缺点

  1. 数据真实性:虽然Stable Diffusion可以生成大量的数据,但这些数据都是模拟生成的,可能无法完全反映真实的情况。
  2. 模型复杂性:Stable Diffusion是一种复杂的生成模型,需要一定的专业知识才能理解和使用。
  3. 计算资源:Stable Diffusion需要大量的计算资源来生成数据。

文章来源于互联网:使用Stable Diffusion生成的图像合成数据集

相关推荐: 【AIGC 概念理解】Zero-Shot,One-Shot,Few-Shot,In-Context Learning,Tuning-Free/Training-Free/Inference-Only

在人工智能领域,特别是自然语言处理(NLP)和机器学习中,几个重要的概念正在推动研究和应用的前沿发展。以下是few-shot learning, zero-shot learning, in-context learning, tuning-free, tra…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 使用Stable Diffusion生成的图像合成数据集
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们