Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向

2025-11-12 分类：AI创作阅读(217)

通过前面一个阶段的学习，我学习到了如何使用魔搭和PAI-DSW来创建实例，运行代码，生成自己所需要的图片。

而这一个阶段，我将对前面的baseline进行一个具体的分析了解，并且运用一个新的AI工具来帮助我定位图片的提示词，从而生成我想要的图片，这是一个非常棒的体验，接下来我将分享在这一阶段我学习到的知识！

首先，我了解到了AIGC(AI-Generated Content)是通过人工智能技术自动生成内容的生产方式。并且很早就有专家指出，AIGC将是未来人工智能的重点方向，也将改造相关行业和领域生产内容的方式。

对于我们来说，学习ALGC可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图。

对于创作来说，学习ALGC可以提高自己的制图效率，快速制作自己所需要的内容。

对于技术来说，了解AIGC有关的技术和知识，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具。

其次，我学习到了AI生图的历史。最早的AI生图可追溯到20世纪70年代，当时由艺术家哈罗德·科恩（Harold Cohen）发明AARON，可通过机械臂输出作画。

现代的AI生图模型大多基于深度神经网络基础上训练，最早可追溯到2012年吴恩达训练出的能生成“猫脸”的模型。

2015年，谷歌推出了“深梦”（Deep Dream）图像生成工具，类似一个高级滤镜，可以基于给定的图片生成梦幻版图片。

2021 年 1 月 OpenAI 推出DALL-E模型（一个深度学习算法模型，是GPT-3 语言处理模型的一个衍生版本），能直接从文本提示“按需创造”风格多样的图形设计。

一般来说，AI生图模型属于多模态机器学习模型，通过海量的图库和文本描述的深度神经网络学习，最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。

通过学习大量画家的作品，AI生图模型 往往可以照猫画虎绘制出类似的画作，在2022年8月，AI生图真正走进了大众的视野，让各个领域无法忽视。

然后，AI的生图能力也有很多的缺陷和不足。这是因为每个模型用于训练的数据是有限的且不一定相同的，它们能匹配的描述和特征也是有限的，所以在风格、具体事物上，不同的模型会有很大的生成差异，且可能存在诸多与现实不符的情况。

并且在大部分生图场景下，我们可能经常会觉得图片存在“AI味”，这很长一段时间也是科研界和相关从业人员非常头大的问题。

所以，我们在进行输入生图提示词时，需要进行大量的调查和尝试，尽量让AI的风格更趋向于事实，到达我们想要的水平和图片。

但同时，AI生图技术的成熟也会带来很多风险，例如诈骗或误导他人。AI生图技术可能可以模拟亲人的图片或视频进行欺诈，也有可能捏造事实，从而影响大众的判断，因此，我们在辨别可能需要非常仔细地——

观察图片的细节。仔细检查人物的面部特征，尤其是眼睛和嘴巴
检查光线和阴影。分析图片中的光源是否一致，阴影的方向是否与光源相符，是否存在不自然的光线或阴影
分析像素。放大图片，寻找是否有模糊或像素化的部分。
注意背景。检查背景中是否有不协调的元素，比如物体边缘是否平滑，背景中是否有不自然的重复模式。

接下来，我将推荐一个非常好用的AI智能助手–通义千问。它是具有信息查询、语言理解、文本创作等多能力的AI助手。它可以通过输入问题来进行回答，是我们专属的、可随时触达的、24小时随时待命的贴心助教，可以帮助我们解决很多学习中遇到的问题。

就像在上一阶段运行的所有baseline，我们都可以通过搜索框对于这些baseline的代码进行询问，通义千问就可以根据我们的问题，给予我们解答。

例如，我们询问数据整理与训练这一部分的代码，每一条都代表着什么意思，通义千问就可以很快的给予我们回复，如果我们还是不理解，也可以逐条进行追问。

不用担心的是，通义千问很有耐心，可以逐一帮我们解惑！

最后，就是实操环节啦！

我会根据教学资料里所提供的话术，向通义千问询问基于话剧的连环画制作所需要的提示词该怎么写。

例如，我会向通义千问输入：

你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧话剧由8张场景图片生成，你需要输出每张图片的生图提示词具体的场景图片

1、女主正在上课，目视前方，身穿红色吊带长裙

2、开始睡着了

3、进入梦乡，梦到自己身穿红色长裙站在一棵白色大树下，前面有一个穿着黑色华贵服饰的看不清的人

4、被拉着在田野里往前狂奔，男生穿着黑色华贵服饰拉着女生的手，女生穿着红色古风长裙，笑着看着他，手指指向远方漂亮的花圃

5、两人坐在花圃中相谈甚欢

6、一起坐在秋千上，旁边有好多小动物

7、下课了，梦醒了

8、在回家的路上若有所思

生图提示词要求

1、风格为古风

2、根据场景确定是使用全身还是上半身

3、人物描述

4、场景描述

5、做啥事情

6. 女生的外貌描写，要很漂亮和优秀

例子：古风，水墨画，一个黑色长发少女，坐在教室里，盯着黑板，深思，上半身，红色长裙

从而生成我想要制作的八张图片。

怎么样？这几张图是不是很漂亮？我对于这一次的生图结果非常满意。

然后大家就可以根据自己的兴趣进行展示啦。既可以放在自己的桌面上，手机里，也可以再次参加可图Kolors-LoRA风格故事挑战赛。

在这一阶段，我们不仅可以学习到这些内容，还有些其他的AI生图工具可以使用，例如Scepter和WebUI这两个工具，但我也还没有很熟练的使用这两个工具。学习内容我就放在最后面的链接里了，欢迎各位小伙伴进行学习，那今天的分享就到这里啦，拜拜！

官方教程链接：Datawhale

文章来源于互联网:Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向

相关推荐: ai写作哪个最好用？轻松成为朋友圈文案大师

春天的气息弥漫，四月的美景成为了热搜话题，人们纷纷在社交平台上分享这个季节的独特魅力。但是，想要在朋友圈中脱颖而出，发表有创意、吸引人的文案并非易事。你是否也在寻找一种方法，既能够轻松创作出既符合四月主题，又能打动人心的文案？如果你也有这样的烦恼，不妨接着…

未经允许不得转载：5bei.cn大模型教程网 » Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向

Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task03笔记

2025-01-01 分类：AI创作阅读(219)

在task02中，我们对baseline有了深度了解，我们学会了用AI工具来帮助我们学习。另外，我们制作了话剧连环画。

我们今天的任务是了解微调的基本原理，然后我们会对微调的各种参数有一个更加清楚的了解，来实现一个更好的效果，并且在这个Task中会给大家介绍一下文生图的工作流平台工具ComfyUI，来实现一个更加高度定制的文生图。

（AIGC方向的学习即将结束，大家是不是和我一样，感觉有点不舍呢，通过这几天的学习，让我们了解了很多关于AI知识，也要为自己这几天的努力感到骄傲，期待下一期的学习哦！）

一、ComfyUI的探索

1、什么是ComfyUI：

GUI 是 “Graphical User Interface”（图形用户界面）的缩写。简单来说，GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。

ComfyUI 是GUI的一种，是基于节点工作的用户界面，主要用于操作图像的生成技术，ComfyUI 的特别之处在于它采用了一种模块化的设计，把图像生成的过程分解成了许多小的步骤，每个步骤都是一个节点。这些节点可以连接起来形成一个工作流程，这样用户就可以根据需要定制自己的图像生成过程。

ComfyUI的特点包括直观的用户界面和强大的脚本功能，使得用户能够轻松地定制和优化图像生成过程。

2、ComfyUI核心模块

核心模块包括模型加载器、提示词管理器、采样器、解码器。

模型加载器：Load Checkpoint用于加载基础的模型文件，包含了Model、CLIP、VAE三部分

CLIP模块将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入

解码器：VAE模块的作用是将Latent space中的embedding解码为像素级别的图像

采样器：用于控制模型生成图像，不同的采样取值会影响最终输出图像的质量和多样性。采样器可以调节生成过程的速度和质量之间的平衡

Stable Diffusion的基本原理是通过降噪的方式（如完全的噪声图像），将一个原本的噪声信号变为无噪声的信号（如人可以理解的图像）。其中的降噪过程涉及到多次的采样。采样的系数在KSampler中配置：

seed：控制噪声产生的随机种子
control_after_generate：控制seed在每次生成后的变化
steps：降噪的迭代步数，越多则信号越精准，相对的生成时间也越长
cfg：classifier free guidance决定了prompt对于最终生成图像的影响有多大。更高的值代表更多地展现prompt中的描述。
denoise: 多少内容会被噪声覆盖 sampler_name、scheduler：降噪参数。

3、ComfyUI图片生成流程

二、ComfyUI的安装

1、在我的Notebook选择PAI-DSW中的方式二，点击启动即可

2、下载代码文件

git lfs install git clone https://www.modelscope.cn/datasets/maochase/kolors_test_comfyui.git mv kolors_test_comfyui/* ./ rm -rf kolors_test_comfyui/ mkdir -p /mnt/workspace/models/lightning_logs/version_0/checkpoints/ mv epoch=0-step=500.ckpt /mnt/workspace/models/lightning_logs/version_0/checkpoints/

然后粘贴代码，按下回车键即可

3、进入ComfyUI文件

点击一键运行，选择restart

4、找到访问链接

点击进入，或复制到浏览器打开

三、使用ComfyUI工作

1、不带Lora工作（在教程中下载即可）

导入模型，进行生图

生图需要一些时间，大家耐心等待即可

2、带Lora工作

（同理，在教程中下载即可）

3、调整prompt

调整想要生成的图片

4、查看生成图片进度

四、采样器的参数说明

Positive：正向条件

Negative：负向条件

latent_image：将被去噪的潜在图像

seed：用于创建噪声的随机种子

control_after_generate：在每个提示后更改上述种子号的能力。节点可以randomize、increment、decrement或保持种子号fixed。

steps：去噪过程中使用的步骤数。采样器允许进行的步骤越多，结果就越准确。但过大的steps会导致出图过爆，出现不好的画面。

cfg：分类器自由引导（cfg）比例决定了采样器在实现提示内容方面的积极性。更高的比例强制图像更好地代表提示，但设置过高的比例会负面影响图像质量。

sampler_name：使用哪个采样器

scheduler：使用哪种计划

denoise：通过噪声擦除多少潜在图像的信息

五、Lora微调

LoRA (Low-Rank Adaptation) 微调是一种用于在预训练模型上进行高效微调的技术。它可以通过高效且灵活的方式实现模型的个性化调整，使其能够适应特定的任务或领域，同时保持良好的泛化能力和较低的资源消耗。这对于推动大规模预训练模型的实际应用至关重要。

下面是task2中的微调代码

import os cmd = """ python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py # 选择使用可图的Lora训练脚本DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py --pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors # 选择unet模型 --pretrained_text_encoder_path models/kolors/Kolors/text_encoder # 选择text_encoder --pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors # 选择vae模型 --lora_rank 16 # lora_rank 16 表示在权衡模型表达能力和训练效率时，选择了使用 16 作为秩，适合在不显著降低模型性能的前提下，通过 LoRA 减少计算和内存的需求 --lora_alpha 4.0 # 设置 LoRA 的 alpha 值，影响调整的强度 --dataset_path data/lora_dataset_processed # 指定数据集路径，用于训练模型 --output_path ./models # 指定输出路径，用于保存模型 --max_epochs 1 # 设置最大训练轮数为 1 --center_crop # 启用中心裁剪，这通常用于图像预处理 --use_gradient_checkpointing # 启用梯度检查点技术，以节省内存 --precision "16-mixed" # 指定训练时的精度为混合 16 位精度（half precision），这可以加速训练并减少显存使用 """.strip() os.system(cmd) # 执行可图Lora训练

到这里呢，我们的学习就结束了，大家记得打卡哦。

这段时间的学习让我收获很多，学习永不停止，也希望以后能与大家多多交流，期待下一次的学习！

文章来源于互联网:Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task03笔记

相关推荐: 效率翻倍！6 款不容错过的免费 AI 神器（十）

大家好，我是花生~ 最近我又收集了不少有意思的 AI 神器，其中一些对我们日常工作非常有帮助，今天就一起推荐给大家~ 上期回顾：一、AI 证件照 HivisionIDPhotos 在线试玩①： https://huggingface.co/spaces/Th…

未经允许不得转载：5bei.cn大模型教程网 » Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task03笔记

Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task01笔记

2024-08-29 分类：AI创作阅读(71)

赛题内容

可图Kolors-LoRA风格故事挑战赛

baseline要点讲解(请配合Datawhale速通教程食用)

Step1 设置算例及比赛账号的报名和授权

lora 调参参数介绍及 SD 的基础知识点（拓展）

文生图基础知识介绍

提示词

Lora

从零入门AI生图原理&实践 是 Datawhale 2024 年 AI 夏令营第四期的学习活动（“AIGC”方向），基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习。

Datawhale官方的速通教程链接：Task 1 从零入门AI生图原理&实践

接下来我将对跑通 baseline 的细节和涉及到的知识点进行一些介绍和记录。

赛题内容

参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格、赛博朋克风格、日漫风格……
基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性

样例：偶像少女养成日记

可图Kolors-LoRA风格故事挑战赛

baseline要点讲解(请配合Datawhale速通教程食用)

Step1 设置算例及比赛账号的报名和授权

开通阿里云PAI-DSW试用

链接：https://free.aliyun.com/?spm=5176.14066474.J_4683019720.1.8646754cugXKWo&scm=20140722.M_988563._.V_1&productCode=learn

请根据教程开通免费试用，新用户需要注册并实名账号，建议使用支付宝进行登录，可以减少一些基础信息的填写。

在魔塔社区进行账号授权

链接：https://www.modelscope.cn/my/mynotebook/authorization

需要注意的是新用户需要先注册和绑定阿里云账号

Step2 进行赛事报名并创建PAI实例

赛事链接：https://tianchi.aliyun.com/competition/entrance/532254

PAI实例：https://www.modelscope.cn/my/mynotebook/authorization

如果之前试用的额度已经过期，可使用魔搭的免费Notebook实例

在账号注册、授权及报名参赛的环节不多赘述，速通教程已有详细的步骤指南，记得点开图片仔细查看。

Step3 执行baseline

按照教程新建终端，粘贴命令回车执行，这一步是为了拉取远程的baseline文件，需要等待一段时间。相关科普博客：基础git命令使用方法

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

拉取baseline后，可以在右侧文件中看到kolor文件夹，双击进入可以看到后缀.ipyhb的baseline文件，点击打开。

Step4 进行赛题提交

将微调结果上传魔搭

链接：https://www.modelscope.cn/models/create

执行代码后，将模型文件和示例图下载到本地

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch=0-step=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

点击魔搭链接，创建模型，中文名称建议格式：队伍名称-可图Kolors训练-xxxxxx

在提交过程的中的基础模型，是指你在训练过程及后续复现时使用的底模类型。一般来说SD XL的实现精度会更高，在训练过程中需要同步设置SD XL，在初步跑通 baseline 时使用基础即可，博主在提交的时候是选用的SD2.1，可参考选用。

点击创建提交就完成啦！恭喜你已经顺利跑通了baseline。

记得完成后及时关闭你正在运行的实例，别让算力偷偷溜走了

别忘记打卡&在群里接龙！

lora 调参参数介绍及 SD 的基础知识点（拓展）

文生图基础知识介绍

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

接下来，我们简单了解下提示词、lora、ComfyUI和参考图控制这些知识点。

提示词

提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

反向prompt推荐（会更推荐使用英文 prompt，因为底层调用 sd 时是输入英文prompt的）:
text, word, cropped, low quality, normal quality, username, watermark, signature, blurry, soft, soft line, curved line, sketch, ugly, logo, pixelated, lowres, vase,

提高出图质量正向prompt推荐: a highly detailed European style bed room,elegant atmosphere,rtx lighting,global illuminations,a sense of understated sophistication,8k resolution,high quality,photorealistic,highly detailed,

Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

那我们 lora 训练的最终目的是什么呢？训练的本质在于找出当前训练集的最优解，优素材取决于不同角度、不同形态、灯光、图片质量。

在Tag类型上，需要包括主题、动作、主要特征、视角、光影效果等其他，如果在训练过程中对某一个特征不打Tag，则将成为固定模型特征。

参考：Stable Diffusion Lora locon loha训练参数设置 – 知乎 (zhihu.com)

出图指引（SD WebUI）：

描述内容prompt：主体、表情、服装、场景、环境、镜头、灯光、风格、画质、渲染器

靠前的Tag权重较高，适当运用括号法则、数字法则、混合

采样步数：数越高，细节多渲染慢，建议范围在20~40

采样器：karras去噪快

a噪点不居中，关键词识别度稍低，更具灵活度

DPM 建议使用DPM++SDE karras

文字相关度CFG scale : 建议在4~9

Seed 随机种子：-1随机，其他为已经完成出图的风格编号

常见出图参数说明：

batch_size 并行数量，如果增加bs，需要同步增加学习率对应根号2 倍率

enable_bucket 开启bucket来支持不同长宽比的训练图片

resolution 训练时图片的分辨率

flip_aug 水平翻转数据增强，要求训练目标对左右方向不敏感

random_crop 随机裁剪数据增强

color_aug 颜色数据增强，要求训练目标对颜色不敏感

shuffle_caption 打乱文本描述

keep_tokens 保证最前面的几个 tag 不被打乱，默认为1

num_repeats 学习次数，每张图片在一个epoch内重复多少次，实物30~100，人像20~30

常见训练参数说明：

pretrained_model_name_or_path：

指向基底模型的路径，支持 .ckpt、.safetensors 和 Diffusers 格式。

output_dir：指定模型保存的路径

output_name：指定模型保存的文件名（不含扩展名）

save_model_as：模型保存格式，ckpt, safetensors, diffusers, diffusers_safetensors.

dataset_config：指向 TOML 配置文件的路径

max_train_steps：指定训练的steps数，lora总step在1500~6000，checkpoint在30000+

total optimization steps = Imag * repeat * epoch / batch_size

max_train_epochs：指定训练的epochs数，10~15,根据loss值

save_every_n_steps：每隔多少 steps 保存模型

save_every_n_epochs：每隔多少 epochs 保存模型

mixed_precision：使用混合精度来节省显存。

gradient_checkpointing：用于节省显存，但是会增加训练时间。

xformers / mem_eff_attn：用于节省显存。

clip_skip：使用 CLIP 的倒数第几层特征，最好与基底模型保持一致。

network_dim: 学习精细度，为Unet-lr的1/10~1/2，场景128，人物32~128

network_alpha:用于保证训练过程的数值稳定性，防止下溢，默认为1.

network_weights: 加载预训练的 LoRA 模型并继续训练。

network_train_unet_only:只训练 U-Net 的 LoRA

network_train_text_encoder_only:只训练 Text Encoder 的 LoRA

optimizer_type：选择优化器，推荐使用AdamW8bit le-4 , DAdaptation 1

AdamW8bit 对于显存小的用户更友好。Lion 优化器的使用率也很高，学习率需要设置得很小（如AdamW优化器下的 1/3，或者更小）

使用 DAdaptation 时，应当将学习率设置在1附近，text_encoder_lr 可以设置成1，或者小一点，0.5之类。使用DAdaptation 时，推荐将学习率调整策略调整为 constant 。

learning_rate：设置学习率，推荐le-4

unet_lr:对 U-Net 的 LoRA 单独设置学习率

一般可以设为 1e-4，覆盖–learning rate 的设置。

text_encoder_lr:为 Text Encoder 的 LoRA 单独设置学习率

一般可以设为 5e-5，覆盖–learning rate 的设置。

lr_scheduler / –lr_warmup_steps / –lr_scheduler_num_cycles / –lr_scheduler_power：设置学习率 scheduler、warmup. 学习率调度器，有以下几种

[“cosine_with_restarts”, “cosine”, “polynomial”, “constant”, “constant_with_warmup”, “linear”]，推荐使用 cosine_with_restarts，它会使学习率从高到低下降，变化速度先慢后快再慢

小tip: 在后续进行微调参数的优化训练时建议将每一次的训练参数及效果记录下来，方便进行优化调参，可以很直观的看出训练效果的对比。示例如下：

完成baseline的同学们想过如何让出图变得更稳定一些呢？比如一些线稿？场景？人物动作？那么 ControlNet 可能可以帮到你

ControlNet

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

下面附上 ControlNet 导图，可以先了解一下。

文章来源于互联网:Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task01笔记

未经允许不得转载：5bei.cn大模型教程网 » Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task01笔记

标签：ai aigc Controlnet ps Stable Diffusion 连贯

Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向

Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task03笔记

Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task01笔记

赛题内容

可图Kolors-LoRA风格故事挑战赛

baseline要点讲解(请配合Datawhale速通教程食用)

Step1 设置算例及比赛账号的报名和授权

Step2 进行赛事报名并创建PAI实例

Step3 执行baseline

Step4 进行赛题提交

lora 调参参数介绍及 SD 的基础知识点（拓展）

文生图基础知识介绍

提示词

Lora

出图指引（SD WebUI）：

常见出图参数说明：

常见训练参数说明：

ControlNet

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来