AI大模型教程
一起来学习

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

前言

此次会连载一套 AI Agent 构建的系列,主要分为三部分,上篇是速通 AI Agent 构建的工作流基础,本篇则是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,给大家提供一些思路与窍门,下篇则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试为自己搭建一些可用的 AI 助手,或是提供构建的方法指引。

不得不提的废话

就目前市面上的图像生成平台真的是越来越强悍,就例如最新版本的 ChatGPT 4o、即梦 AI 等,不仅提示词描述更简单了,图像效果也越来越好,通过几张简单的参考图加需求说明,就可以马上进行高质量的图像融合、局部替换修复、风格转换、效果延展等,甚至即梦以及能够处理中文以及文字效果了。

那你可能在想用 ComfyUI 做工作流上手案例还有必要么?有的!

原因是专业的业务场景需要专业且复杂的工作流或是 Agent 来实现,我们学习和掌握的是一套可复用的思维或方法,而不局限于本次所用的 ComfyUI,在第三篇的案例构建中,我也会用这套方法熟悉上手其他智能体平台来搭建一个 Agent 助手。

所以,通过学习和掌握复杂,只为更从容面对瞬息万变的 AI 应用。

上期回顾:

一、设计目标是什么?

清晰我们的构建目标是什么,业务背景是什么,需求会提供哪些数据,要转化成什么样的结果,一切围绕着目标需求来拆解基本流程与寻求实现工作流的技术平台。

例如我要构建图像生成的工作流,需求提供了图像的风格与主题内容说明,那么结果肯定是将这些说明生成一张符合的图像,若我们要通过一套工作流实现,这个工作流平台就必须具备文生图的插件能力,例如基于 SD 图像生成的 ComfyUI。

那么就基于图像工作流 ComfyUI,我们来展开聊聊如何快速上手一款工作流平台为我所用~

二、分析现有流程结构

本质是一套数字化的生产流程,所以先分析和明确实现目标的基本工作或流程,以及对应的起始到结束的数据转化涉及到哪些加工步骤?中间至少需要哪些插件或 AI 模型的能力来实现转化。
好比说老板画了一张小狗的草图,他想要我做一个工作流上色和完善图像,给他一个二维卡通的狗狗图片,那么基于 AIGC 的方法概念,我们简单思索一下,这个流程至少要有以下几个节点过程;

Step1. 有一个风格符合的大模型

Step2. 有插件能够加载和识别草稿图

Step3. 能够输入关键词来指导图像的基本要求

Step4. 能够配置图像规格的参数

Step5. 能够基于以上数据生成期望的图像

那么我们就可以根据这套基础流程与插件诉求去匹配合适的工作流平台了。

三、工作流搭建平台选用

举例我是做一套代码托管部署,那么我就可以找代码相关的工作流部署平台,若是 AI 智能体相关工作流就可以看看扣子、文心智能体平台、百宝箱、Dify 这些,这些平台会提供相应的插件、工具或模型,我的选用标准主要就三个方面;

  1. 能够满足我的设计目标或业务诉求(需求可行性)
  2. 有丰富可用的插件或 AI 模型(能力扩展性)
  3. 友好的用户体验与成本控制(体验与商业平衡)

经过简单调研,若能够满足上面提到的三个方面,我们就可以进一步的了解与体验,并尝试构建或部署我们的业务。

四、如何快速上手一个工作流平台

一切从简单的部分开始,当我们初次看到一团杂乱的工作流时,几乎是劝退的,但所有的复杂也都是从简单一点一点丰富起来的,面对一个陌生的工作流时,我们可以通过以下方法快速熟悉和掌握;

  1. 一套可运行的基础工作流程要包含哪些节点与参数,如常见的起手式与结束式用哪些节点和设置,以及面对整个工作流的配置设置有哪些,有什么差异,那个更适合我们的业务需求(例如扣子具备单 Agent 的对话模式、多 Agent 的协同触发模式、以及我正在使用应用模式)。
  2. 节点连接的关系与条件是怎样的,如输入输出的数据类型、参数、准入准出等,理解节点怎样才能连接到一起并正确运行起来(也就是上篇的工作流基础速通篇所讲的内容)。
  3. 掌握各类节点插件的作用或类别,即不同节点的用途是什么,通常衔接在流程的哪些阶段中,需要哪些必要的输入输出完善流程(通常各类节点或 AI 模型会有相应的介绍说明,这些有必要了解一下)。

五、熟悉 ComfyUI 的基本流程

那么就用上面这套方法,让我们试着快速熟悉一下 ComfyUI 的基础流程与插件能力吧~没有电脑本地部署 ComfyUI 的可以试试这款线上的工作流平台( https://www.liblib.art/modelinfo/a02112c0c9784832a4d21dc9bba84900?from=search&versionUuid=b3f60f7458f24c58be24b6d71bb660c4

OK 回到正题,假若当我们看到这个完整工作流时,是不是虎躯一颤,心想这啥玩意儿?

但莫要慌张,让我们逐一拿捏这套小小工作流,首先 ComfyUI 是基于 Stable Diffusion 的节点式工作流,因此任意工作流的基础流程都应该是基于以下这套编排关系来展开的;

那么我们把这些核心节点对应找出来,如下,我们已经在工作流面板中搜索出了基础流程所需要的节点。

六、掌握节点之间的连接关系

OK,那我们再继续研究节点连接的关系与条件是怎样的,我们可以观察到,单个节点卡片的左右就是输入输出的字段,卡片中间就是要配置的参数,是典型输入输出+数据配置的结构,有意思的输入输出的字段甚至用颜色做了类型区分,所以只要按照颜色就可以将节点之间连接起来就可以了(这使得连接关系更加简单易懂)。

这里我们快速连接了一下,仿佛已经掌握了 ComfyUI 的基础工作流,但是点击运行后报错了!

明眼人一看肯定就知道原因了,原来是有个节点缺少执行的预设输入配置,那么我们尝试找一个“粉色”的“Latent”补充进来再试试。

通过拖拽粉色缺失的输入接口(平台支持端口拖拽出来适用选项的窗口),我们直接添加了一个空的“Latent”,通过观察参数设置,显然这个粉色的“家伙儿”是用来设置图像大小和批次的,并且这次也顺利运行了起来。

那么我们已经掌握了最基础的工作流搭建,以及理解了节点之间如何正确的连接与运行的。这种方法的好处在于我们知道了 1+1=2 以后就可以直接引用,而不需要你去深度理解和解释为什么 1+1=2,当然了你要是想知道 ComfyUI 的基础生成流程为什么要这样,你可以自己在网络上深度学习一下。

接着到第三趴,开始掌握不同的节点插件的用途与类型差异,并揭秘第一张杂乱工作流的概念与用途。

七、掌握核心节点或插件的使用

ComfyUI 的节点插件是相当多的,并且随着时间推移,还会越来越多,但不碍事儿,我们先从核心且高频的节点下手;

面对各种节点先聊聊应该在哪些流程阶段使用,就 ComfyUI 平台来说,可以洞察到每个节点都会用颜色将输入输出进行标记分类,拖拽输入输出端口后,还会浮窗显示关联条件的节点,这就意味一个节点你不熟悉时,添加到面板上并加上输入输出的节点,基本上你就能知道这个节点应该用到哪个阶段上了,如下图所示;

通过上图可以看出这个“遮罩阈值”节点是在图像相关节点后进行工作的,并且相关的输出节点都是橙色、紫色输出作为结束,那么我们再参考基础的工作流节点,是不是很容易就发现“遮罩阈值”节点是用作“关键词”跟“K 采样器”之间的阶段呢。

那么节点使用阶段的窍门说完,继续深入一下核心的节点有哪些、它们有何用途、常用于哪些场景?请看以下我整理的说明表;

1. ComfyUI 的基础核心节点

2. ComfyUI 的图像控制与增强节点

3. ComfyUI 的条件控制节点

4. ComfyUI 的逻辑与流程控制节点

5. ComfyUI 的特殊功能节点

6. ComfyUI 的高频节点参数配置参考

当然了,这只是部分核心节点的信息整理,如果大家对 ComfyUI 或这些节点有兴趣,可以去“ https://comfy.icu/node/ ”上了解更多,或者通过 ComfyUI 工具对节点的分类来了解,就像下图所示,这里不展开了。

然后在 SD 生图的进阶使用中,ControlNet 是一个必学的进阶节点,同样也是一开始的工作流中出现过的节点,还有印象吗?那么这就来简单了解一番,为破解前面那张复杂工作流做准备。

7. ControlNet 节点分类说明表

这些 ControlNet 模型可以帮助我们进行图像参考生成,但是对参考图是有条件要求的,通常这些模型要配套相关的条件预处理器一起用,例如将图像的黑白线稿提取出来,若你本身就是符合条件的黑白线稿图,使用相关模型时也可以不再使用预处理器。

对这些 ControlNet 节点与用途效果想要深入了解朋友可以移步到此:GitHub – lllyasviel/ControlNet-v1-1-nightly: Nightly release of ControlNet 1.1

八、揭秘那张复杂的工作流截图

看到这里,你应该对 ComfyUI 基本的出图流程有了认识,知道了有哪些核心节点,不同节点之间应该如何连接使用,以及知道如何通过添加上下级节点来分析出在哪些阶段使用。

也许你的大脑已经过载了,但是无碍,如果接下来你在案例中看到了不熟悉的节点,你依旧可以翻阅前面的节点或插件介绍。

那么我们继续,重新回顾这个复杂的工作流,可以看出紫色部分是生图的基础节点,基础流程前后的黄色节点分别是一个 Lora 跟一套图像放大节点,在关键词跟 K 采样器之间则还有一套灰色的节点任务,让我们逐一拆解;

Lora 节点采用的是一个可配合“Realistic Vison V5.1”写实类大模型的毛绒效果 Lora,用途就是产生更细腻的毛绒效果;

图像放大节点实际上由三个子任务构成,核心节点是 图像通过模型放大 (ImageUpscaleWithModel),功能是通过分块处理的方式,逐步放大图像,同时处理内存不足的情况。

图像通过模型放大节点需要由“放大模型加载器”来选定指定的放大模型,输出部分通过观察颜色是可以直接进行图像输出的,但是为了产生更高清的图像,输出添加了一个“缩放节点”,它会基于“空 Latent”中设定的尺寸*缩放节点的缩放系数 2,最终产生一个高清二倍图。

接着就剩这团灰色的节点了,通过节点名称,我们可以抓取到关键词是“ControlNet”,可以观察到这团节点其实是通过“ControlNet 应用 (旧版高级)”节点实现与基础流程接轨的,根据节点输入输出的颜色标记,可以看出是在 CLIP 关键词与 K 采样器之间的阶段工作的,并且有两组“ControlNet 应用 (旧版高级)”节点串联在一起,那么我们一组一组的来揭秘下;

经过拆解,单组“ControlNet 应用”的节点实际上由四个任务节点构成,主要是完成 ControlNet 模型选取与参考图加载处理,在前文 #掌握核心节点或插件/七/ControlNet 节点部分 介绍过所有 ControlNet 模型是有输出条件的,因此需要将上传的参考图预处理成匹配的输出条件,所以在“加载图像”节点后就多了这么一个“PidNet 模糊线预处理器”,并且这个图像预处理器是跟模型匹配的;

可以看见加载的 ControlNet 模型是“control_v11p_sd15_softedge”,这表示为适应用 SD1.5 版本的 SoftEdge(软边缘),那么对应可用的图像预处理器则是“Pidinet”,可以提取图像柔和的边缘轮廓,而柔和的轮廓在图像生成时则可以赋予 AI 更多发挥空间,不至于边缘太生硬导致毛绒的效果不好;

当我们解析完第一组 ControlNet 任务节点后,再来看第二组时,似乎就简单很多了,结构基本相似,模型采用了“control_v11fle_sd15_tile”,图像预处理器采用了“Tile 平铺预处理器”,这是一个分块采样器,可以在原有画面的基础上生成更好的细节或画面质量,用做提升毛绒效果的质感,因为这些预处理器输入输出都是图像,所以在输出端添加了一个“预览图像”,这样就可以方便我们看到预处理后的效果了。

那么再次打开这个完整的 ComfyUI 工作流,你又能看懂多少了?又或是有了什么新的疑问?

好啦,我来公布答案了!

「紫色域」其中有紫色标记的节点即基础工作流节点,用做基本的文生图;
CHECKPOINT 模型后挂载的黄色 Lora 模型用做生成特定的毛绒效果,结尾处黄色任务节点用做提升清晰度与图像大小;

「暗红域」+「绿色域」暗红色的是两组 ControlNet 任务节点,用做获取参考图特征,两组通过绿色的“加载图像”节点从用户设备本地获取同一个参考素材,第一组采用 SoftEdge(软边缘)获取参考对象的边缘线稿,第二组分块/模糊(tile/blur)任务节点则获取图像的特质;

最终这套工作流就可以实现毛绒效果的图标绘制了。

那么,有趣的是!

可以看见工作已经运行成功了,不过 ControlNet 应用节点上的“VAE”输入并没有添加,可以猜测是给特殊模型用的,不过你也可以为此添加上主模型的“VAE”,最终工作流还是可以运行的。

看到这里,如何快速学习和掌握一款工作流平台的法子,我想你应该有思路了,那么再继续聊聊“编排与初步调试”与“能力扩展与调试”。

九、编排与初步调试

基本上就是拆解任务的最小工作流,并尝试将相关节点编排连接起来,对工作流运行的基础参数进行设置完善,使得这个工作流能够运行起来,之后则是根据运行的效果,对节点的参数进一步的调整,或替换其他效果的任务节点,概括一下就是像 OKRs 一样把大目标拆解成若干小任务或基础流程,先把基础工作流构建起来并运行起来,之后才开始考虑能力扩展优化等。

这个过程在前面的 #熟悉 ComfyUI 的基本流程 部分中也有体现,还有印象吗?

十、能力扩展与测试

简单说就是根据目标完善工作流的能力,并经过测试验证,加强效果与稳定性,并且可以根据工作需要不断调整优化工作流的能力,当然了如果无法很好兼容新的诉求,那就建议新建一条;
还是以前面的案例为例,当我们的基础工作流跑起来后,就可以根据设计目标进行能力的扩展与测试,经过揭秘的工作流目标就是能够参考图标生成毛绒效果的图标,那么这个能力扩展与测试的过程如下;

方法回顾

那么到此,一套如何上手掌握工作流平台的方法就说完了,这里我再帮大家整理和回顾一下,希望这些方法能够被大家理解和应用;

如果你对主流的 AI 工作流或智能体平台不熟悉,那么你可用这套方法自己快速熟悉起来,如果你已经比较熟悉且有自己的学习上手方法,那么直接期待下篇吧。

篇幅问题,下篇上案例,开始构建我们的 Agent 牛马~

文章来源于互联网:速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

相关推荐: 论文生成器免费推荐:9款AI写作神器助你轻松写论文

在学术写作的道路上,许多学生和研究人员都面临着写论文时间紧、资料繁杂、思路不清的问题。幸运的是,随着人工智能技术的发展,越来越多的免费论文生成器和辅助工具应运而生,帮助你高效完成论文写作任务。本文将为你推荐9款优质的免费论文生成器及相关AI写作辅助工具,涵盖从…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

前言

此次会连载一套 AI Agent 构建的系列,主要分为三部分,上篇是速通 AI Agent 构建的工作流基础,本篇则是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,给大家提供一些思路与窍门,下篇则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试为自己搭建一些可用的 AI 助手,或是提供构建的方法指引。

上期回顾:

不得不提的废话

就目前市面上的图像生成平台真的是越来越强悍,就例如最新版本的 ChatGPT 4o、即梦 AI 等,不仅提示词描述更简单了,图像效果也越来越好,通过几张简单的参考图加需求说明,就可以马上进行高质量的图像融合、局部替换修复、风格转换、效果延展等,甚至即梦已经能够处理中文以及文字效果了。

那你可能在想用 ComfyUI 做工作流上手案例还有必要么?有的!

原因是专业的业务场景需要专业且复杂的工作流或是 Agent 来实现,我们学习和掌握的是一套可复用的思维或方法,而不局限于本次所用的 ComfyUI,在第三篇的案例构建中,我也会用这套方法熟悉上手其他智能体平台来搭建一个 Agent 助手。

所以,通过学习和掌握复杂,只为更从容面对瞬息万变的 AI 应用。

一、设计目标是什么?

清晰我们的构建目标是什么,业务背景是什么,需求会提供哪些数据,要转化成什么样的结果,一切围绕着目标需求来拆解基本流程与寻求实现工作流的技术平台。

例如我要构建图像生成的工作流,需求提供了图像的风格与主题内容说明,那么结果肯定是将这些说明生成一张符合的图像,若我们要通过一套工作流实现,这个工作流平台就必须具备文生图的插件能力,例如基于 SD 图像生成的 ComfyUI。

那么就基于图像工作流 ComfyUI,我们来展开聊聊如何快速上手一款工作流平台为我所用~

二、分析现有流程结构

本质是一套数字化的生产流程,所以先分析和明确实现目标的基本工作或流程,以及对应的起始到结束的数据转化涉及到哪些加工步骤?中间至少需要哪些插件或 AI 模型的能力来实现转化。

好比说老板画了一张小狗的草图,他想要我做一个工作流上色和完善图像,给他一个二维卡通的狗狗图片,那么基于 AIGC 的方法概念,我们简单思索一下,这个流程至少要有以下几个节点过程;

Step1. 有一个风格符合的大模型

Step2. 有插件能够加载和识别草稿图

Step3. 能够输入关键词来指导图像的基本要求

Step4. 能够配置图像规格的参数

Step5. 能够基于以上数据生成期望的图像

那么我们就可以根据这套基础流程与插件诉求去匹配合适的工作流平台了。

三、工作流搭建平台选用

举例我是做一套代码托管部署,那么我就可以找代码相关的工作流部署平台,若是 AI 智能体相关工作流就可以看看扣子、文心智能体平台、百宝箱、Dify 这些,这些平台会提供相应的插件、工具或模型,我的选用标准主要就三个方面;

  1. 能够满足我的设计目标或业务诉求(需求可行性)
  2. 有丰富可用的插件或 AI 模型(能力扩展性)
  3. 友好的用户体验与成本控制(体验与商业平衡)

经过简单调研,若能够满足上面提到的三个方面,我们就可以进一步的了解与体验,并尝试构建或部署我们的业务。

四、如何快速上手一个工作流平台

一切从简单的部分开始,当我们初次看到一团杂乱的工作流时,几乎是劝退的,但所有的复杂也都是从简单一点一点丰富起来的,面对一个陌生的工作流时,我们可以通过以下方法快速熟悉和掌握;

  1. 一套可运行的基础工作流程要包含哪些节点与参数,如常见的起手式与结束式用哪些节点和设置,以及面对整个工作流的配置设置有哪些,有什么差异,那个更适合我们的业务需求(例如扣子具备单 Agent 的对话模式、多 Agent 的协同触发模式、以及我正在使用应用模式)。
  2. 节点连接的关系与条件是怎样的,如输入输出的数据类型、参数、准入准出等,理解节点怎样才能连接到一起并正确运行起来(也就是上篇的工作流基础速通篇所讲的内容)。
  3. 掌握各类节点插件的作用或类别,即不同节点的用途是什么,通常衔接在流程的哪些阶段中,需要哪些必要的输入输出完善流程(通常各类节点或 AI 模型会有相应的介绍说明,这些有必要了解一下)。

五、熟悉 ComfyUI 的基本流程

那么就用上面这套方法,让我们试着快速熟悉一下 ComfyUI 的基础流程与插件能力吧~没有电脑本地部署 ComfyUI 的可以试试这款线上的工作流平台( https://www.liblib.art/modelinfo

OK 回到正题,假若当我们看到这个完整工作流时,是不是虎躯一颤,心想这啥玩意儿?

但莫要慌张,让我们逐一拿捏这套小小工作流,首先 ComfyUI 是基于 Stable Diffusion 的节点式工作流,因此任意工作流的基础流程都应该是基于以下这套编排关系来展开的;

那么我们把这些核心节点对应找出来,如下,我们已经在工作流面板中搜索出了基础流程所需要的节点。

六、掌握节点之间的连接关系

OK,那我们再继续研究节点连接的关系与条件是怎样的,我们可以观察到,单个节点卡片的左右就是输入输出的字段,卡片中间就是要配置的参数,是典型输入输出+数据配置的结构,有意思的输入输出的字段甚至用颜色做了类型区分,所以只要按照颜色就可以将节点之间连接起来就可以了(这使得连接关系更加简单易懂)。

这里我们快速连接了一下,仿佛已经掌握了 ComfyUI 的基础工作流,但是点击运行后报错了!

明眼人一看肯定就知道原因了,原来是有个节点缺少执行的预设输入配置,那么我们尝试找一个“粉色”的“Latent”补充进来再试试。

通过拖拽粉色缺失的输入接口(平台支持端口拖拽出来适用选项的窗口),我们直接添加了一个空的“Latent”,通过观察参数设置,显然这个粉色的“家伙儿”是用来设置图像大小和批次的,并且这次也顺利运行了起来。

那么我们已经掌握了最基础的工作流搭建,以及理解了节点之间如何正确的连接与运行的。这种方法的好处在于我们知道了 1+1=2 以后就可以直接引用,而不需要你去深度理解和解释为什么 1+1=2,当然了你要是想知道 ComfyUI 的基础生成流程为什么要这样,你可以自己在网络上深度学习一下。

接着到第三趴,开始掌握不同的节点插件的用途与类型差异,并揭秘第一张杂乱工作流的概念与用途。

七、掌握核心节点或插件的使用

ComfyUI 的节点插件是相当多的,并且随着时间推移,还会越来越多,但不碍事儿,我们先从核心且高频的节点下手;

面对各种节点先聊聊应该在哪些流程阶段使用,就 ComfyUI 平台来说,可以洞察到每个节点都会用颜色将输入输出进行标记分类,拖拽输入输出端口后,还会浮窗显示关联条件的节点,这就意味一个节点你不熟悉时,添加到面板上并加上输入输出的节点,基本上你就能知道这个节点应该用到哪个阶段上了,如下图所示;

通过上图可以看出这个“遮罩阈值”节点是在图像相关节点后进行工作的,并且相关的输出节点都是橙色、紫色输出作为结束,那么我们再参考基础的工作流节点,是不是很容易就发现“遮罩阈值”节点是用作“关键词”跟“K 采样器”之间的阶段呢。

那么节点使用阶段的窍门说完,继续深入一下核心的节点有哪些、它们有何用途、常用于哪些场景?请看以下我整理的说明表;

1. ComfyUI 的基础核心节点

2. ComfyUI 的图像控制与增强节点

3. ComfyUI 的条件控制节点

4. ComfyUI 的逻辑与流程控制节点

5. ComfyUI 的特殊功能节点

6. ComfyUI 的高频节点参数配置参考

当然了,这只是部分核心节点的信息整理,如果大家对 ComfyUI 或这些节点有兴趣,可以去“ https://comfy.icu/node/ ”上了解更多,或者通过 ComfyUI 工具对节点的分类来了解,就像下图所示,这里不展开了。

然后在 SD 生图的进阶使用中,ControlNet 是一个必学的进阶节点,同样也是一开始的工作流中出现过的节点,还有印象吗?那么这就来简单了解一番,为破解前面那张复杂工作流做准备。

7. ControlNet 节点分类说明表

这些 ControlNet 模型可以帮助我们进行图像参考生成,但是对参考图是有条件要求的,通常这些模型要配套相关的条件预处理器一起用,例如将图像的黑白线稿提取出来,若你本身就是符合条件的黑白线稿图,使用相关模型时也可以不再使用预处理器。

对这些 ControlNet 节点与用途效果想要深入了解朋友可以移步到此:GitHub – lllyasviel/ControlNet-v1-1-nightly: Nightly release of ControlNet 1.1

八、揭秘那张复杂的工作流截图

看到这里,你应该对 ComfyUI 基本的出图流程有了认识,知道了有哪些核心节点,不同节点之间应该如何连接使用,以及知道如何通过添加上下级节点来分析出在哪些阶段使用。
也许你的大脑已经过载了,但是无碍,如果接下来你在案例中看到了不熟悉的节点,你依旧可以翻阅前面的节点或插件介绍。

那么我们继续,重新回顾这个复杂的工作流,可以看出紫色部分是生图的基础节点,基础流程前后的黄色节点分别是一个 Lora 跟一套图像放大节点,在关键词跟 K 采样器之间则还有一套灰色的节点任务,让我们逐一拆解;

Lora 节点采用的是一个可配合“Realistic Vison V5.1”写实类大模型的毛绒效果 Lora,用途就是产生更细腻的毛绒效果;

图像放大节点实际上由三个子任务构成,核心节点是 图像通过模型放大 (ImageUpscaleWithModel),功能是通过分块处理的方式,逐步放大图像,同时处理内存不足的情况。

图像通过模型放大节点需要由“放大模型加载器”来选定指定的放大模型,输出部分通过观察颜色是可以直接进行图像输出的,但是为了产生更高清的图像,输出添加了一个“缩放节点”,它会基于“空 Latent”中设定的尺寸*缩放节点的缩放系数 2,最终产生一个高清二倍图。

接着就剩这团灰色的节点了,通过节点名称,我们可以抓取到关键词是“ControlNet”,可以观察到这团节点其实是通过“ControlNet 应用 (旧版高级)”节点实现与基础流程接轨的,根据节点输入输出的颜色标记,可以看出是在 CLIP 关键词与 K 采样器之间的阶段工作的,并且有两组“ControlNet 应用 (旧版高级)”节点串联在一起,那么我们一组一组的来揭秘下;

经过拆解,单组“ControlNet 应用”的节点实际上由四个任务节点构成,主要是完成 ControlNet 模型选取与参考图加载处理,在前文 #掌握核心节点或插件/七/ControlNet 节点部分 介绍过所有 ControlNet 模型是有输出条件的,因此需要将上传的参考图预处理成匹配的输出条件,所以在“加载图像”节点后就多了这么一个“PidNet 模糊线预处理器”,并且这个图像预处理器是跟模型匹配的;

可以看见加载的 ControlNet 模型是“control_v11p_sd15_softedge”,这表示为适应用 SD1.5 版本的 SoftEdge(软边缘),那么对应可用的图像预处理器则是“Pidinet”,可以提取图像柔和的边缘轮廓,而柔和的轮廓在图像生成时则可以赋予 AI 更多发挥空间,不至于边缘太生硬导致毛绒的效果不好;

当我们解析完第一组 ControlNet 任务节点后,再来看第二组时,似乎就简单很多了,结构基本相似,模型采用了“control_v11fle_sd15_tile”,图像预处理器采用了“Tile 平铺预处理器”,这是一个分块采样器,可以在原有画面的基础上生成更好的细节或画面质量,用做提升毛绒效果的质感,因为这些预处理器输入输出都是图像,所以在输出端添加了一个“预览图像”,这样就可以方便我们看到预处理后的效果了。

那么再次打开这个完整的 ComfyUI 工作流,你又能看懂多少了?又或是有了什么新的疑问?

好啦,我来公布答案了!

「紫色域」其中有紫色标记的节点即基础工作流节点,用做基本的文生图;

CHECKPOINT 模型后挂载的黄色 Lora 模型用做生成特定的毛绒效果,结尾处黄色任务节点用做提升清晰度与图像大小;

「暗红域」+「绿色域」暗红色的是两组 ControlNet 任务节点,用做获取参考图特征,两组通过绿色的“加载图像”节点从用户设备本地获取同一个参考素材,第一组采用 SoftEdge(软边缘)获取参考对象的边缘线稿,第二组分块/模糊(tile/blur)任务节点则获取图像的特质;
最终这套工作流就可以实现毛绒效果的图标绘制了。

那么,有趣的是!

可以看见工作已经运行成功了,不过 ControlNet 应用节点上的“VAE”输入并没有添加,可以猜测是给特殊模型用的,不过你也可以为此添加上主模型的“VAE”,最终工作流还是可以运行的。

看到这里,如何快速学习和掌握一款工作流平台的法子,我想你应该有思路了,那么再继续聊聊“编排与初步调试”与“能力扩展与调试”。

九、编排与初步调试

基本上就是拆解任务的最小工作流,并尝试将相关节点编排连接起来,对工作流运行的基础参数进行设置完善,使得这个工作流能够运行起来,之后则是根据运行的效果,对节点的参数进一步的调整,或替换其他效果的任务节点,概括一下就是像 OKRs 一样把大目标拆解成若干小任务或基础流程,先把基础工作流构建起来并运行起来,之后才开始考虑能力扩展优化等。

这个过程在前面的 #熟悉 ComfyUI 的基本流程 部分中也有体现,还有印象吗?

十、能力扩展与测试

简单说就是根据目标完善工作流的能力,并经过测试验证,加强效果与稳定性,并且可以根据工作需要不断调整优化工作流的能力,当然了如果无法很好兼容新的诉求,那就建议新建一条;
还是以前面的案例为例,当我们的基础工作流跑起来后,就可以根据设计目标进行能力的扩展与测试,经过揭秘的工作流目标就是能够参考图标生成毛绒效果的图标,那么这个能力扩展与测试的过程如下;

方法回顾

那么到此,一套如何上手掌握工作流平台的方法就说完了,这里我再帮大家整理和回顾一下,希望这些方法能够被大家理解和应用;

如果你对主流的 AI 工作流或智能体平台不熟悉,那么你可用这套方法自己快速熟悉起来,如果你已经比较熟悉且有自己的学习上手方法,那么直接期待下篇吧。

篇幅问题,下篇上案例,开始构建我们的 Agent 牛马~

文章来源于互联网:速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

相关推荐: Stable Diffusion API /sdapi/v1/txt2img的完整参数列表及其说明

基本参数 { “prompt”: “高质量,精细的恐龙”, // 主提示词 “negative_prompt”: “模糊,低质量”, // 负面提示词 “styles”: [“photorealistic”, “detailed”], // 应用的风格预设 “…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

速通BOSS需求!零基础AI Agent高效工作流设计指南

此次会连载一套 AI-Agent 构建的系列,主要分为三部分,首先是速通 AI-Agent 构建的工作流基础,然后是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,最后则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试思考为自己的工作搭建一些可用的 AI 助手,或是提供构建的方法指引。

无论你是产品经理还是设计师,你会发现商业场景的 AIGC,几乎都没有办法通过一段需求描述或是简单的 Agent 对话就搞定的,你需要更专业更复杂的 AIGC 过程,那么如何理解复杂?实现专业?本系列会给你带来一些启示。

更多AI-Agent 资讯:

一、AI 迅猛发展下涌现的 AIGC

在过去两年不到的时间里,AI 绝对是一个热门话题,同时带来的也是各种 AIGC 的尝试与数字化创新,我们迫切期望用 AI 来提升产出效率或带来新的风口,经过了两年的时间,风风火火的 AI 似乎又放缓了脚步,被 AI 冲击的人或事物好像也没有想象中那么多,但 AI 的进步或商业化应用的脚步却是有迹可循的,可谓是大模型小应用。

这两年里已经有越来越多的人或企业用上了大模型的问答、AI 多媒体生成、智能体(Agent)、工作流,其中大模型是最为常见的,能够直接与用户进行多模态沟通,并给予解答。多媒体 AI 生成方面已经覆盖了图像、音频、视频等多领域,在广告营销方面大放光彩。而带有周期记忆的大模型配合一定的数据材料+工具就能训练出智能体,用作解决某些特定场景的问题和内容生成,在个人助手或企业服务中有着广泛的应用;至于工作流则作为构建智能体或特殊 AI 工具的特定形式,被渐渐带入 AIGC 广泛的视野中。

过去的两年里,专业的智能体平台也在迅速发展,并且有数以万计的智能体被发布使用,其中字节的扣子是知名度最高的,其次还有百度的文心智能体平台、支付宝的百宝箱、Dify、Link AI 等,他们的出现均是为了便于我们构建自己的智能体助手或是特定工作流。

大模型开发或训练对普通人比较难,但在这个 AI 迅速发展的时代,我们不妨站在巨人的肩上,思考一下从个人工作提效的视角,如何来构建自己的智能体或是工作流?

二、Agent 与 AI 工作流的区别

1. AI Agent (AI 代理)

其实 AI Agent 并不是这两年才出来的概念,一般资料会说是一种能够感知环境、进行决策和执行动作的智能实体‌。其实你可以浅显理解成是一个有记忆力,能够学习指定资料和调用程序工具来完成任务的AI代理助手,所谓的感知环境就是能够接收用户的指令或是通过传感器采集数据,然后大模型会根据指定资料学习来的知识,调用工具来自动的实现用户目标或优化收集到的数据,并且会在每次执行优化过程中学习提升,说到底一个AI Agent是否好用,还要看AI大模型是否牛掰,以及喂的知识库是否专业可靠,也因此带出了如RAG这些知识库索引技术,目的就是为了让AI更高效准确的从知识库获取信息,这个有机会再深入吧。

2. AI Workflow (AI 工作流)

当你在考勤程序上提交了一条请假申请,AI 助理判定你的请假理由合理就自动转达给老板进行最终审批了,那么这套介入了 AI 的数字化审批流程就可以看成是 AI Workflow。浅显的理解就是一条搭载了各种 AI 模型或工具插件的数字化生产流程,可以根据需求将数据不断的加工执行得到我们最终想要的结果,他们由一系列数字化插件与 AI 模型根据明确的任务次序组成,每个步骤都有清晰的输入和输出规范,整个流程高度结构化且可预测,同时也是大多复杂 Agent 或智能工具编排开发不可绕开的一种形式,工作流编排能够有效地管理和协调这些插件或 AI,确保 Agent 能够高效、可靠、精准地运行。

3. 两者的优势差异

AI Agent

借助大模型(LLM)的智慧与学习能力,Agent 有更强的理解分析与自主决策能力,能够更好的适应复杂的场景与信息处理,并且可以根据过往的数据进行深度学习和优化提升,适合相对开放的业务场景输出,但灵活开放的同时,也会带来一些不可控或未知。

AI Workflow

则更注重人为预定的执行路径和标准化的生产流程,可控性强,结果可预测,效率高,有一定扩展性,适合处理结构化、重复性任务,AI 或大模型主要担任其中的内容加工与数字化资产生成相关,但同时工作流本身就是一套流程自动化的方法,应用场景也相当广泛。

三、职场打工就是人肉工作流

你是否发现,大部分职能工作都有自己的一套流程和方法论,就像是做饭得有菜谱一样。这些流程和方法论能让我们更快更好地完成生产工作,当然捏,时不时的我们也会根据需求适当的调整一下流程或是方法嘛,就好比说客人跟你将喜欢吃辣一点,那么我们就适当的多加一些辣椒。

倘若你是数字化办公,那些结构稳定重复的作业不就妥妥的一条工作流嘛,因为工作流是代码或程序背景条件下的自动化办公流程,那么我们把一些工作事项整成一个个工作流让 AI 来完成!是不是!对,恭喜你也获得一头赛博牛马~

那么先让我们从工作流开始吧,掌握复杂 AI-Agent 构建的底层思维,教你如何一步步搭建自己的赛博牛马。

四、速通工作流,原来如此简单

AI 工作流的概念我们已经清楚了,那么正式聊聊工作流的结构与搭建思路~

1. 工作流的基本构成

工作流目标:这个工作流的用途价值(相当于老板下达的需求目标)

起点终点:任务的起点设置与最终的交付结果(相当于老板提出的需求到执行结果)

节点:构成完整流程的局部阶段或是事件单位,它们通常由一个或多个任务构成(相当于一个产品研发组织中的小部门,如设计部、产品部)

任务:用作完成和实现节点目标的各个最小运行任务单位(相当于小部门接到需求后,拆成若干小任务开始分工,然后根据任务要求开始标准执行输出)

连接:用作编排各个任务节点关系或步骤的“药引子”(相当于产品部输出“PRD”连接设计部,设计部输出“UI”连接研发部,用作规范内容输入输出的字段参数,最终得出老板要的结果)

条件:用作控制各个任务节点连接的条件判断,即准入准出(相当于设计任务完成后需要给设计总监看一下是否合格,是一种严格执行和标准化的体现)

2. 赛博餐厅上线,带你速通工作流

首先我们用一套虚拟的数字化餐厅的菜品制作流程来演示一遍工作流是如何搭建和工作的,背景是在一个专业数字化的制菜工作流平台,并且有着丰富的任务插件或 AI 工具可用;
目标背景:流程目标是电子菜,因为是虚拟的工作流制作,所以有一些节点或任务不会特别细致,就像是在玩游戏一样,不要太在意哦~

Step1. 首先流程的起点是点菜(菜名数据),最后是上菜(菜品结果)

Step2. 根据预设,我们将配菜作为第一个节点,主要是找到插件或 AI 完成菜品的食材配置

Step3. 接着是备菜节点,这个节点里的任务会根据菜品将食材进行清洗配切准备

Step4. 然后是烹饪节点,这个节点里的任务主要是完成调味跟烧菜

Step5. 烧好菜了,你知道的,我们要装盘~

Step6. 最后!当然是上菜啦~

此时我们已经得到了一套电子菜的基本生产流程了,流程里已经有了关键节点或是任务,并且有一套可行的线性关系编排,用来保证节点任务之间能够有序运行,这些很重要,不信你看看我这套流程~

我想你一定会吃的很开心,连我的盘子碎片一起嗦溜吧 hhhh

好啦,那么让我们继续将节点关系和条件正确地完善起来

这个时候我们已经有一套简易的工作流结构了,但,让我们再完善一下“节点的任务”跟用于连接节点任务的“字段数据”看看~

目前为止,我们已经清晰了基本流程,并且规范了连接关系与任务插件或 AI 的选用编排,他们已经大致能够将顾客下单的菜名逐步加工成目标菜品了,这些任务插件或 AI 模型都是平台提供的,总之它们能搞定自己对应的任务,厉害的模型甚至能一次搞定多个任务,当然了,这些程序模型或插件的底层或背后也可以是这样一套工作流,只要你规范好其运行的输入输出条件或结果,然后封装成一个固定的插件单元即可。

那么接下来以“配菜”节点为例,我们将任务 1 插件背后的工作流再一次的剖析看看,究竟有哪些节点或任务构成。

到这里一套工作流的构建我想你应该心里有数了,这些节点任务的接口就像是电子积木一样,我们设计好流程、数据与条件,将任务插件正确连接起来,保证接口数据能够通过起始参数一步步的变成最终所需的结果即可。

3. 任务或节点的典型结构

你可能在想,一个 AI Workflow 这样就可以了吗?还不够,对于实际节点任务的连接关系我得再补充一下。

细心的你一定已经发现了些特征,这些单元是不是特别像一个电子元件或是函数?是的,以开发视角来看,他们就是一堆模型接口,配置好输入字段参数请求接口,然后接口根据输入条件进行运算并输出预期的结果。

你要是还不能理解就把单个任务或是节点看作一个人,把米饭跟火龙果吃进去,然后拉出红色的翔,输入是米饭+火龙果,经过一顿消化,输出是红翔~

因此他们具备输入、输出、参数配置三大结构特征,参数配置就是输入数据的条件设置,可以是多个不同类型的设置,可以控制最终输出结果的走向,相当于对前面那个吃米饭+火龙果的人进行条件要求,要求他多吃几个火龙果,这样就可以获得更红的翔了~

当然了,也有些简单的插件单元只用作单一的输入或是输出任务,甚至可以直接执行,不需要进行手动的参数配置。

另外一个单元的输入输出参数可以是多对多关系,例如前面那个吃饭+火龙果的人,他输入到肚子里的就是多个类型的食物,最终输出的除了红翔其实还有液体哦 [暗中观察]

然后再说说输入输出的数据类型,这些数据通常由字段(参数名)+具体参数+数据格式构成,例如“姓名:泡泡”中,姓名就是的字段,泡泡就是字段的参数,参数类型就是中文字符串,若是“年纪”这个字段,那么参数的类型基本就是数值。

还记得前面赛博餐厅的例子吗,在现实里,每个节点任务之间的输入输出也具备以上三个属性,就像下面图里例举的一样,「配菜」的输入字段是菜名,参数则是一个具体的菜品名称,类型则是传递这个信息的一个载体,例如便签;

所以在真实的 AI 工作流构建时,同样也需要注意到这些字段的格式类型,他们被用作规范输入输出的数据格式,例如输入一段文本(类型是字符串),最终交付一张图像(类型是图像),这便是典型的文生图模式,这里我给一些高频的基础字段类型了解一下;

在前文提过,为了更准确的控制结果输出,就免不了一些参数配置,即使工作流平台提供了丰富的任务节点或是插件,但,我们仅仅只是围绕基础流程把他们组合连接一下是不够的。

在实际的工作流任务或节点应用时,还有很多的部分需要由设计者来完成字段参数的设定与配置,这样任务插件之间才能正确工作起来,就如下图这些头疼的玩意儿~

但也别急着头疼,通常这些玩意儿就是对应任务插件的预设配置而已,或者是 AI 模型工作的提示词,当你知道了任务节点的用途与条件后就不会难懂了,那么现在让我们在赛博餐厅的工作流中也展示一些必要的节点任务配置看看如何~

如图上所示,我们为“点菜”跟“装盘”节点补充了任务执行所需的字段参数配置,是不是也不难理解?

既然要求做任务执行,那么任务执行的标准或必要条件你肯定得通过字段参数的形式输入给任务插件了。

五、工作流扩展升级的思路

那么工作流仅仅就这样?别急别急!

我再讲一点点灵活扩展的方法思路,说到底工作流是一系列程序与数据交互,那么只要程序加工的插件或模型够丰富够智能,我们不就可以根据诉求鸟枪装成大炮哇!

还是我的赛博餐厅,既然是一家餐厅,那我们可得有特色了,所以我们应该有一套限定风味的菜单,而不是大杂烩,所以先上一个点菜系统;

这时我们就有一套预制的菜品菜单了,并且菜品图正是我们赛博餐厅里生产的,可不是网图哦~
接着考虑到要调用食材仓库,我们给制菜流水线再加一个食材分析节点,用作更好的采购和管理食材,并且增加一个用户反馈节点来改善菜品,那么开始操办~

目标一:食材采购管理

设计思路:每次配菜都会有一套食材表单,可以作为输入的基础数据,中间则添加一套 AI 模型,负责按照周月季不同的周期来整理和分析食材的用量存量趋势,以及保存周期规划,最终输出一套符合采购系统的数据表,使得食材仓库合理高效运行。

目标二:用户反馈优化

设计思路:首先需要收集到有效的用户反馈,其次要对应到菜品,以及我们期望的反馈,所以我们在上菜流程上扩展一个用户反馈节点来连接用户,并且借助 AI 设置一套符合我们赛博餐厅的菜品意见表,这个表是用户选填的,但是一定会在用餐结束后记录菜品名称与用餐结果图,当然,如果用户提供了反馈就更好了。

那么反馈结果呢?不要急,我们会通过指定的数据格式先输入到一个“菜品优化分析”的 AI 模型任务节点上,然后将优化结论输出到“配菜”节点中的“厨房小能手”AI 模型上,以及烹饪节点中的烹饪方法知识库上,这样我们就可以得到优化后的烹饪菜品了。

那么这么一套赛博餐厅的工作流模拟搭建就告一段落了,其实只要有够丰富的插件或模型,还有你丰富的想象力,小小的积木也能被你搭建成豪华的城堡,希望这一套赛博餐厅下来,能帮你把流水线的概念与技巧吃透。

下一期,通过 ComfyUI 工作流作为案例教你如何快速上手工作流平台与搭建工作,为后续案例实践作基础巩固。

感谢耐心阅读,有疑问可留言交流,野生作者一个,如果觉得写的还行,就点赞关注一下吧,下次更新先通知你~

文章来源于互联网:速通BOSS需求!零基础AI Agent高效工作流设计指南

相关推荐: 史上最全Stable diffusion操作指南

一、为什么要学Stable Diffusion,它究竟有多强大? (全套教程文末领取哈)1.Stable Diffusion能干嘛 我相信大家在刷视频的时候,或多或少都已经看到过很多AI绘画生成的作品了 那SD到底可以用来干什么呢? 01.真人AI美女 我们最…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 速通BOSS需求!零基础AI Agent高效工作流设计指南
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们