标签：SAM

第92页

AI创作

Whisper-AT：抗噪语音识别模型（Whisper）实现通用音频事件标记（Audio Tagger）

2024-07-28FrozenEmbers阅读(766)赞(0)

本文介绍一个统一音频标记（Audio Tagger）和语音识别（ASR）的模型：Whisper-AT，通过冻结Whisper的主干，并在其之上训练一个轻量级的音频标记模型。Whisper-AT在额外计算成本不到1%的情况下，可...

AI创作

这可能是最强AI文生图工具：Stable Diffusion 3 超详细测试

2024-07-28CrimsonFeather阅读(724)赞(0)

最近文生图领域最重要的消息，就是Stable Diffusion 3的推出。目前，有两种使用Stable Diffusion 3的方法，一种是通过API调用，这需要在Stability AI开发者平台申请API Keys： Stabili...

AI创作

使用LlamaFactory进行模型微调：参数详解

2024-07-28EnchantedScribe阅读(3500)赞(0)

在深度学习和自然语言处理领域，模型微调是提升预训练模型性能的重要手段。本文将介绍如何使用LlamaFactory进行模型微调，并详细解析一些关键参数，包括 --cutoff_len 1024、--flash_attn auto、--lora...

机器学习

多模态和多模态大模型 (LMM)[译]

2024-07-27WhisperingWillow阅读(1211)赞(0)

以前，我们的机器学习模型一般都只处理一种类型的数据，比如只处理文本（翻译、语言建模）、图像（对象检测、图像分类）或音频（语音识别）。但是，想想我们人类的大脑。我们不仅仅读写文字，还可以看图、看视频，听音乐，还能够辨识各种不同的声音。所以，...

AI创作

ComfyUI 进阶篇！完整梳理 ComfyUI 的核心节点（二）

2024-07-27ai_helper阅读(5)赞(0)

前言：学习 ComfyUI 是一场持久战。当你掌握了 ComfyUI 的安装和运行之后，会发现大量五花八门的节点。面对各种各样的工作流和复杂的节点种类，可能会让人感到不知所措。在这篇文章中，我们将用通俗易懂的语言对 ComfyUI 的核心...

AI创作

Stable Diffusion基本教程：ControlNet控图功能

2024-07-27ai_helper阅读(638)赞(0)

ControlNet 官方模型，最早时候开源的模型只有 depth、hed、normal、scribble、seg、openpose、mlsd、canny 这 8 种，随着这半年的迭代已经更新到 14 种之多。每种模型都有各自的特点，对新手...

AI资讯

OpenAI发布SearchGPT丨挑战谷歌、正式进军搜索引擎!

2024-07-26CrimsonFeather阅读(248)赞(0)

OpenAI宣布正在测试全新搜索引擎产品SearchGPT，用户通过文本问答方式就能获取有相关来源的答案。例如，在体育领域今天有哪些重大新闻，SearchGPT就能快速生成带图片有来源的新闻，并附带详细的有清晰、内联、命名的属性和超链接。...

机器学习

2023 年度 AI 大事记 [译]

2024-07-26WildFlower阅读(552)赞(0)

今年，我亲身见证了人工智能 (AI) 实时地改变着世界。从发生的一切来看，我坚信未来几年将是人类历史上最具变革性的时期。下面是 2023 年人工智能的重要时间线（1 月至 12 月）： 1 月 15 日：ChatGPT 成为历史上发展最...

AI创作

Stable Diffusion｜背景替换只需要两分钟！

2024-07-26EmberGlimmer阅读(155)赞(0)

今天分享一个用Stable Diffusion换背景的小教程。在以往为产品或照片更换背景时，我们通常需要先仔细地将主体内容抠出，再利用PS或其他图像处理工具将主体与新背景进行融合。这个过程往往需要花费大量的时间和精力。这个方法虽然可行，但不...

AI创作

Midjourney Imagine API 申请及使用

2024-07-25EnchantedScribe阅读(363)赞(0)

Midjourney Imagine API 申请及使用申请流程要使用 Midjourney Imagine API，首先可以到 Midjourney Imagine API 页面点击「Acquire」按钮，获取请求所需要的凭证：如果...

上一页
1
···
89
90
91
92
93
94
95
...
下一页
共 112 页

标签：SAM

Whisper-AT：抗噪语音识别模型（Whisper）实现通用音频事件标记（Audio Tagger）

这可能是最强AI文生图工具：Stable Diffusion 3 超详细测试

使用LlamaFactory进行模型微调：参数详解

多模态和多模态大模型 (LMM)[译]

ComfyUI 进阶篇！完整梳理 ComfyUI 的核心节点（二）

Stable Diffusion基本教程：ControlNet控图功能

OpenAI发布SearchGPT丨挑战谷歌、正式进军搜索引擎!

2023 年度 AI 大事记 [译]

Stable Diffusion｜背景替换只需要两分钟！

Midjourney Imagine API 申请及使用

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来