
Whisper-AT:抗噪语音识别模型(Whisper)实现通用音频事件标记(Audio Tagger)
本文介绍一个统一音频标记(Audio Tagger)和语音识别(ASR)的模型:Whisper-AT,通过冻结Whisper的主干,并在其之上训练一个轻量级的音频标记模型。Whisper-AT在额外计算成本不到1%的情况下,可...

本文介绍一个统一音频标记(Audio Tagger)和语音识别(ASR)的模型:Whisper-AT,通过冻结Whisper的主干,并在其之上训练一个轻量级的音频标记模型。Whisper-AT在额外计算成本不到1%的情况下,可...

最近文生图领域最重要的消息,就是Stable Diffusion 3的推出。 目前,有两种使用Stable Diffusion 3的方法,一种是通过API调用,这需要在Stability AI开发者平台申请API Keys: Stabili...
在深度学习和自然语言处理领域,模型微调是提升预训练模型性能的重要手段。本文将介绍如何使用LlamaFactory进行模型微调,并详细解析一些关键参数,包括 --cutoff_len 1024、--flash_attn auto、--lora...
![多模态和多模态大模型 (LMM)[译]-5bei.cn大模型教程网](https://file.5bei.cn/2024/05/frc-56ead6717de7a8cc83bd70e96642e702-220x150.jpg)
以前,我们的机器学习模型一般都只处理一种类型的数据,比如只处理文本(翻译、语言建模)、图像(对象检测、图像分类)或音频(语音识别)。 但是,想想我们人类的大脑。我们不仅仅读写文字,还可以看图、看视频,听音乐,还能够辨识各种不同的声音。所以,...

前言: 学习 ComfyUI 是一场持久战。当你掌握了 ComfyUI 的安装和运行之后,会发现大量五花八门的节点。面对各种各样的工作流和复杂的节点种类,可能会让人感到不知所措。在这篇文章中,我们将用通俗易懂的语言对 ComfyUI 的核心...

ControlNet 官方模型,最早时候开源的模型只有 depth、hed、normal、scribble、seg、openpose、mlsd、canny 这 8 种,随着这半年的迭代已经更新到 14 种之多。每种模型都有各自的特点,对新手...
OpenAI宣布正在测试全新搜索引擎产品SearchGPT,用户通过文本问答方式就能获取有相关来源的答案。 例如,在体育领域今天有哪些重大新闻,SearchGPT就能快速生成带图片有来源的新闻,并附带详细的有清晰、内联、命名的属性和超链接。...
今年,我亲身见证了人工智能 (AI) 实时地改变着世界。 从发生的一切来看,我坚信未来几年将是人类历史上最具变革性的时期。 下面是 2023 年人工智能的重要时间线(1 月至 12 月): 1 月 15 日:ChatGPT 成为历史上发展最...

今天分享一个用Stable Diffusion换背景的小教程。在以往为产品或照片更换背景时,我们通常需要先仔细地将主体内容抠出,再利用PS或其他图像处理工具将主体与新背景进行融合。这个过程往往需要花费大量的时间和精力。这个方法虽然可行,但不...

Midjourney Imagine API 申请及使用 申请流程 要使用 Midjourney Imagine API,首先可以到 Midjourney Imagine API 页面点击「Acquire」按钮,获取请求所需要的凭证: 如果...