当前位置：5bei.cn大模型教程网 > AI创作 > 正文

每日AIGC最新进展(88)：月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT

2025-11-03 分类：AI创作阅读(143)

Diffusion Models专栏文章汇总：入门与实战

AudioX: Diffusion Transformer for Anything-to-Audio Generation

AudioX是一种新颖的多模态生成框架，旨在实现从各种输入（如文本、视频和音频）到高质量音频和音乐的自动生成。现有的音频生成方法大多局限于单一模态，缺乏跨模态的统一能力，且在高质量多模态训练数据上存在短缺。为了解决这些问题，AudioX采用了基于扩散变换器（Diffusion Transformer, DiT）的架构，并引入了一种多模态掩码训练策略。这种策略通过对输入进行掩码处理，迫使模型从部分信息中学习，从而提高了跨模态表示的鲁棒性和一致性。此外，研究团队还构建了两个大规模的多模态数据集，即VGGSound-Caps和V2M-Caps，以支持模型的训练与评估。实验结果表明，AudioX在多种音频和音乐生成任务中表现出色，超越了现有的专门化模型。

文章来源于互联网:每日AIGC最新进展(88)：月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT

赞(0)

未经允许不得转载：5bei.cn大模型教程网 » 每日AIGC最新进展(88)：月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT

标签：ai aigc ps 百度

相关推荐

AI大模型,我们的未来

小欢软考联系我们