AudioX: Diffusion Transformer for Anything-to-Audio Generation

AudioX是一种新颖的多模态生成框架,旨在实现从各种输入(如文本、视频和音频)到高质量音频和音乐的自动生成。现有的音频生成方法大多局限于单一模态,缺乏跨模态的统一能力,且在高质量多模态训练数据上存在短缺。为了解决这些问题,AudioX采用了基于扩散变换器(Diffusion Transformer, DiT)的架构,并引入了一种多模态掩码训练策略。这种策略通过对输入进行掩码处理,迫使模型从部分信息中学习,从而提高了跨模态表示的鲁棒性和一致性。此外,研究团队还构建了两个大规模的多模态数据集,即VGGSound-Caps和V2M-Caps,以支持模型的训练与评估。实验结果表明,AudioX在多种音频和音乐生成任务中表现出色,超越了现有的专门化模型。
文章来源于互联网:每日AIGC最新进展(88):月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT
5bei.cn大模型教程网










