【AIGC月报】AIGC大模型启元：2025.03

文章目录 隐藏

（1）MambaVision（NVIDIA视觉网络）

（2）Gemma-3（谷歌）

（3）文心大模型4.5/文心大模型X1（百度）

（4）混元-T1（腾讯）

（5）Deepseek V3-0324（深度求索）

（6）Qwen2.5-VL-32B（阿里巴巴）

（7）Mureka O1/MurekaV6（昆仑万维音乐大模型）

（8）EchoMimicV2（阿里数字人模型）

（9）Gemini2.5 Pro（谷歌多模态大模型）

（1）MambaVision（NVIDIA视觉网络）

2025.03.09 混合新架构MambaVision来了！Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA，显著超越了基于Transformer和Mamba的模型。

第一个挑战Transformer架构的是Mamba，一种新的状态空间模型（SSM），它具有线性时间复杂度，并在多个语言建模任务中超越或与Transformer媲美。

但在不同的视觉任务上，Vision Transformer (ViT) 和卷积神经网络 (CNN) 架构的骨干网络，仍然优于基于Mamba的视觉模型。

而这一次，英伟达高级工程师Ali Hatamizade，宣布被顶会CVPR-2025接受的MambaVision，在视觉任务上超越以往的模型，而设计的关键在于将Mamba和Transformer混合。

在ImageNet-1K基准上，MambaVision的Top-1准确率和图像处理能力达到了新的Pareto最优点，超越了Mamba、CNN和ViT基于的模型，有时差距非常显著。

MambaVision是首个针对计算机视觉应用，结合Mamba和Transformer的混合架构的尝试。

主要贡献总结如下：

引入了重新设计的适用于视觉任务的Mamba模块，提升了相较于原始Mamba架构的准确性和图像处理能力。
系统性地研究了Mamba和Transformer模块的融合模式，并展示了在最终阶段加入自注意力模块，显著提高了模型捕捉全局上下文和长距离空间依赖的能力。

参考博客：英伟达提出首个Mamba-Transformer视觉骨干网络！打破精度/吞吐瓶颈 | CVPR 2025

论文地址：https://arxiv.org/abs/2407.08083

开源地址：https://x.com/ahatamiz1/status/1894838302450295183

（2）Gemma-3（谷歌）

2025.03.14 谷歌开源——Gemma 3，直接挑战传统思维！它不仅能看图说话、懂140多种语言，还能在单块GPU上干翻那些需要32台服务器的庞然大物。最夸张的是，27B参数的它，性能直逼Llama3-405B、DeepSeek-V3-671B、o3-mini，效率高到离谱。

它有四种大小，分别为1B、4B、12B 和27B 参数，并带有预训练和指令微调版本。Gemma 3 是多模态模型！4B、12B 和27B 参数模型可以处理图像和文本，而 1B 版本只能处理文本。

对于 1B 版本，输入上下文窗口长度已从 Gemma 2 的 8k 增加到32k ，对于其他所有版本，则增加到 128k。与其他 VLM（视觉语言模型）一样，Gemma 3 会根据用户输入生成文本，这些文本可能由文本组成，也可能由图像组成。示例用途包括问答、分析图像内容、总结文档等。

在 LMArena 排行榜的初步人类偏好评估中胜过 Llama3-405B、DeepSeek-V3-671B 和 o3-mini。** **** **

支持 140 种语言：构建使用客户语言的应用程序。Gemma 3 支持超过 35 种语言开箱即用，以及对超过 140 种语言的预训练支持。
具备高级文本和视觉推理能力：轻松构建分析图片、文本、短视频等应用，开启交互智能化新可能。
使用扩展的上下文窗口处理复杂任务： Gemma 3 提供 128k token上下文窗口。
使用函数调用创建 AI 驱动的工作流程： Gemma 3 支持函数调用和结构化输出。
通过量化模型实现高性能： Gemma 3 引入了官方量化版本，减少了模型大小和计算要求，同时保持了高精度。

Gemma 3 已通过 MMLU-Pro（27B：67.5）、LiveCodeBench（27B：29.7）和 Bird-SQL（27B：54.4）等基准测试进行评估，与闭源 Gemini 模型相比，其性能更具竞争力。GPQA Diamond（27B：42.4）和 MATH（27B：69.0）等测试凸显了其推理和数学能力，而 FACTS Grounding（27B：74.9）和 MMMU（27B：64.9）则展示了强大的事实准确性和多模态能力。然而，它在 SimpleQA（27B：10.0）的基本事实方面落后。与 Gemini 1.5 模型相比，Gemma 3 很接近，有时甚至更好，证明了其作为可访问、高性能选项的价值。

参考博客：

谷歌开源Gemma-3：媲美DeepSeek，算力暴降10倍

谷歌重磅开源Gemma 3：27B碾压DeepSeek-V3-671B，单GPU就能跑！

论文地址：https://huggingface.co/blog/gemma3

开源地址：https://blog.google/technology/developers/gemma-3/

（3）文心大模型4.5/文心大模型X1（百度）

2025.03.16 文心大模型4.5是百度自主研发的新一代原生多模态基础大模型，通过多个模态联合建模实现协同优化，多模态理解能力优秀；具备更精进的语言能力，理解、生成、逻辑、记忆能力全面提升，去幻觉、逻辑推理、代码能力显著提升。

文心大模型4.5具备优秀的多模态理解能力，能对文字、图片、音频、视频等内容进行综合理解。例如，针对下面这道题，文心大模型4.5综合理解了图中的文字与图表内容，提取出题目考查的重点；并给出详细的解题步骤和细化的选项分析，最终得出正确答案。

不仅是“高智商”，文心大模型4.5也拥有“高情商”，网络梗图、讽刺漫画等等，理解起来都不在话下。例如，在下文中，这张梗图蕴含着“连续不一定可倒（导）、可倒（导）一定连续”的数学概念，文心大模型4.5不仅秒懂，点出梗图的巧妙和幽默；还能详细对其中蕴含的数学概念和画面逻辑进行解释。

文心大模型4.5能力显著增强，离不开这些关键技术：

◎ FlashMask动态注意力掩码：加速大模型灵活注意力掩码计算，有效提升长序列建模能力和训练效率，优化长文处理能力和多轮交互表现；

◎ 多模态异构专家扩展技术：根据模态特点构建模态异构专家，结合自适应模态感知损失函数，解决不同模态梯度不均衡问题，提升多模态融合能力；

◎ 时空维度表征压缩技术：在时空维度对图片和视频的语义表征进行高效压缩，大幅提升多模态数据训练效率，增强了从长视频中吸取世界知识的能力；

◎ 基于知识点的大规模数据构建技术：基于知识分级采样、数据压缩与融合、稀缺知识点定向合成技术，构建高知识密度预训练数据，提升模型学习效率，大幅降低模型幻觉；

◎ 基于自反馈的Post-training技术：融合多种评价方式的自反馈迭代式后训练技术，全面提升强化学习稳定性和鲁棒性，大幅提升预训练模型对齐人类意图能力。

文心大模型X1具备更强的理解、规划、反思、进化能力，并支持多模态，是首个自主运用工具的深度思考模型。作为能力更全面的深度思考模型，文心大模型X1兼备准确、创意和文采，在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。

作为能自主运用工具的大模型，文心大模型X1已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。

文心大模型X1能力的全面提升，得益于这些关键技术的支撑：

◎递进式强化学习训练方法：创新性地应用递进式强化学习方法，在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力；

◎基于思维链和行动链的端到端训练：针对深度搜索、工具调用等场景，根据结果反馈进行端到端的模型训练，显著提升训练效果；

◎ 多元统一的奖励系统：建立了统一的奖励系统，融合多种类型的奖励机制，为模型训练提供更加鲁棒的反馈。

参考博客：两连发！文心大模型4.5及X1，免费！

体验地址：https://yiyan.baidu.com

（4）混元-T1（腾讯）

2025.03.22 腾讯发布深度思考模型混元-T1正式版，强化学习驱动，业内首个超大规模混合Mamba推理模型，在各类公开benchmark上基本持平或略超DeepSeek-R1外，在内部人工体验集评估上也能对标，比如agent能力方面略有胜。

1. 基于超大规模Hybrid-Transformer-Mamba MoE大模型TurboS基座

长文捕捉能力：TurboS架构能够有效解决长文推理中上下文丢失和长距离信息依赖问题，提升长文推理能力。
优化长序列处理：Mamba架构专门优化了长序列处理能力，通过高效计算方式，在保证长文本信息捕捉能力的同时，显著降低计算资源消耗，解码速度提升2倍。

2. 强化学习训练

算力投入：在模型后训练阶段，96.7%的算力投入到强化学习训练，重点提升纯推理能力及对齐人类偏好。
数据集构建：收集了涵盖数学、逻辑推理、科学、代码等领域的世界理科难题数据集，并结合ground-truth的真实反馈，确保模型在多种推理任务中表现出色。
训练方案：采用课程学习方式，逐步提升数据难度并阶梯式扩展模型上下文长度，使模型在提升推理能力的同时学会高效利用token进行推理。
训练策略：参考经典强化学习的数据回放和阶段性策略重置策略，显著提升模型训练的长期稳定性（50%以上）。

3. 对齐人类偏好

奖励系统：采用self-rewarding（基于T1-preview早期版本对模型输出进行综合评价、打分）+ reward mode的统一奖励系统反馈方案，指导模型自我提升。
效果提升：模型在答复中展现出更丰富的内容细节和更高效的信息传递。

参考博客：R1圈的新王者，腾讯混元-T1发布，首个混合Mamba推理模型~

体验地址：腾讯混元

（5）Deepseek V3-0324（深度求索）

2025.03.24 DeepSeek开源升级新版本V3模型的，此次最大的亮点是编程能力，性能比肩Claude 3.7

主要特点：

前端 Web 开发，提高了代码的可执行性，更美观的网页和游戏前端
汉语写作能力，与 DeepSeek-R1 写作风格保持一致中长篇写作质量更高
函数调用，改进提高了函数调用的准确性，工具/MCP调用更加稳健

参考博客：

突发！DeepSeek开源新版V3，再次震惊国外

DeepSeek与Qwen组团开源了模型，冲!

开源地址：https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

测试地址：https://github.com/KCORES/kcores-llm-arena/tree/mainMCP
MCP调用：https://x.com/localhost_4173/status/1904396718801932656

（6）Qwen2.5-VL-32B（阿里巴巴）

2025.03.24 阿里通义千问开源模型：Qwen2.5-VL-32B-Instruct（以小博大）。

响应更符合人类偏好：调整输出样式以提供更详细、格式更好的答案，使其更符合人类偏好。
数学推理：显著提高解决复杂数学问题的准确性。
细粒度图像理解与推理：增强图像解析、内容识别、视觉逻辑推理等任务的准确性和细节分析。

参考博客：DeepSeek与Qwen组团开源了模型，冲!

论文地址：

https://qwenlm.github.io/blog/qwen2.5-vl-32b/Qwen

https://chat.qwen.ai

开源地址：

HuggingFace: https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-VL-32B-Instruct

（7）Mureka O1/MurekaV6（昆仑万维音乐大模型）

2025.03.26 昆仑万维官宣推出全球首款音乐大模型 Mureka O1和MurekaV6，双模型炸街，瞬间再次掀翻全球AI圈，又一次来自我们中国 AI 公司的神操作暴击硅谷。

Mureka O1 重磅发布，搭载了全新的MusiCoT技术，在评测中多项指标均赶超suno，最重要的是，它能克隆人声，用我们自己的声音原创歌曲，让每个0门槛的小白都能分分钟成为原创歌手！

Mureka-O1搭载的自研的MusiCoT。它首次在音乐生成领域结合的Chain-of-Thought（CoT）技术。相较传统的一步步生成音符，容易丢失结构感。而MusiCoT首次在细粒度音频token预测前预生成整体音乐结构，MusiCoT 则先规划整体结构，再填充细节音符，让生成音乐更连贯、编排更精准。其中的CoT基于CLAP模型，无需人工标注，大大提高可扩展性。

参考博客：中国AI里的又一匹黑马，Mureka O1杀疯了！

体验地址：https://www.mureka.ai/

（8）EchoMimicV2（阿里数字人模型）

2025.03.26 EchoMimicV2 是 EchoMimic 的第二代版本，专注于音频驱动的半身人物动画生成，由蚂蚁集团团队开发，已被 CVPR 2025 接受。以下从研究背景、技术架构和创新点等角度进行详细分析。

前身与问题识别
- EchoMimicV1：2024 年 7 月发布的 EchoMimicV1 专注于头部动画，通过音频和可编辑的面部标志生成逼真肖像动画（EchoMimic GitHub）。它已在 AAAI 2025 上发表，但局限于头部，缺乏半身动作支持。
- 问题驱动：现有方法（如 AnimateDiff、Moore-AnimateAnyone）依赖多条件输入（如姿势、光流图），导致训练不稳定和推理延迟高。半身动画数据稀缺也限制了模型表现。EchoMimicV2 旨在简化条件并提升半身动画质量。
研究目标
- 高质量半身动画：从头部扩展到半身，生成自然的手势和头部动作。
- 简化条件：减少对复杂姿势映射的依赖，增强音频驱动能力。
- 效率提升：2025 年 1 月发布的加速版本将推理速度从 7 分钟/120 帧提升到 50 秒/120 帧（A100 GPU），适用于实时应用。
时间线与社区反馈
- 关键节点：
  - 2024 年 11 月 14 日：arXiv 论文发布，提出 EchoMimicV2（arXiv:2411.10061）。
  - 2024 年 11 月 25 日：GitHub 开源代码和模型。
  - 2025 年 1 月 3 日：加速版本发布。
  - 2025 年 2 月 27 日：被 CVPR 2025 接受。
- 社区贡献：受到 MimicMotion、MuseTalk 等开源项目的启发，团队感谢这些探索，并通过讨论和 Gradio UI 增强用户体验。
应用场景
- 适用于虚拟主播、内容创作、教育工具和客户服务界面，强调学术研究用途，明确免责用户生成内容的责任。

参考博客：阿里开源半身驱动数字人EchoMimicV2，全身指日可待～

论文地址：https://arxiv.org/pdf/2411.10061

开源地址：https://github.com/antgroup/echomimic_v2

体验地址：https://aistudio.google.com/

（9）Gemini2.5 Pro（谷歌多模态大模型）

2025.03.25 Google更新，放出新模型Gemini 2.5 Pro。Gemini2.5 Pro在Benchmark上效果还是很好的，甚至在lmsys的对战榜单上，现在是第一，当然现在投票还不够多。

主要特点：

文本效果很不错，整体体验很丝滑，速度也很快；
代码也很强，贪吃蛇、弹球游戏、UI设计都很强，堪比Claude；
但多模态理解的表格解析任务依然不理想；
think的内容英文为主，即使问题是中文-回答是中文，但think大部分是英文；

参考博客：Gemini2.5 Pro测试，代码能力飙升，但多模态表格解析依旧不理想

体验地址：https://aistudio.google.com/

文章来源于互联网:【AIGC月报】AIGC大模型启元：2025.03

相关推荐: AI写作：为AI人工智能领域赋能

万字详解：AI写作原理与应用：为AI人工智能领域赋能引言近年来，人工智能（AI）技术的飞速发展正在重塑内容创作领域。AI写作作为自然语言处理（NLP）的核心应用之一，已从简单的文本生成工具演变为能够创作小说、新闻、广告甚至学术论文的智能系统。本文将从技术原…

【AIGC月报】AIGC大模型启元：2025.03

（1）MambaVision（NVIDIA视觉网络）

（2）Gemma-3（谷歌）

（3）文心大模型4.5/文心大模型X1（百度）

（4）混元-T1（腾讯）

（5）Deepseek V3-0324（深度求索）

（6）Qwen2.5-VL-32B（阿里巴巴）

（7）Mureka O1/MurekaV6（昆仑万维音乐大模型）

（8）EchoMimicV2（阿里数字人模型）

（9）Gemini2.5 Pro（谷歌多模态大模型）

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来