AI大模型教程
一起来学习

【AIGC月报】AIGC大模型启元:2025.03

(1)MambaVision(NVIDIA视觉网络)

2025.03.09 混合新架构MambaVision来了!Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA,显著超越了基于Transformer和Mamba的模型。

第一个挑战Transformer架构的是Mamba,一种新的状态空间模型(SSM),它具有线性时间复杂度,并在多个语言建模任务中超越或与Transformer媲美。

但在不同的视觉任务上,Vision Transformer (ViT) 和卷积神经网络 (CNN) 架构的骨干网络,仍然优于基于Mamba的视觉模型。

而这一次,英伟达高级工程师Ali Hatamizade,宣布被顶会CVPR-2025接受的MambaVision,在视觉任务上超越以往的模型,而设计的关键在于将Mamba和Transformer混合。

在ImageNet-1K基准上,MambaVision的Top-1准确率和图像处理能力达到了新的Pareto最优点,超越了Mamba、CNN和ViT基于的模型,有时差距非常显著。

MambaVision是首个针对计算机视觉应用,结合Mamba和Transformer的混合架构的尝试。

主要贡献总结如下:

  • 引入了重新设计的适用于视觉任务的Mamba模块,提升了相较于原始Mamba架构的准确性和图像处理能力。

  • 系统性地研究了Mamba和Transformer模块的融合模式,并展示了在最终阶段加入自注意力模块,显著提高了模型捕捉全局上下文和长距离空间依赖的能力。

参考博客英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈 | CVPR 2025

论文地址https://arxiv.org/abs/2407.08083

开源地址https://x.com/ahatamiz1/status/1894838302450295183

(2)Gemma-3(谷歌)

2025.03.14 谷歌开源——Gemma 3,直接挑战传统思维!它不仅能看图说话、懂140多种语言,还能在单块GPU上干翻那些需要32台服务器的庞然大物。最夸张的是,27B参数的它,性能直逼Llama3-405B、DeepSeek-V3-671B、o3-mini,效率高到离谱。

它有四种大小,分别为1B、4B、12B 和27B 参数,并带有预训练和指令微调版本。Gemma 3 是多模态模型!4B、12B 和27B 参数模型可以处理图像和文本,而 1B 版本只能处理文本。

对于 1B 版本,输入上下文窗口长度已从 Gemma 2 的 8k 增加到32k ,对于其他所有版本,则增加到 128k。与其他 VLM(视觉语言模型)一样,Gemma 3 会根据用户输入生成文本,这些文本可能由文本组成,也可能由图像组成。示例用途包括问答、分析图像内容、总结文档等。

在 LMArena 排行榜的初步人类偏好评估中胜过 Llama3-405B、DeepSeek-V3-671B 和 o3-mini。** **** **

  • 支持 140 种语言:构建使用客户语言的应用程序。Gemma 3 支持超过 35 种语言开箱即用,以及对超过 140 种语言的预训练支持。

  • 具备高级文本和视觉推理能力:轻松构建分析图片、文本、短视频等应用,开启交互智能化新可能。

  • 使用扩展的上下文窗口处理复杂任务: Gemma 3 提供 128k token上下文窗口。

  • 使用函数调用创建 AI 驱动的工作流程: Gemma 3 支持函数调用和结构化输出。

  • 通过量化模型实现高性能: Gemma 3 引入了官方量化版本,减少了模型大小和计算要求,同时保持了高精度。

Gemma 3 已通过 MMLU-Pro(27B:67.5)、LiveCodeBench(27B:29.7)和 Bird-SQL(27B:54.4)等基准测试进行评估,与闭源 Gemini 模型相比,其性能更具竞争力。GPQA Diamond(27B:42.4)和 MATH(27B:69.0)等测试凸显了其推理和数学能力,而 FACTS Grounding(27B:74.9)和 MMMU(27B:64.9)则展示了强大的事实准确性和多模态能力。然而,它在 SimpleQA(27B:10.0)的基本事实方面落后。与 Gemini 1.5 模型相比,Gemma 3 很接近,有时甚至更好,证明了其作为可访问、高性能选项的价值。

参考博客

谷歌开源Gemma-3:媲美DeepSeek,算力暴降10倍

谷歌重磅开源Gemma 3:27B碾压DeepSeek-V3-671B,单GPU就能跑!

论文地址https://huggingface.co/blog/gemma3

开源地址https://blog.google/technology/developers/gemma-3/

(3)文心大模型4.5/文心大模型X1(百度

2025.03.16 文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。

文心大模型4.5具备优秀的多模态理解能力,能对文字、图片、音频、视频等内容进行综合理解。例如,针对下面这道题,文心大模型4.5综合理解了图中的文字与图表内容,提取出题目考查的重点;并给出详细的解题步骤和细化的选项分析,最终得出正确答案。

不仅是“高智商”,文心大模型4.5也拥有“高情商”,网络梗图、讽刺漫画等等,理解起来都不在话下。例如,在下文中,这张梗图蕴含着“连续不一定可倒(导)、可倒(导)一定连续”的数学概念,文心大模型4.5不仅秒懂,点出梗图的巧妙和幽默;还能详细对其中蕴含的数学概念和画面逻辑进行解释。

文心大模型4.5能力显著增强,离不开这些关键技术

FlashMask动态注意力掩码:加速大模型灵活注意力掩码计算,有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现;

多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合自适应模态感知损失函数,解决不同模态梯度不均衡问题,提升多模态融合能力;

时空维度表征压缩技术:在时空维度对图片和视频的语义表征进行高效压缩,大幅提升多模态数据训练效率,增强了从长视频中吸取世界知识的能力;

基于知识点的大规模数据构建技术:基于知识分级采样、数据压缩与融合、稀缺知识点定向合成技术,构建高知识密度预训练数据,提升模型学习效率,大幅降低模型幻觉;

基于自反馈的Post-training技术:融合多种评价方式的自反馈迭代式后训练技术,全面提升强化学习稳定性和鲁棒性,大幅提升预训练模型对齐人类意图能力。

文心大模型X1具备更强的理解、规划、反思、进化能力,并支持多模态,是首个自主运用工具的深度思考模型。作为能力更全面的深度思考模型,文心大模型X1兼备准确、创意和文采,在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。

作为能自主运用工具的大模型,文心大模型X1已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。

文心大模型X1能力的全面提升,得益于这些关键技术的支撑

递进式强化学习训练方法:创新性地应用递进式强化学习方法,在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力;

基于思维链和行动链的端到端训练:针对深度搜索、工具调用等场景,根据结果反馈进行端到端的模型训练,显著提升训练效果;

多元统一的奖励系统:建立了统一的奖励系统,融合多种类型的奖励机制,为模型训练提供更加鲁棒的反馈。

参考博客两连发!文心大模型4.5及X1,免费!

体验地址https://yiyan.baidu.com

(4)混元-T1(腾讯)

2025.03.22 腾讯发布深度思考模型混元-T1正式版,强化学习驱动,业内首个超大规模混合Mamba推理模型,在各类公开benchmark上基本持平或略超DeepSeek-R1外,在内部人工体验集评估上也能对标,比如agent能力方面略有胜。

1. 基于超大规模Hybrid-Transformer-Mamba MoE大模型TurboS基座

  • 长文捕捉能力:TurboS架构能够有效解决长文推理中上下文丢失和长距离信息依赖问题,提升长文推理能力。

  • 优化长序列处理:Mamba架构专门优化了长序列处理能力,通过高效计算方式,在保证长文本信息捕捉能力的同时,显著降低计算资源消耗,解码速度提升2倍。

2. 强化学习训练

  • 算力投入:在模型后训练阶段,96.7%的算力投入到强化学习训练,重点提升纯推理能力及对齐人类偏好。
  • 数据集构建:收集了涵盖数学、逻辑推理、科学、代码等领域的世界理科难题数据集,并结合ground-truth的真实反馈,确保模型在多种推理任务中表现出色。
  • 训练方案:采用课程学习方式,逐步提升数据难度并阶梯式扩展模型上下文长度,使模型在提升推理能力的同时学会高效利用token进行推理。
  • 训练策略:参考经典强化学习的数据回放和阶段性策略重置策略,显著提升模型训练的长期稳定性(50%以上)。

3. 对齐人类偏好

  • 奖励系统:采用self-rewarding(基于T1-preview早期版本对模型输出进行综合评价、打分)+ reward mode的统一奖励系统反馈方案,指导模型自我提升。
  • 效果提升:模型在答复中展现出更丰富的内容细节和更高效的信息传递。

参考博客R1圈的新王者,腾讯混元-T1发布,首个混合Mamba推理模型~

体验地址腾讯混元

(5)Deepseek V3-0324(深度求索)

2025.03.24 DeepSeek开源升级新版本V3模型的,此次最大的亮点是编程能力,性能比肩Claude 3.7

主要特点:

  • 前端 Web 开发,提高了代码的可执行性,更美观的网页和游戏前端
  • 汉语写作能力,与 DeepSeek-R1 写作风格保持一致中长篇写作质量更高
  • 函数调用,改进提高了函数调用的准确性,工具/MCP调用更加稳健

参考博客

突发!DeepSeek开源新版V3,再次震惊国外

DeepSeek与Qwen组团开源了模型,冲!

开源地址https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

(6)Qwen2.5-VL-32B(阿里巴巴)

2025.03.24 阿里通义千问开源模型:Qwen2.5-VL-32B-Instruct(以小博大)。

  • 响应更符合人类偏好:调整输出样式以提供更详细、格式更好的答案,使其更符合人类偏好。
  • 数学推理:显著提高解决复杂数学问题的准确性。
  • 细粒度图像理解与推理:增强图像解析、内容识别、视觉逻辑推理等任务的准确性和细节分析。

参考博客DeepSeek与Qwen组团开源了模型,冲!

论文地址

https://qwenlm.github.io/blog/qwen2.5-vl-32b/Qwen

https://chat.qwen.ai

开源地址

HuggingFace: https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-VL-32B-Instruct

(7)Mureka O1/MurekaV6(昆仑万维音乐大模型)

2025.03.26 昆仑万维官宣推出全球首款音乐大模型 Mureka O1和MurekaV6,双模型炸街,瞬间再次掀翻全球AI圈,又一次来自我们中国 AI 公司的神操作暴击硅谷。

Mureka O1 重磅发布,搭载了全新的MusiCoT技术,在评测中多项指标均赶超suno,最重要的是,它能克隆人声,用我们自己的声音原创歌曲,让每个0门槛的小白都能分分钟成为原创歌手!

Mureka-O1搭载的自研的MusiCoT。 它首次在音乐生成领域结合的Chain-of-Thought(CoT)技术。相较传统的一步步生成音符,容易丢失结构感。而MusiCoT首次在细粒度音频token预测前预生成整体音乐结构,MusiCoT 则先规划整体结构,再填充细节音符,让生成音乐更连贯、编排更精准。其中的CoT基于CLAP模型,无需人工标注,大大提高可扩展性。

参考博客中国AI里的又一匹黑马,Mureka O1杀疯了!

体验地址https://www.mureka.ai/

(8)EchoMimicV2(阿里数字人模型)

2025.03.26 EchoMimicV2 是 EchoMimic 的第二代版本,专注于音频驱动的半身人物动画生成,由蚂蚁集团团队开发,已被 CVPR 2025 接受。以下从研究背景、技术架构和创新点等角度进行详细分析。

  • 前身与问题识别

    • EchoMimicV1:2024 年 7 月发布的 EchoMimicV1 专注于头部动画,通过音频和可编辑的面部标志生成逼真肖像动画(EchoMimic GitHub)。它已在 AAAI 2025 上发表,但局限于头部,缺乏半身动作支持。

    • 问题驱动:现有方法(如 AnimateDiff、Moore-AnimateAnyone)依赖多条件输入(如姿势、光流图),导致训练不稳定和推理延迟高。半身动画数据稀缺也限制了模型表现。EchoMimicV2 旨在简化条件并提升半身动画质量。

  • 研究目标

    • 高质量半身动画:从头部扩展到半身,生成自然的手势和头部动作。

    • 简化条件:减少对复杂姿势映射的依赖,增强音频驱动能力。

    • 效率提升:2025 年 1 月发布的加速版本将推理速度从 7 分钟/120 帧提升到 50 秒/120 帧(A100 GPU),适用于实时应用。

  • 时间线与社区反馈

    • 关键节点:

      • 2024 年 11 月 14 日:arXiv 论文发布,提出 EchoMimicV2(arXiv:2411.10061)。
      • 2024 年 11 月 25 日:GitHub 开源代码和模型。
      • 2025 年 1 月 3 日:加速版本发布。
      • 2025 年 2 月 27 日:被 CVPR 2025 接受。
    • 社区贡献:受到 MimicMotion、MuseTalk 等开源项目的启发,团队感谢这些探索,并通过讨论和 Gradio UI 增强用户体验。

  • 应用场景

    • 适用于虚拟主播、内容创作、教育工具和客户服务界面,强调学术研究用途,明确免责用户生成内容的责任。

参考博客阿里开源半身驱动数字人EchoMimicV2,全身指日可待~

论文地址https://arxiv.org/pdf/2411.10061

开源地址https://github.com/antgroup/echomimic_v2

体验地址https://aistudio.google.com/

(9)Gemini2.5 Pro(谷歌多模态大模型)

2025.03.25 Google更新,放出新模型Gemini 2.5 Pro。Gemini2.5 Pro在Benchmark上效果还是很好的,甚至在lmsys的对战榜单上,现在是第一,当然现在投票还不够多。

主要特点

  • 文本效果很不错,整体体验很丝滑,速度也很快;
  • 代码也很强,贪吃蛇、弹球游戏、UI设计都很强,堪比Claude;
  • 但多模态理解的表格解析任务依然不理想;
  • think的内容英文为主,即使问题是中文-回答是中文,但think大部分是英文;

参考博客Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想

体验地址https://aistudio.google.com/

文章来源于互联网:【AIGC月报】AIGC大模型启元:2025.03

相关推荐: AI写作:为AI人工智能领域赋能

万字详解:AI写作原理与应用:为AI人工智能领域赋能 引言 近年来,人工智能(AI)技术的飞速发展正在重塑内容创作领域。AI写作作为自然语言处理(NLP)的核心应用之一,已从简单的文本生成工具演变为能够创作小说、新闻、广告甚至学术论文的智能系统。本文将从技术原…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 【AIGC月报】AIGC大模型启元:2025.03
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们