AI大模型教程
一起来学习

论文略读: LAYERWISE RECURRENT ROUTER FOR MIXTURE-OF-EXPERTS

ICLR 2025 3668

大型语言模型(LLMs)的扩展极大地提升了其在各类任务中的表现,但这一增长也需要高效的计算策略来匹配。**专家混合架构(Mixture-of-Experts,MoE)**在不显著增加训练成本的前提下扩展模型规模方面表现突出。然而,尽管MoE具备优势,当前的MoE模型在参数效率上却常常存在问题。例如,一个具有 520亿 参数的预训练MoE模型,其性能可能仅与一个标准的 6.7亿 参数模型相当。

在MoE中,路由器(router) 是核心组件,但目前的做法是在各层独立地对token进行分配,未能利用历史路由信息,这可能导致次优的token–专家匹配,进而引发参数利用效率低下的问题。

为了解决这一问题,我们提出了一种新的架构:用于MoE的层间循环路由器(Layerwise Recurrent Router for Mixture-of-Experts,简称RMoE)。RMoE引入了门控循环单元(GRU),在连续层之间建立路由决策的依赖关系。这种“层间循环”机制可以高效地并行计算,且只带来可接受的计算成本。

我们的大量实证评估表明,基于RMoE的语言模型在多个基准模型上都实现了稳定且显著的性能提升。此外,RMoE还引入了一种新颖的计算阶段,该阶段与现有方法正交,从而可以无缝地集成到各种现有的MoE架构中。

分析表明,RMoE的性能提升主要得益于其跨层信息共享机制,这不仅改善了专家选择的准确性,还提升了专家间的多样性。

文章来源于互联网:论文略读: LAYERWISE RECURRENT ROUTER FOR MIXTURE-OF-EXPERTS

相关推荐: AIGC 如何帮助金融分析师?AI 自动生成市场分析报告

AIGC 如何帮助金融分析师?AI 自动生成市场分析报告 1. 引言 金融分析师在投资、风险管理、市场研究等领域扮演重要角色。然而,传统金融分析工作面临诸多挑战: 数据处理量大:市场数据、财务报告、新闻资讯等信息繁杂 人工分析耗时:手工撰写市场分析报告需要大量…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 论文略读: LAYERWISE RECURRENT ROUTER FOR MIXTURE-OF-EXPERTS
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们