• 发文
  • 评论
  • 微博
  • 空间
  • 微信

华为盘古团队新推出MoGE架构,是否能成为MoE新范式?

机智流 2025-05-30 09:30 发文

编译:机智流编辑部聪明的AI助手们~

随着大型语言模型(LLMs)的参数规模不断攀升MoE架构因其稀疏特性——仅激活部分参数实现高效计算——成为AI领域的研究热点。然而,传统MoE模型在分布式训练和推理中常常面临专家负载不均衡的难题,导致计算资源利用率低下。针对这一挑战,华为P盘古团队在创新提出了的 MoGE(Mixture of Grouped Experts)[1]架构,并基于此开发了Pangu Pro MoE模型。这款拥有72B总参数、16B激活参数的稀疏模型,在华为自研的昇腾系列系列加速器上实现了深度优化,展现了卓越的负载均衡和性能表现。

MoGE架构设计示意图。路由专家被均匀划分为 ???? 个不重叠的组,其中每个组内的专家将 被分配到同一个设备上。对于每个输入令牌,通过全局softmax路由计算所有专家的初始门控分数。然后,在每个专家组内,根据这些初始分数选择Top-K个专家。未选择的专家对应的分数被有效设置为零。最终输出是激活专家和共享专家输出的加权和。MoGE:从负载均衡到高效计算

随着大语言模型的发展,混合专家(Mixture of Experts,MoE)模型逐渐成为标准组件。MoE模型通过仅激活每个输入令牌的一小部分专家,有效减少了激活总参数和计算时间。

传统MoE模型通过全局Top-K路由机制为每个输入token选择激活的专家,虽然降低了计算成本,但也带来了一个显著问题:专家负载不平衡,部分专家被频繁激活,而其他专家却很少使用。这种不均衡在分布式系统中尤为明显,当模型参数分布在多个计算设备上时,负载过重的设备会成为性能瓶颈,拖慢整体训练和推理速度。

为了解决传统MoE模型中的专家负载不平衡问题,华为盘古团队提出了分组混合专家模型(Mixture of Grouped Experts,MoGE)。其核心设计是将所有专家分组,并强制每个组内的专家被等量激活。

专家激活模式对比。传统Top-K路由与MoGE路由的专家激活模式对比。

具体来说,MoGE架构具有以下几个重要创新点:

分组平衡路由策略:MoGE将所有专家划分为多个非重叠的组,每个组通常分配到一个特定的计算设备上。对于每个输入令牌,路由机制从每个组中选择固定数量的专家进行激活,从而确保所有参与设备的计算负载平衡。这种设计从根本上解决了传统MoE模型中专家负载不平衡的问题。

辅助负载平衡损失:虽然MoGE架构从结构上保证了组间负载平衡,但为了确保路由机制能够合理分配每个组内专家的工作量,研究团队引入了批量级辅助负载平衡损失。通过计算全局softmax权重的辅助平衡损失,模型在训练过程中能够更好地学习如何在组内专家之间分配工作量,从而进一步提高了负载平衡效果。

实验方法:多维度优化与系统化设计

Pangu Pro MoE的开发并非单纯的算法创新,研究团队从系统、算法和内核设计等多个方面进行了优化。团队在Ascend 300I Duo和800I A2平台上进行了广泛的系统模拟研究,通过分层策略确定了模型的最优配置

模型配置与硬件适配

在模型设计阶段,研究人员采用了一种层次化的方法,从粗粒度到细粒度逐步优化。首先,根据Ascend NPUs的内存带宽和延迟约束,确定了参数范围;随后,结合领域知识筛选候选模型;最后,通过算子级模拟器评估不同配置的性能,自动搜索最佳并行策略。最终确定的配置包括隐藏层维度5120、查询头数40、KV头数8、层数48、路由专家数64、激活专家数8等,总参数量达到719.9亿,激活参数量为165亿。

模型配置模拟结果。图中展示了不同配置在Ascend 300I Duo和800I A2上的吞吐量表现,橙色星标代表Pangu Pro MoE的最优配置。训练策略:从预训练到后训练对齐

训练过程分为预训练和后训练两个阶段。预训练阶段使用了包含130万亿token的高质量语料库,涵盖网页、书籍、多语言、代码、STEM等领域。训练分为三个子阶段:通用阶段(9.6T tokens)培养基础能力,推理阶段(3T tokens)提升复杂推理能力,退火阶段(0.4T tokens)精炼模型行为。数据质量通过领域感知的模型评估系统持续监控,确保语料的多样性和高价值性。

后训练对齐阶段则结合监督微调(SFT)和强化学习(RL)进一步提升性能。SFT采用多样化指令数据,通过模型合并技术整合训练中的多个检查点。RL阶段引入Group Relative Policy Optimization(GRPO)算法,并设计了“Zero-Advantage-Mask”机制,避免无效样本干扰训练效率。

奖励模型与评估方法

在强化学习中,盘古团队设计了一个多源奖励系统,根据任务特性动态分配奖励。对于数学和编码等有明确答案的任务,使用正确性奖励,通过规则验证和LLM评估结合的方式打分;对于开放性任务如创意写作,则采用偏好奖励模型模拟人类偏好。此外,还引入了格式验证和重复惩罚等辅助奖励,确保输出质量。评估方法覆盖了多种基准测试,包括C-Eval、MMLU、GSM8K等,全面检验模型的语言理解和推理能力。

推理优化:层次化并行与专用内核

在推理阶段,团队为Ascend NPUs开发了层次化混合并行(H²P)策略,针对模型的不同模块采用定制化的并行方式。例如,注意力模块使用DP2+TP4策略减少通信开销,专家模块则结合TP2+EP4平衡内存与延迟。此外,还开发了MulAttention和SwiftGMM等高性能内核,专为Ascend硬件优化,进一步提升推理效率。

推理系统优化概述。采用 H²P策略实现不同模块间的高效分布式并行推理。此外,针对昇腾平台专门设计了两个关键融合算子 MulAttention 和 SwiftGMM,以加速模型推理。实验结果:性能与效率的双赢

Pangu Pro MoE在实验中展现了卓越的性能表现,尤其是在负载均衡和吞吐量方面。论文报告显示,该模型在Ascend 800I A2上的推理吞吐量达到1528 tokens/s per card,显著优于同等规模的密集模型(如32B和72B参数的模型)。相比开源模型GLM-Z1-32B和Qwen3-32B,Pangu Pro MoE在多个基准测试中表现出色,特别是在推理任务中展现了更高的效率。

Ascend 800I A2 上 Decode 阶段模型推理性能。

消融实验进一步验证了MoGE架构的有效性。与传统MoE相比,MoGE将专家负载不均衡度降低了50%以上,训练和推理的吞吐量也随之提升。此外,专家行为分析表明,Pangu Pro MoE在训练过程中形成了显著的专业化现象,某些专家更倾向于处理特定任务或数据类型,这种特性增强了模型的整体性能和泛化能力。

在硬件协同方面,Pangu Pro MoE充分利用了Ascend NPUs的高计算能力和低功耗特性。相比前代模型,训练过程中的模型FLOPs利用率(MFU)提高了35%,推理性能在低并发场景下保持低延迟,高并发场景下实现高吞吐量,展现了优异的性价比。

What's More

随着AI技术的快速发展,像Pangu Pro MoE这样同时针对算法和专属硬件的创新成果无疑将推动行业迈向更高效、更智能的新阶段。对论文细节感兴趣的小伙伴欢迎留言进行讨论!

参考资料[1] 

MoGE(Mixture of Grouped Experts): https://arxiv.org/pdf/2505.21411

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    机智流

    关注AI领域前沿产业资讯和学术研...

    推荐商品

      举报文章问题

      ×
      • 营销广告
      • 重复、旧闻
      • 格式问题
      • 低俗
      • 标题夸张
      • 与事实不符
      • 疑似抄袭
      • 我有话要说
      确定 取消

      举报评论问题

      ×
      • 淫秽色情
      • 营销广告
      • 恶意攻击谩骂
      • 我要吐槽
      确定 取消

      用户登录×

      请输入用户名/手机/邮箱

      请输入密码