• 发文
  • 评论
  • 微博
  • 空间
  • 微信

聊聊大模型推理系统之 DynaServe:LLM 服务吞吐量提升 3.07 倍背后的三大创新

机智流 2025-05-28 09:13 发文

在大语言模型(LLM)广泛应用的当下,如何在保证低延迟的前提下最大化吞吐量成为行业亟待解决的问题。近段时间,由新加坡国立大学(NUS)和中国科学技术大学(USTC)联合推出的DynaServe系统,成功破解了这一难题,实现了高达3.07 倍的服务容量提升。

https://arxiv.org/abs/2504.09285核心看点

DynaServe 通过自适应请求划分与调度APS)机制,在动态、不平衡的工作负载下实现高效 LLM 推理服务。其核心亮点包括:

微请求抽象:将每个 LLM 请求任意拆分为两个协作的微请求,支持更细粒度的任务调度。双层调度框架:全局调度器快速选择最优拆分点,本地调度器形成符合 SLO(服务等级目标)的批次,动态调整以应对负载波动。基于分块的 KV 缓存传输:支持跨实例微请求执行,降低通信瓶颈。

该方法已在真实世界数据集(如 BurstGPT、Azure Code 等)中验证,显著提升了服务容量、吞吐量和整体性能。

研究背景传统 LLM 服务架构的痛点

LLM 推理过程通常分为两个阶段:

Prefill 阶段:并行处理输入提示的所有 token,生成首个输出 token 并填充 KV 缓存。Decode 阶段:逐个生成后续 token,依赖不断增长的 KV 缓存。

由于 prefill 是计算密集型任务,而 decode 是内存绑定任务,两者资源需求不同,传统共置部署(Colocation)和解耦部署(Disaggregation)均存在明显问题:

共置部署:尽管简化了调度,但在长 prompt 或长 output 场景下容易导致阶段干扰,增加尾部延迟。解耦部署:虽能消除阶段干扰,但因阶段负载不匹配造成 GPU 利用率低下。

此外,现实中的 LLM 请求具有高度动态性,prompt 和 output 长度变化剧烈,进一步加剧了上述矛盾。

核心贡献

方法创新:自适应请求划分与调度(APS)

DynaServe 提出了一种全新的微请求抽象,将每个请求在任意 token 边界处拆分为最多两个协作的微请求。这种细粒度划分使 DynaServe 能够根据每个请求的计算特征灵活调整执行策略,从而平衡 GPU 负载并最小化跨阶段干扰。

(一)双层调度框架全局调度器:基于请求的 prefill/decode 时间比及当前 GPU 负载,快速确定每个请求的最佳拆分点。本地调度器:独立构建符合 SLO 的批次,动态调整批次大小、prefill-to-decode 比例和 decode 上下文长度,确保高利用率和低延迟。(二)基于分块的 KV 缓存传输

为支持跨实例微请求执行,DynaServe 引入了分块 KV 缓存传输机制,有效管理细粒度 KV 缓存迁移,避免成为性能瓶颈。

实证成果

在真实工作负载下的实验表明:

服务容量提升:相比现有最佳共置和解耦方案,DynaServe 的服务容量分别提升了1.15–3.07 倍1.09–1.67 倍吞吐量提升:goodput(单位时间内生成的有效 token 数)分别提升了1.91 倍1.61 倍混合工作负载优化:在混合负载下,DynaServe 性能提升了**60%**,同时保持高 SLO 达成率。行业意义推动 LLM 服务架构演进

DynaServe 的出现标志着 LLM 服务架构从传统的静态划分向动态弹性调度转变。它不仅解决了现有方案在负载不均衡时的性能瓶颈,还为未来大规模 LLM 服务提供了更具扩展性的解决方案。

契合国家算力政策导向

随着国家对绿色算力碳中和目标的推进,DynaServe 通过高效的 GPU 利用率优化,降低了数据中心的能耗,符合节能减排的发展方向。

产业变革潜力

DynaServe 的技术有望广泛应用于以下领域:

在线客服:提升响应速度与并发处理能力。代码生成:加速 AI 编程助手的落地应用。科学计算辅助:支撑复杂推理任务的高效执行。

其弹性调度机制也为自动驾驶智能医疗等实时性强、计算密集的领域提供了新的优化思路。

结语

DynaServe 的成功,不仅在于其技术上的突破,更在于它为 LLM 服务架构带来了真正的灵活性与可扩展性。在 AI 大模型时代,这种“按需调度、弹性执行”的理念,或将引领新一轮的技术变革。

论文链接arXiv:2504.09285v2[1]作者简介第一作者:阮超逸(Chaoyi Ruan),新加坡国立大学博士生,深耕分布式系统与 LLM 服务优化领域多年。共同第一作者:陈寅贺(Yinhe Chen),中国科学技术大学博士生,专注于高性能计算与 AI 系统设计指导团队:来自NUSUSTC的联合研究小组,长期从事AI 系统架构与边缘计算研究。

???? 关注我们,获取更多前沿 AI 系统研究成果!???? 转发即是对我们的最大支持!

参考资料[1] 

arXiv:2504.09285v2: https://arxiv.org/abs/2504.09285

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    机智流

    关注AI领域前沿产业资讯和学术研...

    推荐商品

      举报文章问题

      ×
      • 营销广告
      • 重复、旧闻
      • 格式问题
      • 低俗
      • 标题夸张
      • 与事实不符
      • 疑似抄袭
      • 我有话要说
      确定 取消

      举报评论问题

      ×
      • 淫秽色情
      • 营销广告
      • 恶意攻击谩骂
      • 我要吐槽
      确定 取消

      用户登录×

      请输入用户名/手机/邮箱

      请输入密码