在大语言模型(LLM)广泛应用的当下,如何在保证低延迟的前提下最大化吞吐量成为行业亟待解决的问题。近段时间,由新加坡国立大学(NUS)和中国科学技术大学(USTC)联合推出的DynaServe系统,成功破解了这一难题,实现了高达3.07 倍的服务容量提升。
https://arxiv.org/abs/2504.09285核心看点
DynaServe 通过自适应请求划分与调度(APS)机制,在动态、不平衡的工作负载下实现高效 LLM 推理服务。其核心亮点包括:
微请求抽象:将每个 LLM 请求任意拆分为两个协作的微请求,支持更细粒度的任务调度。双层调度框架:全局调度器快速选择最优拆分点,本地调度器形成符合 SLO(服务等级目标)的批次,动态调整以应对负载波动。基于分块的 KV 缓存传输:支持跨实例微请求执行,降低通信瓶颈。
该方法已在真实世界数据集(如 BurstGPT、Azure Code 等)中验证,显著提升了服务容量、吞吐量和整体性能。
研究背景传统 LLM 服务架构的痛点
LLM 推理过程通常分为两个阶段:
Prefill 阶段:并行处理输入提示的所有 token,生成首个输出 token 并填充 KV 缓存。Decode 阶段:逐个生成后续 token,依赖不断增长的 KV 缓存。
由于 prefill 是计算密集型任务,而 decode 是内存绑定任务,两者资源需求不同,传统共置部署(Colocation)和解耦部署(Disaggregation)均存在明显问题:
共置部署:尽管简化了调度,但在长 prompt 或长 output 场景下容易导致阶段干扰,增加尾部延迟。解耦部署:虽能消除阶段干扰,但因阶段负载不匹配造成 GPU 利用率低下。
此外,现实中的 LLM 请求具有高度动态性,prompt 和 output 长度变化剧烈,进一步加剧了上述矛盾。
核心贡献
方法创新:自适应请求划分与调度(APS)
DynaServe 提出了一种全新的微请求抽象,将每个请求在任意 token 边界处拆分为最多两个协作的微请求。这种细粒度划分使 DynaServe 能够根据每个请求的计算特征灵活调整执行策略,从而平衡 GPU 负载并最小化跨阶段干扰。
(一)双层调度框架全局调度器:基于请求的 prefill/decode 时间比及当前 GPU 负载,快速确定每个请求的最佳拆分点。本地调度器:独立构建符合 SLO 的批次,动态调整批次大小、prefill-to-decode 比例和 decode 上下文长度,确保高利用率和低延迟。(二)基于分块的 KV 缓存传输
为支持跨实例微请求执行,DynaServe 引入了分块 KV 缓存传输机制,有效管理细粒度 KV 缓存迁移,避免成为性能瓶颈。
实证成果
在真实工作负载下的实验表明:
服务容量提升:相比现有最佳共置和解耦方案,DynaServe 的服务容量分别提升了1.15–3.07 倍和1.09–1.67 倍。吞吐量提升:goodput(单位时间内生成的有效 token 数)分别提升了1.91 倍和1.61 倍。混合工作负载优化:在混合负载下,DynaServe 性能提升了**60%**,同时保持高 SLO 达成率。行业意义推动 LLM 服务架构演进
DynaServe 的出现标志着 LLM 服务架构从传统的静态划分向动态弹性调度转变。它不仅解决了现有方案在负载不均衡时的性能瓶颈,还为未来大规模 LLM 服务提供了更具扩展性的解决方案。
契合国家算力政策导向
随着国家对绿色算力和碳中和目标的推进,DynaServe 通过高效的 GPU 利用率优化,降低了数据中心的能耗,符合节能减排的发展方向。
产业变革潜力
DynaServe 的技术有望广泛应用于以下领域:
在线客服:提升响应速度与并发处理能力。代码生成:加速 AI 编程助手的落地应用。科学计算辅助:支撑复杂推理任务的高效执行。
其弹性调度机制也为自动驾驶、智能医疗等实时性强、计算密集的领域提供了新的优化思路。
结语
DynaServe 的成功,不仅在于其技术上的突破,更在于它为 LLM 服务架构带来了真正的灵活性与可扩展性。在 AI 大模型时代,这种“按需调度、弹性执行”的理念,或将引领新一轮的技术变革。
论文链接arXiv:2504.09285v2[1]作者简介第一作者:阮超逸(Chaoyi Ruan),新加坡国立大学博士生,深耕分布式系统与 LLM 服务优化领域多年。共同第一作者:陈寅贺(Yinhe Chen),中国科学技术大学博士生,专注于高性能计算与 AI 系统设计。指导团队:来自NUS与USTC的联合研究小组,长期从事AI 系统架构与边缘计算研究。
???? 关注我们,获取更多前沿 AI 系统研究成果!???? 转发即是对我们的最大支持!
参考资料[1]
arXiv:2504.09285v2: https://arxiv.org/abs/2504.09285