• 发文
  • 评论
  • 微博
  • 空间
  • 微信

聊聊大模型推理系统之 EcoServe:在预填充和解码之间实现时间维度上的主动调度

机智流 2025-05-21 09:31 发文

全文约 1800 字,预计阅读时间 6 分钟

随着大语言模型(Large Language Models, LLMs)在各种任务中的广泛应用,如何优化大规模请求下的成本和响应时间成为关键挑战。最近几个月,中山大学的研究团队提出了一种全新的 LLM 服务系统——EcoServe,其在普通以太网集群上实现了显著的性能提升。EcoServe 基于一种名为部分解耦策略(Partially Disaggregated Strategy, PaDG)的方法,在预填充(Prefill)和解码(Decode)阶段之间进行时间维度上的主动调度,并通过跨实例协作进一步提升了整体吞吐量。

https://arxiv.org/pdf/2502.05043核心看点

EcoServe的核心亮点在于它解决了现有 LLM 服务策略中预填充与解码阶段之间的干扰问题,并且无需依赖高性能互联硬件。具体而言,该系统首次提出了PaDG 策略,将预填充和解码阶段的时间维度进行主动分离,同时引入了滚动激活机制(Rolling Activation),确保多个实例周期性地协同处理新请求,从而降低了端到端延迟并提升了吞吐能力。

在实验中,EcoServe 在使用 32 块 NVIDIA L20 GPU 的普通以太网集群上运行 30B 和 70B 规模的模型时,平均比现有的非解耦(NoDG)和全解耦(FuDG)系统提升了 82.49%至 126.96%的吞吐性能。此外,EcoServe 还集成了自适应调度算法有丝分裂扩展方法(Mitosis Scaling Approach),支持细粒度容量调整,使其能够灵活应对工作负载波动。

研究背景

传统的 LLM 服务策略主要分为两类:非解耦策略(NoDG) 和 全解耦策略(FuDG)。前者将预填充和解码阶段放在同一个实例中执行,虽然避免了 KV 缓存传输开销,但两种阶段之间的资源竞争导致严重的性能干扰;后者则将两个阶段完全拆分到不同的实例中,虽然消除了干扰,却对高性能互连硬件(如 NVLink、InfiniBand)提出了高要求,增加了部署成本。

为了解决上述问题,EcoServe 提出了一种折衷方案——PaDG 策略,即在单个实例内部按时间维度分离预填充和解码阶段,并通过协调多个实例的执行顺序,实现更高效的资源利用。这种方法不仅避免了 KV 缓存传输,还能通过多实例协作确保低延迟响应,从而在保证服务质量的同时大幅提升吞吐能力。

核心贡献

方法创新:PaDG 策略 + 滚动激活机制

EcoServe 的核心在于PaDG 策略,该策略通过时间维度上的主动调度,将预填充和解码阶段分别安排在不同的时间段内执行,从而减少两者之间的资源竞争。每个实例周期性地切换执行模式,确保在不增加额外通信开销的前提下实现更高的吞吐量。

在此基础上,EcoServe 引入了滚动激活机制,通过周期性地激活不同实例来处理新的预填充请求,从而降低 TTFT(Time to First Token)并确保新请求的及时处理。这种机制使得多个实例形成一个宏实例(Macro Instance),共同承担服务任务。

实测结果表明:在 Llama-30B 和 Qwen2-72B 等模型上,EcoServe 的 P90 吞吐量相比 vLLM、Sarathi、DistServe 和 MoonCake 分别提升了 83.76%、71.97%、192.41%和 218.22%。

自适应调度算法 + 有丝分裂扩展方法

为了实现高效的请求调度,EcoServe 设计了自适应调度算法,能够在满足 TTFT 和 TPOT(Time per Output Token)SLA 的前提下,动态选择最优的实例和插入的预填充 Token 数量。此外,EcoServe 还引入了有丝分裂扩展方法,通过动态增删实例实现弹性扩容,进一步提升了系统的灵活性和稳定性。

在 ShareGPT 数据集上,EcoServe 在 L20 集群上实现了 5.6 倍的超线性扩展效果,展示了其卓越的扩展能力。

实证成果:全面优于现有系统

EcoServe 在多个基准测试中均表现出色。例如:

在 Llama-30B 模型上,EcoServe 在 LongBench 数据集上的 P90 吞吐量比 MoonCake 提升了**122.76%**。在 CodeLlama2-34B 模型上,EcoServe 在 ShareGPT 数据集上的 P90 吞吐量比 DistServe 提升了**126.96%**。在 Qwen2-72B 模型上,EcoServe 在 Alpaca 数据集上的 P90 吞吐量比 vLLM 提升了**86.17%**。

这些结果充分证明了 EcoServe 在成本效益、负载均衡、硬件兼容性和工程复杂度等方面的综合优势。

行业意义

随着大模型训练和推理需求的不断增长,如何在有限的硬件资源下实现高效的服务成为行业关注的焦点。EcoServe的推出标志着 LLM 服务技术的一个重要进展,尤其是在以下三个方面具有深远影响:

推动 PaDG 策略成为主流 LLM 服务路线

EcoServe 提出的 PaDG 策略在保留 NoDG 低成本优势的同时,克服了其性能瓶颈,同时也避免了 FuDG 对高性能互连的依赖,为未来的大规模 LLM 服务提供了更加经济高效的解决方案。

符合国家“绿色计算”政策导向

EcoServe 在普通以太网环境下即可实现接近高性能互连的吞吐表现,大幅降低了数据中心的能耗和运营成本,符合我国“碳达峰、碳中和”的战略目标。

加速AI 推理服务化进程

EcoServe 的自适应调度算法和有丝分裂扩展方法为未来的分布式 LLM 服务提供了可扩展性强、灵活性高的架构基础,有望推动包括智能客服、内容生成、代码辅助编程等多个领域的应用升级。

论文链接与作者背景

论文标题:《EcoServe: Enabling Cost-effective LLM Serving with Proactive Intra- and Inter-Instance Orchestration》

GitHub 项目地址:https://github.com/vllm-project/vllm[1]

第一作者:杜江素(Jiangsu Du),中山大学计算机学院博士研究生,深耕大规模语言模型服务优化领域多年,主导多项相关研究工作。

结语:

EcoServe 的提出不仅为 LLM 服务提供了一个全新的高效架构,也为未来 AI 推理服务的规模化落地提供了坚实的技术支撑。随着更多类似 EcoServe 这样的技术创新不断涌现,我们有理由相信,LLM 服务将在更多行业场景中实现真正的普惠与变革。

参考资料[1] 

https://github.com/vllm-project/vllm: https://github.com/vllm-project/vllm

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    机智流

    关注AI领域前沿产业资讯和学术研...

    推荐商品

      举报文章问题

      ×
      • 营销广告
      • 重复、旧闻
      • 格式问题
      • 低俗
      • 标题夸张
      • 与事实不符
      • 疑似抄袭
      • 我有话要说
      确定 取消

      举报评论问题

      ×
      • 淫秽色情
      • 营销广告
      • 恶意攻击谩骂
      • 我要吐槽
      确定 取消

      用户登录×

      请输入用户名/手机/邮箱

      请输入密码