全文约 1800 字,预计阅读时间 6 分钟
随着大语言模型(Large Language Models, LLMs)在各种任务中的广泛应用,如何优化大规模请求下的成本和响应时间成为关键挑战。最近几个月,中山大学的研究团队提出了一种全新的 LLM 服务系统——EcoServe,其在普通以太网集群上实现了显著的性能提升。EcoServe 基于一种名为部分解耦策略(Partially Disaggregated Strategy, PaDG)的方法,在预填充(Prefill)和解码(Decode)阶段之间进行时间维度上的主动调度,并通过跨实例协作进一步提升了整体吞吐量。
https://arxiv.org/pdf/2502.05043核心看点
EcoServe的核心亮点在于它解决了现有 LLM 服务策略中预填充与解码阶段之间的干扰问题,并且无需依赖高性能互联硬件。具体而言,该系统首次提出了PaDG 策略,将预填充和解码阶段的时间维度进行主动分离,同时引入了滚动激活机制(Rolling Activation),确保多个实例周期性地协同处理新请求,从而降低了端到端延迟并提升了吞吐能力。
在实验中,EcoServe 在使用 32 块 NVIDIA L20 GPU 的普通以太网集群上运行 30B 和 70B 规模的模型时,平均比现有的非解耦(NoDG)和全解耦(FuDG)系统提升了 82.49%至 126.96%的吞吐性能。此外,EcoServe 还集成了自适应调度算法和有丝分裂扩展方法(Mitosis Scaling Approach),支持细粒度容量调整,使其能够灵活应对工作负载波动。
研究背景
传统的 LLM 服务策略主要分为两类:非解耦策略(NoDG) 和 全解耦策略(FuDG)。前者将预填充和解码阶段放在同一个实例中执行,虽然避免了 KV 缓存传输开销,但两种阶段之间的资源竞争导致严重的性能干扰;后者则将两个阶段完全拆分到不同的实例中,虽然消除了干扰,却对高性能互连硬件(如 NVLink、InfiniBand)提出了高要求,增加了部署成本。
为了解决上述问题,EcoServe 提出了一种折衷方案——PaDG 策略,即在单个实例内部按时间维度分离预填充和解码阶段,并通过协调多个实例的执行顺序,实现更高效的资源利用。这种方法不仅避免了 KV 缓存传输,还能通过多实例协作确保低延迟响应,从而在保证服务质量的同时大幅提升吞吐能力。
核心贡献
方法创新:PaDG 策略 + 滚动激活机制
EcoServe 的核心在于PaDG 策略,该策略通过时间维度上的主动调度,将预填充和解码阶段分别安排在不同的时间段内执行,从而减少两者之间的资源竞争。每个实例周期性地切换执行模式,确保在不增加额外通信开销的前提下实现更高的吞吐量。
在此基础上,EcoServe 引入了滚动激活机制,通过周期性地激活不同实例来处理新的预填充请求,从而降低 TTFT(Time to First Token)并确保新请求的及时处理。这种机制使得多个实例形成一个宏实例(Macro Instance),共同承担服务任务。
实测结果表明:在 Llama-30B 和 Qwen2-72B 等模型上,EcoServe 的 P90 吞吐量相比 vLLM、Sarathi、DistServe 和 MoonCake 分别提升了 83.76%、71.97%、192.41%和 218.22%。
自适应调度算法 + 有丝分裂扩展方法
为了实现高效的请求调度,EcoServe 设计了自适应调度算法,能够在满足 TTFT 和 TPOT(Time per Output Token)SLA 的前提下,动态选择最优的实例和插入的预填充 Token 数量。此外,EcoServe 还引入了有丝分裂扩展方法,通过动态增删实例实现弹性扩容,进一步提升了系统的灵活性和稳定性。
在 ShareGPT 数据集上,EcoServe 在 L20 集群上实现了 5.6 倍的超线性扩展效果,展示了其卓越的扩展能力。
实证成果:全面优于现有系统
EcoServe 在多个基准测试中均表现出色。例如:
在 Llama-30B 模型上,EcoServe 在 LongBench 数据集上的 P90 吞吐量比 MoonCake 提升了**122.76%**。在 CodeLlama2-34B 模型上,EcoServe 在 ShareGPT 数据集上的 P90 吞吐量比 DistServe 提升了**126.96%**。在 Qwen2-72B 模型上,EcoServe 在 Alpaca 数据集上的 P90 吞吐量比 vLLM 提升了**86.17%**。
这些结果充分证明了 EcoServe 在成本效益、负载均衡、硬件兼容性和工程复杂度等方面的综合优势。
行业意义
随着大模型训练和推理需求的不断增长,如何在有限的硬件资源下实现高效的服务成为行业关注的焦点。EcoServe的推出标志着 LLM 服务技术的一个重要进展,尤其是在以下三个方面具有深远影响:
推动 PaDG 策略成为主流 LLM 服务路线
EcoServe 提出的 PaDG 策略在保留 NoDG 低成本优势的同时,克服了其性能瓶颈,同时也避免了 FuDG 对高性能互连的依赖,为未来的大规模 LLM 服务提供了更加经济高效的解决方案。
符合国家“绿色计算”政策导向
EcoServe 在普通以太网环境下即可实现接近高性能互连的吞吐表现,大幅降低了数据中心的能耗和运营成本,符合我国“碳达峰、碳中和”的战略目标。
加速AI 推理服务化进程
EcoServe 的自适应调度算法和有丝分裂扩展方法为未来的分布式 LLM 服务提供了可扩展性强、灵活性高的架构基础,有望推动包括智能客服、内容生成、代码辅助编程等多个领域的应用升级。
论文链接与作者背景
论文标题:《EcoServe: Enabling Cost-effective LLM Serving with Proactive Intra- and Inter-Instance Orchestration》
GitHub 项目地址:https://github.com/vllm-project/vllm[1]
第一作者:杜江素(Jiangsu Du),中山大学计算机学院博士研究生,深耕大规模语言模型服务优化领域多年,主导多项相关研究工作。
结语:
EcoServe 的提出不仅为 LLM 服务提供了一个全新的高效架构,也为未来 AI 推理服务的规模化落地提供了坚实的技术支撑。随着更多类似 EcoServe 这样的技术创新不断涌现,我们有理由相信,LLM 服务将在更多行业场景中实现真正的普惠与变革。
参考资料[1]
https://github.com/vllm-project/vllm: https://github.com/vllm-project/vllm