网易首页 > 网易号 > 正文 申请入驻

SGLang放大招,DeepSeek V3、R1 部署性能和成本双重突破

0
分享至

大家好,我是Ai学习的老章

近年来,随着大语言模型(LLM)的快速发展,如何高效部署和优化这些模型以满足高吞吐量、低成本的需求成为行业热点。

5月5日,LMSYS Org 在 X 平台发布了一则令人振奋的消息:SGLang 提供了首个开源实现,用于在 96 个 GPU 上服务 DeepSeek V3/R1 模型,通过预填充-解码分离(prefill-decode disaggregation)和大规模专家并行(expert parallelism, EP)技术,实现了惊艳的性能提升和成本优化。本文将详细解析这一突破性进展,并结合相关图表进行直观展示。

SGLang 的开源实现:性能接近官方数据

LMSYS Org 宣布,SGLang 成功实现了 DeepSeek V3/R1 模型的高效服务,其核心在于利用预填充-解码分离和专家并行技术,在 96 个 GPU 的集群上运行。具体而言,这一实现取得了以下性能:

  • 输入吞吐量:每节点每秒 52.3K 输入 token;

  • 输出吞吐量:每节点每秒 22.3K 输出 token。

这一数据几乎与 DeepSeek 官方博客报告的吞吐量相当,显示出 SGLang 优化的强大潜力。更令人印象深刻的是,与传统的张量并行(tensor parallelism)相比,SGLang 的优化策略将输出吞吐量提升了高达 5 倍。

以下是 LMSYS Org 提供的性能对比图表,直观展示了不同并行策略下的吞吐量表现:

  • 左图展示了输入 token 吞吐量(Input Tokens Per Second),对比了不同并行策略(如 TP、EP2、TP16 等)在 1K、2K 和 4K 输入长度下的表现。绿色柱(DeepSeek, Profiled)表示 SGLang 的优化结果,明显优于其他策略。

  • 右图展示了输出 token 吞吐量(Output Tokens Per Second),在不同输出长度(0%、15%、100%)下,SGLang 的性能依然领先,尤其是结合 EP 和 TP 的混合策略(橙色柱)。

预填充-解码分离与专家并行:技术核心解析

SGLang 的成功离不开两大关键技术:预填充-解码分离和专家并行。以下是对这两项技术的简要解析:

  1. 预填充-解码分离(Prefill-Decode Disaggregation)

预填充(prefill)和解码(decode)是大语言模型推理的两个主要阶段。预填充阶段需要快速处理输入 token 以生成初始上下文,而解码阶段则逐个生成输出 token。传统的并行策略(如张量并行)通常将两者绑定在同一组 GPU 上,但这往往无法同时满足两阶段的不同性能需求。

SGLang 的解决方案是将预填充和解码阶段分离到不同的 GPU 组,并为每个阶段定制并行策略。例如:

  • 预填充阶段更适合使用张量并行(TP),以满足低延迟需求(如聊天机器人要求首次响应时间低于 0.2 秒)。

  • 解码阶段则更适合数据或流水线并行,以提升吞吐量,匹配人类阅读速度。

LMSYS Org 提供了以下架构图,展示了这一分离策略的具体实现:

预填充-解码分离架构

图2:预填充-解码分离架构

  • 图中展示了 12 个节点(每节点 8 个 H100 GPU)的部署方式。预填充工作节点(Prefill Workers)负责初始上下文生成,解码工作节点(Decode Workers)则专注于生成输出 token。

  • 通过 KV Cache 传输,两个阶段高效协作,大幅提升了整体性能。

  1. 专家并行(Expert Parallelism, EP)及优化技术

DeepSeek V3/R1 模型采用了混合专家(MoE)架构,这种架构通过将计算任务分配给多个“专家”来提升性能,但也带来了负载不均衡和通信开销的挑战。SGLang 引入了专家并行(EP)并结合多项优化技术来解决这些问题:

  • DeepEP:专为 MoE 架构设计的通信库,支持高效的“all-to-all”通信模式,在 NVLink 和 RDMA 上实现了接近理论峰值的性能(分别达到 158 GB/s 和 47 GB/s)。

  • EPLB(Expert Parallel Load Balancing):解决专家负载不均衡问题,确保计算资源的高效利用。

  • Two-Batch Overlap:通过双批次重叠隐藏通信开销,进一步提升吞吐量。

  • DeepGemm:优化了 FP8 精度的矩阵乘法运算(GEMM),显著提升计算效率。

以下图表展示了双批次重叠的效果:

双批次重叠效果

图3:双批次重叠优化

  • 上图展示了无序调度下的资源浪费(Wasted MLP)。

  • 下图展示了通过双批次重叠实现的计算与通信重叠,显著提升了效率。

成本优化:每百万 token 仅 0.20 美元

除了性能提升,SGLang 的实现还大幅降低了运行成本。通过在 Atlas Cloud 上部署 12 个节点(每节点 8 个 H100 GPU),SGLang 将输出 token 的成本降至 每百万 token 0.20 美元,仅为 DeepSeek 官方 Chat API 成本的 五分之一。

这一成本优势得益于本地化部署和高效的资源利用。相比之下,DeepSeek 官方 API 的高成本可能源于云端基础设施的运营费用,而 SGLang 的开源实现允许用户直接在本地集群上运行模型,极大降低了依赖外部服务的开销。

这一成果是多个机构开源协作的典范,LMSYS Org 在帖子中特别感谢了 NVIDIA、LinkedIn 和 Kimi_Moonshot 等合作伙伴的贡献。同时,他们呼吁社区进一步探索、复制和扩展这项工作,共同推动高效 AI 部署的边界。

此外,AMD 也在 2025 年 4 月宣布,其 Instinct™ GPU 已通过 SGLang 优化支持 DeepSeek V3 模型,进一步扩展了这一技术的影响力。未来,随着 DeepSeek R2 等新模型的推出,SGLang 的优化策略有望在更广泛的场景中得到应用。

总结

SGLang 的开源实现通过预填充-解码分离和专家并行技术,为 DeepSeek V3/R1 模型的部署带来了性能和成本的双重突破。其吞吐量接近官方数据,输出性能提升高达 5 倍,同时将成本降低至每百万 token 0.20 美元。结合直观的图表(如吞吐量对比、架构图和优化效果图),我们可以看到这一技术如何在实际场景中高效运行。

对于 AI 从业者和研究者来说,SGLang 的开源代码和详细博客(链接[1])提供了宝贵的参考,值得深入探索和实践。这一成果不仅展示了开源社区的强大力量,也为大语言模型的高效部署树立了新的标杆。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

参考资料

链接: https://t.co/D5J9n2LdZ5

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我们并没有用40年走完发达国家200年的路

我们并没有用40年走完发达国家200年的路

文青大叔说
2026-03-13 08:13:38
“祖先给的特权”,河南网友称祖坟在景区祭祖免票,景区回应:没过检票口,一般是附近住户的祖坟

“祖先给的特权”,河南网友称祖坟在景区祭祖免票,景区回应:没过检票口,一般是附近住户的祖坟

大风新闻
2026-04-06 15:06:12
跳水运动员全红婵涉嫌遭网暴,全红婵所在训练中心已向公安机关报警

跳水运动员全红婵涉嫌遭网暴,全红婵所在训练中心已向公安机关报警

界面新闻
2026-04-08 12:41:59
“中年男人专供”,围猎年轻女孩

“中年男人专供”,围猎年轻女孩

DT商业观察
2026-04-08 11:56:15
明星最好的医美就是医美

明星最好的医美就是医美

仙女事件簿
2026-04-08 23:38:09
王宝强和女友开京牌大G到青岛,冯清人高马大,衬得宝强像小娇夫

王宝强和女友开京牌大G到青岛,冯清人高马大,衬得宝强像小娇夫

八怪娱
2026-04-07 15:02:12
随着本泽马独造4球+C罗争冠劲敌6-0碾压,沙特联最新积分榜出炉

随着本泽马独造4球+C罗争冠劲敌6-0碾压,沙特联最新积分榜出炉

侧身凌空斩
2026-04-09 04:33:45
英国74岁奶奶独自游中国,各地网友接力抢着当导游,吉首大学学生:她在享受生活

英国74岁奶奶独自游中国,各地网友接力抢着当导游,吉首大学学生:她在享受生活

潇湘晨报
2026-04-08 18:04:41
NBA调查!国王回应故意犯规罚球高手小库里:战术失误而非摆烂

NBA调查!国王回应故意犯规罚球高手小库里:战术失误而非摆烂

罗说NBA
2026-04-09 06:14:42
中国石化:公司原油探明储量2074百万桶,天然气探明储量10029十亿立方英尺

中国石化:公司原油探明储量2074百万桶,天然气探明储量10029十亿立方英尺

每日经济新闻
2026-04-08 18:14:24
伺候36年,陈丽华470亿遗产全归子女,“唐僧”迟重瑞白忙一场?

伺候36年,陈丽华470亿遗产全归子女,“唐僧”迟重瑞白忙一场?

混沌录
2026-04-08 18:38:14
穷可以卑微到什么地步?网友:换我早身心崩溃了

穷可以卑微到什么地步?网友:换我早身心崩溃了

夜深爱杂谈
2026-03-12 21:00:23
2-0!亚马尔被冻结,小蜘蛛世界波,马竞终结魔咒,巴萨命悬一线

2-0!亚马尔被冻结,小蜘蛛世界波,马竞终结魔咒,巴萨命悬一线

我的护球最独特
2026-04-09 05:01:50
网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

罗纳尔说个球
2026-04-08 23:08:09
贾国龙59元焖面实测后,网友喊话罗永浩:当初骂西贝算是白骂了

贾国龙59元焖面实测后,网友喊话罗永浩:当初骂西贝算是白骂了

房产衫哥
2026-04-09 05:09:46
全红婵被集体霸凌,队友潜伏攻击全红婵内部群,聊天记录被曝光!

全红婵被集体霸凌,队友潜伏攻击全红婵内部群,聊天记录被曝光!

眼光很亮
2026-04-08 12:10:03
郑丽文受邀访问大陆,祖国统一已经进入倒计时

郑丽文受邀访问大陆,祖国统一已经进入倒计时

枫冷慕诗
2026-04-08 11:57:00
燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

阿芒娱乐说
2026-04-08 05:22:19
害女童凶手被揭底!常年分居,村民曝骇人细节,坐牢算轻的

害女童凶手被揭底!常年分居,村民曝骇人细节,坐牢算轻的

哄动一时啊
2026-04-08 20:05:21
1938年老蒋制造黄河决堤,日军淹死数量惊人,真实情况你可能不信

1938年老蒋制造黄河决堤,日军淹死数量惊人,真实情况你可能不信

浩舞默画
2026-04-06 09:22:04
2026-04-09 11:20:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3310文章数 11130关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

福建45岁女子驾车坠河5人遇难有3名儿童 家属最新发声

头条要闻

福建45岁女子驾车坠河5人遇难有3名儿童 家属最新发声

体育要闻

40岁,但实力倒退12年

娱乐要闻

具俊晔最新露面,又黑又瘦情绪低迷

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

8155芯片+L2智驾 瑞虎5运动版上市 置换补贴价6.79万元起

态度原创

旅游
健康
教育
公开课
军事航空

旅游要闻

文旅新探|当海棠花遇见小洋楼,天津最美的春天藏在这里

干细胞抗衰4大误区,90%的人都中招

教育要闻

聚焦“厌学拒学”门诊:破解孩子情绪困境,从何入手?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

霍尔木兹海峡已再次关闭

无障碍浏览 进入关怀版