网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4 本地部署,SGLang 把活做绝了

0
分享至


关于 DeepSeek-V4,我之前写过:

今天换个角度,从架构和推理引擎的视角聊聊:DeepSeek-V4 这次发布为啥这么难伺候,以及 SGLang Day-0 是怎么把活给做下来的

V4 到底改了啥

先简单交代下背景,DeepSeek 这次一发就是俩:

变体

总参数

激活参数

单节点部署门槛

DeepSeek-V4-Flash

284B

13B

B200 / GB200 / GB300 / H200 4 卡

DeepSeek-V4-Pro

1.6T

49B

B200 8 卡 / GB200 8 卡(2 节点)/ GB300 4 卡 / H200 8 卡(FP4)

两个版本的 Instruct 都是 FP4 MoE 专家权重 + FP8 注意力/dense 的混合精度 checkpoint,一份权重通吃所有支持 FP4 的卡,这一手就把 Hopper、Blackwell、AMD、NPU 全打通了,MIT 协议,1M 上下文,32T+ token 预训练

真正狠的是架构层,三件套:

  • 混合稀疏注意力(CSA + HCA) :每一层都把 SWA(128 token 滑动窗口)和两种压缩机制之一组合起来——要么是 C4 (4:1 压缩 + top-512 稀疏),要么是 C128 (128:1 压缩 + dense),在 1M 上下文场景,V4-Pro 每 token 推理 FLOPs 只有 V3.2 的 27%,KV cache 只有 10%

  • mHC(流形约束超连接) :把传统残差连接换成一组并行分支的混合,配 Sinkhorn 归一化生成混合权重,梯度流和表征质量双双拉升

  • 原生 FP4 专家权重 :直接吃 Blackwell 的 FP4 张量核心红利,小批次 decode 场景不再被 MoE 权重带宽卡死

外加一个让推理框架头疼的小细节:V4 给了一个单层 MTP head做投机解码,而且 reasoning 分了三档——Non-think(直觉响应)、Think High(链式推理)、Think Max(推到极限,建议 ≥384K 上下文窗口)

下图一张图说清楚 V4 每层注意力的工作范围(N=1024 的例子):


V4 每层混合注意力作用域 SGLang 干了什么硬活

V4 的混合注意力最难受的地方是:3 套异构 KV 池 + 2 套压缩状态池,要在 prefill / decode / 投机解码三种 pass 之间保持一致性换句话说,传统的 prefix cache 假设直接报废了

SGLang 这次的活儿,密度相当高,挑几个关键的看:

ShadowRadix:给混合注意力的原生前缀缓存

核心思路一句话:用一棵基数树索引"虚拟全 token 槽",再把它投影成各物理池的影子(SWA / C4 / C128),压缩状态环形缓冲嵌套在 SWA 页索引里,地址公式是 swa_page * ring_size + pos % ring_size,SWA 页一释放、ring 自动失效,零额外追踪成本

每个节点带俩计数器:full_lock_ref 管 source 和 C4/C128 影子,swa_lock_ref 只管滑动窗口SWA 计数清零就直接 tombstone 掉 SWA 槽,但节点本身和压缩影子还在树上继续被复用——一个 1 万 token 的请求最终只占 128 个 SWA token + 完整 C4/C128,前缀复用的就是这块压缩 KV

下图是 ShadowRadix 的存储布局:


ShadowRadix 存储布局

投机解码这块还有个隐藏陷阱:draft token 在 verify 之前就先写进了 ring,万一被拒绝重试就可能绕一圈覆盖活窗口里的槽,SGLang 的解法很朴素——spec 模式下把 ring size 翻倍(C4: 8→16, C128: 128→256),EAGLE 直接 work out of the box

HiSparse:把不活跃 KV 甩到 CPU

C4 层的特点是 indexer 每步只 top-k 一小撮压缩位置,绝大多数 KV 在任意时刻都是非活跃的——典型的可以下沉到 CPU 的场景,HiSparse 给 C4 KV 池单独挂了一份固定在 CPU 的镜像,GPU 只留小工作集,每步由 Coordinator 异步换页,按 LRU 淘汰

效果是 V4-Flash 在 2×B200 上跑 200K 输入 / 20K 输出的长上下文场景,峰值吞吐最高拉到 3 倍


HiSparse 架构与峰值吞吐

MTP 投机解码 + 图内元数据

混合注意力的 per-pass 元数据非常重——SWA 页索引、影子映射、压缩器/索引器的执行计划、各池写入位置——这些东西如果在调度器线程上 eager 准备,投机解码下直接被启动开销吃干净

SGLang 的做法是把元数据准备整个塞进 CUDA Graph,每次 replay 只拷贝原始 batch 状态进固定 buffer,剩下的索引算术全在图内 device kernel 里算,Python 完全不参与 per-pass 路径配合 CPU 端的 overlap 调度(结果处理、batch 准备、释放都和 GPU 执行并行),把投机解码的启动瓶颈压到了底

最直观的效果,看这张图:


不同上下文长度的解码吞吐

混合稀疏 + ShadowRadix + 图内 spec 元数据三件套堆下来,SGLang 的解码吞吐从 4K 一路平到 900K,逼近 1M 上下文窗口B200 从 199 token/s 跌到 180,H200 从 266 跌到 240,**两边掉幅都不到 10%**这个吞吐曲线的"平坦度",是过去 long context 推理基本不敢想的

Kernel 层一堆狠活

简单列下,每一项单拎出来都够写一篇:

  • FlashMLA 新接口 :SWA 和 extra attention(C4/C128)一次 kernel 调用搞完,metadata 在 forward 里共享

  • Flash Compressor :把压缩注意力 5 次 HBM 往返压成 1 次片上 pass(HBM 5→2),H200 上能吃满 80% 峰值带宽,比 naive PyTorch pipeline 快 10×+

  • Lightning TopK :1M 上下文下 indexer 要从 256K 候选里挑 top-512,naive 实现单 batch 都要 100us+,用 cluster-of-8 radix-select 替代全局排序, 压到约 15us

  • FlashInfer TRTLLM-Gen MoE :MXFP8 激活 × MXFP4 专家权重,吃 Blackwell FP4 张量核心

  • DeepGEMM Mega MoE :把 EP dispatch + 第一次 FP8×FP4 GEMM + SwiGLU + 第二次 GEMM + EP combine 融成一个 mega kernel,NVLink 通信和张量核心计算重叠

  • TileLang mHC kernels(带 split-K) :低延迟 decode 下 pre-GEMM 容易成瓶颈,split-K 把它救回来

  • DP/TP/CP 注意力,DeepEP 上的 EP MoE,PD 解聚合部署 :并行策略一应俱全

怎么部署

SGLang 给每个硬件平台都准备了独立 Docker 镜像:

硬件

镜像

NVIDIA B300

lmsysorg/sglang:deepseek-v4-b300

NVIDIA B200

lmsysorg/sglang:deepseek-v4-blackwell

NVIDIA GB200/GB300

lmsysorg/sglang:deepseek-v4-grace-blackwell

NVIDIA H200

lmsysorg/sglang:deepseek-v4-hopper

最小启动命令长这样:

docker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN= " \
--ipc=host \
lmsysorg/sglang:deepseek-v4-blackwell \
sglang serve

具体的启动参数,强烈建议用官方 cookbook 的交互式命令生成器


https://docs.sglang.io/cookbook/autoregressive/DeepSeek/DeepSeek-V4-1-basic-configuration

按照(硬件 × 变体 × 配方)选好直接出命令三种主推配方:

  • low-latency :MTP steps=3, draft-tokens=4,bs=1 时收益最大

  • balanced :MTP steps=1, draft-tokens=2,高 batch 下更平衡

  • max-throughput :直接关掉 MTP,饱和场景下 verify 比省下的更贵

外加两个特化配方:cp(prefill 上下文并行,长上下文专用)、pd-disagg(prefill/decode 解聚合)

跑起来之后调用就是标准 OpenAI 兼容接口:

curl http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-ai/DeepSeek-V4-Flash",
"messages": [{"role": "user", "content": "What is 15% of 240?"}]
}'

要 reasoning 分离,加上 deepseek-v4 reasoning parser,reasoning_contentcontent 自动分两个字段;要 tool calling,挂 deepseekv4 解析器,结构化 tool calls 直接出

几个坑要提醒

实战部署的话,有几个雷点直接看官方 cookbook,免得踩:

  • DeepEP dispatch buffer :必须满足 max-running-requests × MTP_draft_tokens ≤ SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK ,违反了稳态负载会直接炸 buffer,生成器给的默认值偏保守,跑通之后建议自己往上调

  • Hopper(H200)双方案 :原始 FP4 checkpoint 走 Marlin w4a16 MoE kernel,只支持 TP,单节点能吃下完整 Pro;想要更多并行就用 SGLang 预转的 FP8 checkpoint( sgl-project/DeepSeek-V4-Flash-FP8 / Pro-FP8

  • PD-Disagg on H200docker run 要带 --privileged --ulimit memlock=-1 (或 --device /dev/infiniband:/dev/infiniband --cap-add IPC_LOCK ),不然 mooncake 拿不到 IB HCA 会静默掉成 TCP,大 checkpoint 容易 KV 传输错乱

  • Base model :用 base 必须 SGLANG_FIX_DSV4_BASE_MODEL_LOAD=1

  • GB300 跨 pod NVLink :mooncake 报 nvlink_transport.cpp:497 Requested address ... not found! 的话,prefill 和 decode 都加上 MC_FORCE_MNNVL=1 NCCL_MNNVL_ENABLE=1 NCCL_CUMEM_ENABLE=1

如果你对工程实现感兴趣,主合并 PR 是 sgl-project/sglang#23600,从 V4Config 注册、JIT kernel dtype map、FP8 weight postprocess、SM_120 上 MLA 的 Triton fallback、MXFP4 MoE 的 Marlin fallback……一路到具体的混合注意力 kernel,commits 写得相当有教学意义,建议有时间拉下来过一遍

总结

DeepSeek 这次把架构层搞这么激进,其实是把"开源大模型怎么压成本上长上下文"这个问题又往前推了一大步,1M 上下文做到 27% FLOPs、10% KV cache,是真的可以"把长上下文当默认能力卖"的水平

但代价是:所有推理引擎几乎都得重写 KV/缓存/注意力这条线,SGLang 这次能做到 Day-0,靠的是 ShadowRadix、HiSparse、图内 spec 元数据、一票新 kernel 集成这一整套体系工程,不是一两个补丁

从 LMSYS 公开的 Day-0 对比图看,30K 上下文同口径单批 decode 下,SGLang 明显领先另一家开源引擎——而且对手在这个口径里其实是带伤上阵:B200 上 MTP-3 的 accept length 只有 1.19(SGLang EAGLE 是 2.5),H200 上 num_speculative_tokens≥2 直接踩 kernel assertion 起不来,只能降级到 MTP-1,长上下文 200K+ 干脆 timeout 跑不出来,不过 LMSYS 自己也声明这是 Day-0 快照,不是定论排名,等社区把另一家的配置调通之后再看也不迟

更扎实的数字其实是 SGLang 自己的纵向吞吐曲线:B200 上 V4-Pro 从 4K 一路平到 900K,从 199 token/s 跌到 180;H200 上 V4-Flash 从 266 跌到 240,**两边掉幅都不到 10%**,这个吞吐曲线的"平坦度"才是真正能落地长上下文的关键

至于到底好不好用,等手上的卡再倒腾倒腾,回头再来一篇真机评测

制作不易,如果这篇文章觉得对你有用,可否点个关注,给我个三连击:点赞、转发和在看,若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谜底揭晓、国民党大获全胜!郑丽文就“统一”发声,赖清德丢尽脸

谜底揭晓、国民党大获全胜!郑丽文就“统一”发声,赖清德丢尽脸

共工之锚
2026-05-01 00:22:26
美国慌了?根据历史规律变动,中国可能成地球上最后一个超级大国

美国慌了?根据历史规律变动,中国可能成地球上最后一个超级大国

主宰稳场
2026-04-04 10:50:53
第一个抢七来了!!!谁能想到啊!打脸全联盟了!

第一个抢七来了!!!谁能想到啊!打脸全联盟了!

柚子说球
2026-05-01 12:51:08
德国工程师:中国人难道不知南水北调的弊端,环保大国称号何来?

德国工程师:中国人难道不知南水北调的弊端,环保大国称号何来?

心灵得以滋养
2026-03-13 22:44:44
福建,一男子信用卡透支10万逾期8年,银行从男子的工资卡内扣划。扣款10.8万后,告知还欠6.8万,男子把银行告上法庭

福建,一男子信用卡透支10万逾期8年,银行从男子的工资卡内扣划。扣款10.8万后,告知还欠6.8万,男子把银行告上法庭

乔话
2026-05-01 23:56:46
深度长文:时间,或许是宇宙中唯一的“硬通货”!

深度长文:时间,或许是宇宙中唯一的“硬通货”!

宇宙时空
2026-05-01 12:40:14
广西部署整治物业乱象,明确提出规范“双金”管理

广西部署整治物业乱象,明确提出规范“双金”管理

广西地产
2026-04-30 22:00:04
罕见!罗永浩高情商回应,沒有爆粗,有博主说他啥时嗝屁就放烟花

罕见!罗永浩高情商回应,沒有爆粗,有博主说他啥时嗝屁就放烟花

火山詩话
2026-05-01 06:07:17
郎永淳公开央视主持人退休工资标准,妻子仅三千多

郎永淳公开央视主持人退休工资标准,妻子仅三千多

吃青菜长高
2026-05-01 15:22:24
爆大瓜!马瑟林要离开?三队公开抢人,快船被拿捏得死死的

爆大瓜!马瑟林要离开?三队公开抢人,快船被拿捏得死死的

体育大朋说
2026-05-01 10:14:13
懂事!刘国梁伦敦世乒赛看望国乒,王楚钦停步给刘主席王励勤让路

懂事!刘国梁伦敦世乒赛看望国乒,王楚钦停步给刘主席王励勤让路

818体育
2026-05-01 21:55:54
蓝莓被发现!研究:吃得越多,血管硬化人群寿命或越长?真假?

蓝莓被发现!研究:吃得越多,血管硬化人群寿命或越长?真假?

健康科普365
2026-04-30 13:15:09
21岁投奔蒋介石,43岁战胜林彪,朱德见了他还敬礼:报告,我来了

21岁投奔蒋介石,43岁战胜林彪,朱德见了他还敬礼:报告,我来了

简史档案馆
2026-02-23 11:05:03
阿森纳稳了?富勒姆队史13次英超客战领头羊从未赢球

阿森纳稳了?富勒姆队史13次英超客战领头羊从未赢球

懂球帝
2026-05-02 02:38:03
杨虎城的五女儿,1958年准备结婚,却在婚礼前发现了她的遗体

杨虎城的五女儿,1958年准备结婚,却在婚礼前发现了她的遗体

云霄纪史观
2026-05-02 01:30:08
恭喜这3个生肖!今年5月躺着也有钱进,越活越有底气!

恭喜这3个生肖!今年5月躺着也有钱进,越活越有底气!

毅谈生肖
2026-05-01 09:56:28
张文宏谈长寿却提带状疱疹疫苗:不是劝你打,是提醒中年人别硬扛

张文宏谈长寿却提带状疱疹疫苗:不是劝你打,是提醒中年人别硬扛

白宸侃片
2026-04-27 05:50:37
一个人如果让你产生了以下三种感觉,是老天在提醒你要远离他

一个人如果让你产生了以下三种感觉,是老天在提醒你要远离他

洞读君
2026-04-15 21:05:03
英达晚年凄凉:离婚29年,儿子不认,65岁悔断肠

英达晚年凄凉:离婚29年,儿子不认,65岁悔断肠

枫尘余往逝
2026-04-29 16:54:02
基因铁证撕碎韩国纯血神话!他们真正的老祖宗曝光,竟是一路杀光半岛土著的东南亚狠人

基因铁证撕碎韩国纯血神话!他们真正的老祖宗曝光,竟是一路杀光半岛土著的东南亚狠人

寄史言志
2026-04-30 18:39:55
2026-05-02 03:12:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3364文章数 11144关注度
往期回顾 全部

科技要闻

DeepSeek发布多模态论文又连夜删除

头条要闻

美军对伊朗最新打击方案披露 包含出动地面部队

头条要闻

美军对伊朗最新打击方案披露 包含出动地面部队

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

艺术
房产
数码
旅游
公开课

艺术要闻

画画的你绝不能错过!色块与笔触的激情之旅!

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

数码要闻

原相光学鼠标传感器新品PAW3955将至,VGN、阿斯盾官宣采用

旅游要闻

一张票根全年玩转宝山!今日起,持邮轮登船证享全城超值优惠

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版