![]()
机器之心发布
随着大模型推理服务部署走向成本与算力双约束,Prefill-Decode(PD)分离的异构推理已从前沿方案进入生产落地。推理加速器的差异性体现在不同精度计算速度、访存带宽与存储大小、机内机间通信带宽等多方面。比如构建异构 Token 工厂时,可以选择计算密集型的硬件算力运行 Prefill 阶段,高通信带宽的硬件算力运行 Decode 阶段。此时 KV Cache 跨硬件、跨精度、跨互联传输成为常态,但业界长期缺乏统一设计范式 —— 硬件、量化精度、网络、KV Cache 分层存储的选型互相耦合,部署运维人员只能靠试错调参,极易出现字节传输成功但推理结果错乱、首 Token 延迟飙升、KV Cache 数据污染、故障恢复失效等问题。
近日,上海创智学院、上海交大、复旦、人大、沐曦、基流、上海仪电多家产学研机构联合发布论文《Demystifying the Design Space and Best Practices for Heterogeneous LLM Inference and Serving》,首次系统性地拆解了异构 Prefill-Decode 推理的设计空间,提炼出三个核心边界决策与九条部署最佳实践,并在沐曦 C600 GPU + 英伟达 Hopper GPU 的生产环境中完成验证。
![]()
- 论文地址:https://arxiv.org/pdf/2606.29708
异构推理已成常态,但缺一张全景图
大模型推理正在经历一场静默的架构变革。当前,异构推理已不再是可选项,GPU 供应紧张、多厂商混合部署成为常态、不同阶段对算力和带宽的需求天然不同。异构推理在性价比更优或供应更充足的芯片上运行 Prefill 阶段,在带宽更强的芯片上运行 Decode 阶段,通过混合数值格式传输 KV Cache 状态,跨越异构互联完成一次完整的推理请求。
多数团队仍在沿用同构时代的思路,DistServe、Splitwise、Mooncake、FlowKV 等系统各自解决了其中的一部分关键问题,但每个系统都在独立地做决策,用什么加速器、什么精度、什么互联、KV Cache 放在哪里,却缺少一个统一的设计来回答:这些决策中,哪些必须联合做出,哪些可以独立决定?
核心问题:当异构推理组合了不同的加速器、数值格式、互联路径和 KV Cache 驻留层级时,哪些设计决策必须在 PD 边界处联合做出,哪些可以各自独立?
论文正是要回答这个问题,为异构推理这一个正在快速膨胀的设计空间画出了理论边界。它不提出新的推理架构或调度算法,而是提供一份设计空间的系统性地图,帮助工程团队理解异构推理系统中那些看似独立、实则耦合的设计选择,以及它们如何在边界处产生交互。
五个设计轴与一个关键抽象
论文跳出单一模块优化思路,构建一套覆盖全链路的标准化分析框架,将异构推理拆解为五个设计维度,并基于维度间的强耦合约束,收敛出异构部署必须解决的三大核心边界问题。
![]()
在同构部署中,这五个设计维度大多可以独立调节,当 Prefill 和 Decode 运行在不同硬件上,维度之间的耦合会进一步加强:一个在某款加速器上效果很好的精度格式,可能在另一款上没有可执行的引擎路径;一个传输引擎成功搬运了字节,但接收端可能在完全不同的数值语义下解读这些字节。
论文引入了一个关键抽象 - Runtime KV State(运行时 KV 状态),不仅包含 KV 张量本身,还包含表示格式、元数据、驻留信息和所有权状态。所有异构推理的边界问题,本质上都是围绕这个对象的生产(Prefill 阶段)、传输(PD 边界交接)和消费(Decode 阶段)展开的。
三个必须做出的边界决策
通过分析五个设计轴之间的两两耦合关系,论文识别出六个紧耦合和两个开放耦合,并将它们归纳为三个核心边界决策:
决策一:计算放置(Compute Placement)
哪个加速器池服务 Prefill,哪个服务 Decode?这不是简单地把最快的硬件分给最忙的阶段。Prefill 是计算密集型的,受益于高算力;Decode 是带宽密集型的,受制于内存带宽和 KV 容量。同一款芯片在不同工作负载下的表现差异大,长输入推高 Prefill 压力,长生成和多并发则推高 Decode 压力。
更关键的是,精度选择与加速器绑定:一种数值格式是否可用,取决于该加速器上是否有成熟的内核实现,而不仅仅是硬件规格表上的理论支持。这意味着阶段放置、精度选择和负载均衡必须作为同一个决策联合做出。
决策二:KV 表示(KV Representation)
运行时 KV 状态如何在 PD 边界上被表示、传输和消费?在同构部署中两端共享相同的运行时环境,这个问题不存在。但在异构部署中,Prefill 和 Decode 可能使用不同的内核、不同的精度策略、甚至不同的张量布局。
论文指出了一个容易被忽视的失败模式:现有的 KV Cache 传输引擎(如 NIXL、Mooncake)本质上在搬运字节,而非张量语义。如果生产者和消费者对数值格式的理解不一致,传输本身不会报错,字节成功到达,但被错误地解释。这不是传输故障,而是语义故障。
论文将 KV 可移植性定义为:Decode 必须能够直接消费或通过显式验证的转换来消费传输过来的状态。兼容性检查应被分为两类 —— 不可转换的不变量(模型身份、适配器、Token 范围)和可转换的差异(布局、分区、数值表示)。
决策三:KV 所有权与生命周期(KV Ownership & Lifecycle)
运行时 KV 状态成功传输到 Decode 端并不意味着故事结束。系统还必须管理它的完整生命周期:何时预留容量、谁持有状态、何时释放资源、如何处理失败和取消。
论文通过源码级分析,对比了 vLLM 和 SGLang 两大推理框架在 PD 交接路径上的生命周期管理差异。例如在 vLLM 的 NIXL pull 模式中,Decode 端在 Prefill 返回坐标后才发起读取、分配目标空间;而在 SGLang 中,Decode 端预分配目标并主动发送元数据。两种模式在容量核算、故障恢复和拥塞控制上有着截然不同的特性。
九条部署最佳实践
结合异构推理生产集群实测、vLLM/NIXL、SGLang/Mooncake 源码审计、多组单节点对照实验,论文输出 9 条落地准则,覆盖硬件选型、量化配置、KV Cache 传输、KV 缓存全生命周期管理:
![]()
沐曦 + 英伟达的异构 Token 工厂实践
论文提供了一个关键的生产部署案例,CPHD-GLM5.1,在沐曦 C600 GPU 上执行 Prefill(INT8 / W8A8)阶段,在英伟达 Hopper GPU 上执行 Decode(FP8)阶段,提供 GLM-5.1 模型的推理服务。
![]()
该部署在输入长度为 64K、90% 前缀缓存命中率下,关键指标如下:
![]()
在 AIME 25、AIME 26 和 SWE-Bench Verified 等基准测试上,异构执行的结果与官方参考值偏差在可接受范围内,验证了异构配置不会引入可测量的质量退化。
受控实验揭示耦合效应
除了生产部署,论文还在单节点环境中进行了受控的 SLA 性能测量,系统性地验证了设计轴之间的耦合效应。
计算放置与 KV 格式不可分离
在 Qwen3-32B、SGLang PD、NIXL 的单节点 SLA 压测中,论文首先固定 BF16 KV 表示,比较不同 P:D 拓扑的服务上限:当配置从 6P2D 调整为 4P4D 时,最高可满足 SLA 的请求注入率从 0.2 降至 0.1。随后,在相同 4P4D 拓扑下,将 KV 表示从 BF16 切换为 FP8 e4m3,SLA 约束下的最高请求注入率提升至 1.0。这个结果说明,P:D 资源比例不能脱离 KV 表示单独评估;KV dtype 会直接改变 Decode 侧的带宽、容量和尾延迟压力,从而反过来影响计算资源放置的最优选择。因此,计算放置与 KV 表示应作为异构 PD 部署中同一个决策的两面。
精度策略的非对称影响
在单机上做精度策略对全局影响,FP8 和 AWQ INT4 相比 BF16 都提升了 Decode 侧效率,但代价不同:
![]()
FP8 改善了 TPOT,AWQ INT4 进一步提升了吞吐量增加了 TTFT。精度选择在不同阶段产生非对称的延迟影响,再次强化了论点,精度策略应属于运行时角色,而非全局设置。
两个待解的开放问题
论文同时指出当前产业仍待突破的两大开放耦合问题,为后续学术研究与工程落地指出方向:
- 跨厂商硬件 KV 统一传输栈:不同厂商加速器通信库、内存注册机制不互通,现有适配层仅能做封装适配,缺少原生标准化跨硬件传输抽象,KV 传输本质上是端到端通信栈的属性,而非单纯的传输层特性。
- 互联网络与 PD 资源协同规划:标准部署网络带宽固定,只能通过软件调度适配 KV 流量;定制化场景可将网络拓扑、网络带宽作为顶层设计变量,和 Prefill/Decode 硬件池同步规划,目前缺少一体化规划方法论。互联带宽、跨机架链路和集群级拓扑都会受 PD 工作负载结构的影响。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.