网易首页 > 网易号 > 正文 申请入驻

多机构联合发布工业级设计实践,拆解跨硬件推理服务的核心边界

0
分享至



机器之心发布

随着大模型推理服务部署走向成本与算力双约束,Prefill-Decode(PD)分离的异构推理已从前沿方案进入生产落地。推理加速器的差异性体现在不同精度计算速度、访存带宽与存储大小、机内机间通信带宽等多方面。比如构建异构 Token 工厂时,可以选择计算密集型的硬件算力运行 Prefill 阶段,高通信带宽的硬件算力运行 Decode 阶段。此时 KV Cache 跨硬件、跨精度、跨互联传输成为常态,但业界长期缺乏统一设计范式 —— 硬件、量化精度、网络、KV Cache 分层存储的选型互相耦合,部署运维人员只能靠试错调参,极易出现字节传输成功但推理结果错乱、首 Token 延迟飙升、KV Cache 数据污染、故障恢复失效等问题。

近日,上海创智学院、上海交大、复旦、人大、沐曦、基流、上海仪电多家产学研机构联合发布论文《Demystifying the Design Space and Best Practices for Heterogeneous LLM Inference and Serving》,首次系统性地拆解了异构 Prefill-Decode 推理的设计空间,提炼出三个核心边界决策与九条部署最佳实践,并在沐曦 C600 GPU + 英伟达 Hopper GPU 的生产环境中完成验证。



  • 论文地址:https://arxiv.org/pdf/2606.29708

异构推理已成常态,但缺一张全景图

大模型推理正在经历一场静默的架构变革。当前,异构推理已不再是可选项,GPU 供应紧张、多厂商混合部署成为常态、不同阶段对算力和带宽的需求天然不同。异构推理在性价比更优或供应更充足的芯片上运行 Prefill 阶段,在带宽更强的芯片上运行 Decode 阶段,通过混合数值格式传输 KV Cache 状态,跨越异构互联完成一次完整的推理请求。

多数团队仍在沿用同构时代的思路,DistServe、Splitwise、Mooncake、FlowKV 等系统各自解决了其中的一部分关键问题,但每个系统都在独立地做决策,用什么加速器、什么精度、什么互联、KV Cache 放在哪里,却缺少一个统一的设计来回答:这些决策中,哪些必须联合做出,哪些可以独立决定?

核心问题:当异构推理组合了不同的加速器、数值格式、互联路径和 KV Cache 驻留层级时,哪些设计决策必须在 PD 边界处联合做出,哪些可以各自独立?

论文正是要回答这个问题,为异构推理这一个正在快速膨胀的设计空间画出了理论边界。它不提出新的推理架构或调度算法,而是提供一份设计空间的系统性地图,帮助工程团队理解异构推理系统中那些看似独立、实则耦合的设计选择,以及它们如何在边界处产生交互。

五个设计轴与一个关键抽象

论文跳出单一模块优化思路,构建一套覆盖全链路的标准化分析框架,将异构推理拆解为五个设计维度,并基于维度间的强耦合约束,收敛出异构部署必须解决的三大核心边界问题。



在同构部署中,这五个设计维度大多可以独立调节,当 Prefill 和 Decode 运行在不同硬件上,维度之间的耦合会进一步加强:一个在某款加速器上效果很好的精度格式,可能在另一款上没有可执行的引擎路径;一个传输引擎成功搬运了字节,但接收端可能在完全不同的数值语义下解读这些字节。

论文引入了一个关键抽象 - Runtime KV State(运行时 KV 状态),不仅包含 KV 张量本身,还包含表示格式、元数据、驻留信息和所有权状态。所有异构推理的边界问题,本质上都是围绕这个对象的生产(Prefill 阶段)、传输(PD 边界交接)和消费(Decode 阶段)展开的。

三个必须做出的边界决策

通过分析五个设计轴之间的两两耦合关系,论文识别出六个紧耦合和两个开放耦合,并将它们归纳为三个核心边界决策:

决策一:计算放置(Compute Placement)

哪个加速器池服务 Prefill,哪个服务 Decode?这不是简单地把最快的硬件分给最忙的阶段。Prefill 是计算密集型的,受益于高算力;Decode 是带宽密集型的,受制于内存带宽和 KV 容量。同一款芯片在不同工作负载下的表现差异大,长输入推高 Prefill 压力,长生成和多并发则推高 Decode 压力。

更关键的是,精度选择与加速器绑定:一种数值格式是否可用,取决于该加速器上是否有成熟的内核实现,而不仅仅是硬件规格表上的理论支持。这意味着阶段放置、精度选择和负载均衡必须作为同一个决策联合做出。

决策二:KV 表示(KV Representation)

运行时 KV 状态如何在 PD 边界上被表示、传输和消费?在同构部署中两端共享相同的运行时环境,这个问题不存在。但在异构部署中,Prefill 和 Decode 可能使用不同的内核、不同的精度策略、甚至不同的张量布局。

论文指出了一个容易被忽视的失败模式:现有的 KV Cache 传输引擎(如 NIXL、Mooncake)本质上在搬运字节,而非张量语义。如果生产者和消费者对数值格式的理解不一致,传输本身不会报错,字节成功到达,但被错误地解释。这不是传输故障,而是语义故障。

论文将 KV 可移植性定义为:Decode 必须能够直接消费或通过显式验证的转换来消费传输过来的状态。兼容性检查应被分为两类 —— 不可转换的不变量(模型身份、适配器、Token 范围)和可转换的差异(布局、分区、数值表示)。

决策三:KV 所有权与生命周期(KV Ownership & Lifecycle)

运行时 KV 状态成功传输到 Decode 端并不意味着故事结束。系统还必须管理它的完整生命周期:何时预留容量、谁持有状态、何时释放资源、如何处理失败和取消。

论文通过源码级分析,对比了 vLLM 和 SGLang 两大推理框架在 PD 交接路径上的生命周期管理差异。例如在 vLLM 的 NIXL pull 模式中,Decode 端在 Prefill 返回坐标后才发起读取、分配目标空间;而在 SGLang 中,Decode 端预分配目标并主动发送元数据。两种模式在容量核算、故障恢复和拥塞控制上有着截然不同的特性。

九条部署最佳实践

结合异构推理生产集群实测、vLLM/NIXL、SGLang/Mooncake 源码审计、多组单节点对照实验,论文输出 9 条落地准则,覆盖硬件选型、量化配置、KV Cache 传输、KV 缓存全生命周期管理:



沐曦 + 英伟达的异构 Token 工厂实践

论文提供了一个关键的生产部署案例,CPHD-GLM5.1,在沐曦 C600 GPU 上执行 Prefill(INT8 / W8A8)阶段,在英伟达 Hopper GPU 上执行 Decode(FP8)阶段,提供 GLM-5.1 模型的推理服务。



该部署在输入长度为 64K、90% 前缀缓存命中率下,关键指标如下:



在 AIME 25、AIME 26 和 SWE-Bench Verified 等基准测试上,异构执行的结果与官方参考值偏差在可接受范围内,验证了异构配置不会引入可测量的质量退化。

受控实验揭示耦合效应

除了生产部署,论文还在单节点环境中进行了受控的 SLA 性能测量,系统性地验证了设计轴之间的耦合效应。

计算放置与 KV 格式不可分离

在 Qwen3-32B、SGLang PD、NIXL 的单节点 SLA 压测中,论文首先固定 BF16 KV 表示,比较不同 P:D 拓扑的服务上限:当配置从 6P2D 调整为 4P4D 时,最高可满足 SLA 的请求注入率从 0.2 降至 0.1。随后,在相同 4P4D 拓扑下,将 KV 表示从 BF16 切换为 FP8 e4m3,SLA 约束下的最高请求注入率提升至 1.0。这个结果说明,P:D 资源比例不能脱离 KV 表示单独评估;KV dtype 会直接改变 Decode 侧的带宽、容量和尾延迟压力,从而反过来影响计算资源放置的最优选择。因此,计算放置与 KV 表示应作为异构 PD 部署中同一个决策的两面。

精度策略的非对称影响

在单机上做精度策略对全局影响,FP8 和 AWQ INT4 相比 BF16 都提升了 Decode 侧效率,但代价不同:



FP8 改善了 TPOT,AWQ INT4 进一步提升了吞吐量增加了 TTFT。精度选择在不同阶段产生非对称的延迟影响,再次强化了论点,精度策略应属于运行时角色,而非全局设置。

两个待解的开放问题

论文同时指出当前产业仍待突破的两大开放耦合问题,为后续学术研究与工程落地指出方向:

  1. 跨厂商硬件 KV 统一传输栈:不同厂商加速器通信库、内存注册机制不互通,现有适配层仅能做封装适配,缺少原生标准化跨硬件传输抽象,KV 传输本质上是端到端通信栈的属性,而非单纯的传输层特性。
  2. 互联网络与 PD 资源协同规划:标准部署网络带宽固定,只能通过软件调度适配 KV 流量;定制化场景可将网络拓扑、网络带宽作为顶层设计变量,和 Prefill/Decode 硬件池同步规划,目前缺少一体化规划方法论。互联带宽、跨机架链路和集群级拓扑都会受 PD 工作负载结构的影响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
菲律宾政坛大变天!捅了马蜂窝的马科斯,突然对中国低头表态

菲律宾政坛大变天!捅了马蜂窝的马科斯,突然对中国低头表态

流史岁月
2026-07-02 14:40:06
电池“新国标”时代,奇瑞犀牛为何能“闯”在前面?

电池“新国标”时代,奇瑞犀牛为何能“闯”在前面?

AutoBusiness
2026-07-03 16:31:05
C罗姐姐放出重磅消息:葡萄牙若不敌克罗地亚,C罗就退出国家队

C罗姐姐放出重磅消息:葡萄牙若不敌克罗地亚,C罗就退出国家队

夜白侃球
2026-07-03 10:41:51
俄罗斯宣布:芬兰已成核打击目标!

俄罗斯宣布:芬兰已成核打击目标!

看看新闻Knews
2026-07-03 13:09:37
3男孩在无人自助台球厅内,互喷灭火器致粉末飞扬,球桌、地毯、空调均被污染;商家:损失约四五千元,已报警

3男孩在无人自助台球厅内,互喷灭火器致粉末飞扬,球桌、地毯、空调均被污染;商家:损失约四五千元,已报警

扬子晚报
2026-07-03 07:35:37
恩博洛破僵恩多耶建功,瑞士2-0阿尔及利亚,造世界杯独一份神迹

恩博洛破僵恩多耶建功,瑞士2-0阿尔及利亚,造世界杯独一份神迹

钉钉陌上花开
2026-07-03 12:53:20
哈梅内伊棺前摆着遇害外孙女遗照

哈梅内伊棺前摆着遇害外孙女遗照

界面新闻
2026-07-03 16:26:19
群嘲!库兹马:好像詹眉年薪6亿所以搞不来中锋!浓眉:别说了,搞笑!

群嘲!库兹马:好像詹眉年薪6亿所以搞不来中锋!浓眉:别说了,搞笑!

818体育
2026-07-03 18:34:13
三部门:调整节能汽车、新能源汽车车船税优惠政策

三部门:调整节能汽车、新能源汽车车船税优惠政策

界面新闻
2026-07-03 17:04:59
小红书上市前夜爆雷

小红书上市前夜爆雷

不正确
2026-07-02 18:51:26
AI生成泛滥,内容已死?故事的下一次跃迁已在路上

AI生成泛滥,内容已死?故事的下一次跃迁已在路上

智谷趋势
2026-07-03 10:24:46
四川网友购入二手CCD相机发现内存哈工大教授上百张老照片,教授致谢:真的没想到还能失而复得,有机会来哈尔滨记着找我

四川网友购入二手CCD相机发现内存哈工大教授上百张老照片,教授致谢:真的没想到还能失而复得,有机会来哈尔滨记着找我

极目新闻
2026-07-03 11:49:45
网传金教授翻车了,专家还是专家吗?

网传金教授翻车了,专家还是专家吗?

慧翔百科
2026-07-03 12:27:27
WTT美国大满贯:4强赛诞生!韩国一姐惨败 蒯曼强势剃头,下轮难了

WTT美国大满贯:4强赛诞生!韩国一姐惨败 蒯曼强势剃头,下轮难了

舟望停云
2026-07-03 12:41:15
海军上校方明在执行飞行训练任务时牺牲,被评定为烈士,安徽省合肥市庐江县以最高礼仪举行告别仪式

海军上校方明在执行飞行训练任务时牺牲,被评定为烈士,安徽省合肥市庐江县以最高礼仪举行告别仪式

极目新闻
2026-07-03 15:16:01
世界杯巨大争议!克罗地亚压哨绝平被吹,魔笛气笑了,1场3球无效

世界杯巨大争议!克罗地亚压哨绝平被吹,魔笛气笑了,1场3球无效

奥拜尔
2026-07-03 09:26:17
突发!事发地铁11号线!

突发!事发地铁11号线!

尚虹桥
2026-07-03 15:21:24
西安赛格商场坠亡事件,看得人后背发凉

西安赛格商场坠亡事件,看得人后背发凉

葱哥说
2026-07-02 22:06:49
俄发出最终警告,不撤军就屠城!锆石击穿基辅,乌克兰迎生死夜

俄发出最终警告,不撤军就屠城!锆石击穿基辅,乌克兰迎生死夜

青青衫书生
2026-07-03 15:15:06
杰伦-布朗:得知被交易后我去了球馆,结果门禁卡竟然失效了

杰伦-布朗:得知被交易后我去了球馆,结果门禁卡竟然失效了

懂球帝
2026-07-03 11:00:15
2026-07-03 18:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13426文章数 142686关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

22岁运动员在景区担任NPC 称被游客掰断胳膊对方失联

头条要闻

22岁运动员在景区担任NPC 称被游客掰断胳膊对方失联

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
手机
旅游
亲子
时尚

家居要闻

传奇筑 日常诗

手机要闻

索尼一家独大成为历史:iPhone 18系列首次引入三星传感器

旅游要闻

上海迪士尼室外游乐项目,怎么都关闭了?

亲子要闻

宝蓝在房间搭了一个能钓鱼的玩具,被爸爸弄坏了,赶紧找人来修

夏天的裙子流行“剪一刀”,谁穿谁美!

无障碍浏览 进入关怀版