网易首页 > 网易号 > 正文 申请入驻

推理平台评测没说的三件事

0
分享至

Cloudflare最近发了篇技术博客,讲他们怎么在Workers AI平台上跑Kimi K2.5和Llama 4 Scout。文章里有p90首Token延迟曲线,有吞吐数字,坦承了背后的工程优化。但和所有这类平台方的技术分享一样,它只展示了能对外说的指标。

真正搞生产推理的人关心的另外三个维度——p90之后的尾延迟、多GPU卡间的速度差、以及按租户拆分的归因——这篇博客一个字没提。下面说说为什么这种缺失是常态,以及卡级可观测性到底能补什么。


先快速过一遍Cloudflare公开的数据:Kimi K2.5(1万亿参数以上)最少需要8张H100;Llama 4 Scout跑在2张H200上;Workers AI平台的p90 TTFT有 measurable 的改进。模型规模、GPU数量、 headline延迟——典型的推理平台发布三件套。

但生产环境不是这么运行的。

第一,p90之后的尾巴

p90是给客户看的摘要。真正的可靠性看p99或p99.9。那个等了8秒才收到回复的用户,前100次调用都是600毫秒——这种人才会写工单。尾巴的形状决定重试是救命还是雪上加霜。

尾巴由这些东西塑形:推测解码的接受率在负载下暴跌;batch边界切换时的内核启动开销尖峰;PCIe争抢——主机到GPU的流量和卡间集合通信打架;多卡prefill时某张卡走了慢路径。吞吐图拆不开这些。p99分布按根因拆分可以,但根因分类需要卡级、per-collective的数据打底。

第二,多GPU的速度差

8张H100切1T参数模型,意味着张量并行,意味着每次前向传播都以AllReduce屏障收尾。最慢的那张卡决定每个token边界的墙上时间。某张卡稳定慢5%——NUMA位置不对、主机侧有吵闹邻居、热节流——整体服务速率直接掉5%。

这是eBPF可观测性的主场:在libnccl的集合操作入口和出口符号上挂uprobe,采集ncclAllReduce、ncclBroadcast等调用的起止时间戳。DCGM只到主机级GPU计数器。内核侧的eBPF才能给出卡级、租户级的信号——平台方的技术博客永远不会发这些。

第三,按租户归因

多租户推理集群里,A用户的超长prompt把B用户的延迟顶高,这种交叉影响在主机级指标里完全隐身。需要per-rank的调度事件流才能还原。

想看点真实的?Echo AI放了一个多节点fan-in演示的DuckDB追踪文件(echo-fanin-demo.db,约1MB),包含2000个事件、跨网络的80条因果链、端到端检测出的18个straggler。不是NCCL卡级抓取,但足够验证跨节点聚合这件事长什么样。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普称中美关系将会更好

特朗普称中美关系将会更好

中国日报网
2026-05-14 20:19:47
新生儿腰斩、房价下跌?别怪政策了,这才是中国经济的残酷真相!

新生儿腰斩、房价下跌?别怪政策了,这才是中国经济的残酷真相!

冷夜说
2026-05-11 20:31:08
浙江一中学5名学生怀孕?官方回应

浙江一中学5名学生怀孕?官方回应

观察者网
2026-05-14 17:39:03
印度,第一个被AI撕碎的国家?

印度,第一个被AI撕碎的国家?

美第奇效应
2026-05-14 00:02:54
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
太失礼?到韩国见完中方就走,都不跟主人打招呼,首尔炸了

太失礼?到韩国见完中方就走,都不跟主人打招呼,首尔炸了

魔都姐姐杂谈
2026-05-13 22:44:16
合川呆呆再登热搜!母亲节杀鸡宴翻车,网友:套路都被玩烂了

合川呆呆再登热搜!母亲节杀鸡宴翻车,网友:套路都被玩烂了

童叔不飙车
2026-05-14 14:29:11
一代人觉醒,三代人托举:这篇文章,建议每个普通家庭都读两遍

一代人觉醒,三代人托举:这篇文章,建议每个普通家庭都读两遍

心理观察局
2026-05-12 08:55:11
马斯克表示:他绝对能建造出比中国任何公共交通系统都更好的系统

马斯克表示:他绝对能建造出比中国任何公共交通系统都更好的系统

华史谈
2026-04-14 13:00:13
四川追打事件升级:哨兵出动有法撑腰,女子刚一出手,性质就变了

四川追打事件升级:哨兵出动有法撑腰,女子刚一出手,性质就变了

探源历史
2026-05-14 01:09:14
拒绝伊朗提议,允许黄仁勋登机,美总统访华前释放哪些深意信号?

拒绝伊朗提议,允许黄仁勋登机,美总统访华前释放哪些深意信号?

猫智深
2026-05-13 21:47:58
17岁离家出走男孩已确认死亡!遗体在水中被找到,家属已经崩溃

17岁离家出走男孩已确认死亡!遗体在水中被找到,家属已经崩溃

慢半拍sir
2026-05-14 15:48:22
50℃的生存考验:当印度变成“空调外机”,这个国家还能生存多久

50℃的生存考验:当印度变成“空调外机”,这个国家还能生存多久

阿讯说天下
2026-05-14 12:06:36
CNN报道:向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

CNN报道:向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

戗词夺理
2026-05-13 18:07:23
狼来了?外资将杀入电信业,三大运营商瑟瑟发抖?资费要降价了!

狼来了?外资将杀入电信业,三大运营商瑟瑟发抖?资费要降价了!

Thurman在昆明
2026-05-13 11:39:22
这段外卖小哥与交警的“神仙对话”,为何点赞破百万?| 锋面评论

这段外卖小哥与交警的“神仙对话”,为何点赞破百万?| 锋面评论

上观新闻
2026-05-14 11:01:05
西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

抽象派大师
2026-05-12 20:12:00
创历史首人耻辱纪录!坎宁安空砍39+7+9 季后赛12战狂送69失误

创历史首人耻辱纪录!坎宁安空砍39+7+9 季后赛12战狂送69失误

醉卧浮生
2026-05-14 11:21:08
中美元首共同参观祈年殿!告诉你一个你所不知道的天坛

中美元首共同参观祈年殿!告诉你一个你所不知道的天坛

中国网
2026-05-14 17:44:08
为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

老特有话说
2026-05-12 15:41:08
2026-05-14 22:35:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
2731文章数 26关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

重庆"萌感"佛头意外走红 雕刻者:不是文物且尚未完工

头条要闻

重庆"萌感"佛头意外走红 雕刻者:不是文物且尚未完工

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

艺术
房产
教育
手机
公开课

艺术要闻

美国务卿鲁比奥点赞中式美学,实景令人惊叹!

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

教育要闻

南京秦淮、雨花台、玄武、建邺2026高考考点公布!

手机要闻

vivo S60预热开启,超大面积一体冷雕玻璃

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版