网易首页 > 网易号 > 正文 申请入驻

佐治亚理工揪出GPU集群隐形杀手:CPU拖后腿让推理慢5.4倍

0
分享至


2024年买8张H100配个32核CPU的老板,可能正在经历一种精致的浪费——GPU利用率不到三成,账单却按满负荷在跑。

佐治亚理工学院3月发布的技术论文,用一组测试数据把这种「豪车配单缸发动机」的荒诞场景量化了。研究团队发现,多GPU大模型推理的瓶颈根本不在显卡本身,而是CPU没跟上节奏。当CPU核心数不足时,系统会出现内核启动延迟、通信阻塞、分词耗时激增等问题,直接导致GPU空转。

「GPU饱和」是个伪命题

论文作者Euijun Chung团队测试了现代LLM推理和服务负载,发现一个反直觉的现象:系统性能下降时,GPU往往远未达到算力上限。真正卡住脖子的是控制端——CPU来不及给GPU派活,显卡只能干等。

这种「CPU饥饿」症状表现为三类典型故障。内核启动延迟,即CUDA操作从CPU端发起的时间被拉长;通信阻塞,多卡之间的数据同步因为CPU调度不过来而停滞;分词延迟,文本预处理阶段CPU算力不足拖慢整个流水线。

研究团队指出,即便采用了进程级隔离、CUDA Graphs等现代GPU端优化技术,这些瓶颈依然存在。换句话说,软件层面的精巧设计,掩盖不了硬件配置的头重脚轻。


加CPU比加GPU便宜47倍

论文算了一笔云厂商不会主动告诉你的账。以AWS p4d.24xlarge实例为例,8张A100的时价约为32.77美元,而额外增加CPU核心的边际成本几乎可以忽略——同实例规格下CPU从48核提升到96核,价格涨幅不足2%。

测试数据显示,在中等推理负载下,CPU配置不足的集群频繁出现请求超时。而将CPU资源配足后,首token延迟(TTFT)在不同配置下降低了1.36到5.40倍,且无需增加任何GPU。

5.4倍的差距意味着什么?同样处理一批长文本请求,配好CPU的集群响应时间在用户可接受范围内,CPU饥饿的集群则直接超时失败。用户体感是「服务挂了」,实际上是「CPU没吃饱」。

为什么行业集体踩坑

这个盲区有其历史成因。大模型训练时代,算力焦虑集中在GPU数量上,CPU被默认为「能亮机就行」的配角。推理场景爆发后,这种惯性配置思维被延续下来——买卡时一掷千金,配U时精打细算。


论文作者Hyesoon Kim在讨论中指出,现有推理框架的优化文档很少强调CPU配比。开发者的注意力被CUDA内核、张量并行、流水线并行等「性感」话题吸引,控制端的资源规划成了无人区。

更隐蔽的问题是监控盲区。GPU利用率指标在仪表盘上光鲜亮丽,CPU瓶颈导致的调度延迟却分散在各个子系统里,难以被常规监控捕获。团队花了大量时间才定位到,某些「GPU利用率低」的故障根因其实是CPU调度队列堆积。

配置建议与未解问题

论文给出了一个粗略的经验法则:对于基于Transformer的LLM推理,CPU核心数与GPU数量的比例建议不低于6:1,高并发场景下8:1更为稳妥。以8卡A100/H100集群为例,这意味着至少48-64核的CPU配置。

但这个数字并非万能。模型架构差异(MoE vs Dense)、序列长度分布、批处理策略都会影响CPU的实际负载。研究团队承认,当前工作主要基于特定硬件和软件栈的测试,不同云厂商的虚拟化开销、不同推理框架的实现细节都可能改变结论。

一个悬而未决的问题是:当CPU核心数继续增加,收益曲线何时出现拐点?论文测试范围内,更多CPU始终带来正收益,但边际递减的规律必然存在。找到这个甜点区,需要更多生产环境的长期观测数据。

论文链接已公开在arXiv:2603.22774。对于正在规划推理集群的工程师,作者的建议很直白:下次扩容时,先检查CPU配比再下单GPU——毕竟加U的钱,可能还不到一张卡的首付。

你的集群CPU配了几核?有没有遇到过GPU利用率莫名低迷、加卡也不见效的情况?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际油价13日下跌

国际油价13日下跌

证券时报
2026-05-14 07:21:02
“19寸蚂蚁腰”混血美少女出道,这神颜是真实的吗?

“19寸蚂蚁腰”混血美少女出道,这神颜是真实的吗?

吃瓜党二号头目
2026-05-13 08:57:32
沪媒:国少国青的成功,至少能让国家队在未来10年享“红利”

沪媒:国少国青的成功,至少能让国家队在未来10年享“红利”

懂球帝
2026-05-14 10:40:38
到底什么意思?卢比奥随特朗普来北京,高志凯:中美双方都很聪明

到底什么意思?卢比奥随特朗普来北京,高志凯:中美双方都很聪明

一个有灵魂的作者
2026-05-14 08:34:46
特朗普专机落地!抵达北京开启访华行程

特朗普专机落地!抵达北京开启访华行程

看看新闻Knews
2026-05-13 20:44:02
导航怎么知道“红绿灯变化的”?你以为是黑科技,其实原理很简单

导航怎么知道“红绿灯变化的”?你以为是黑科技,其实原理很简单

Thurman在昆明
2026-05-11 14:19:39
任正非未料:前华为员工执掌全球AI命脉

任正非未料:前华为员工执掌全球AI命脉

徐云流浪中国
2026-05-03 18:53:06
美股科技股深夜大涨,英伟达、谷歌、苹果齐创新高,中概股集体飙升,金山云涨17%,阿里巴巴涨超8%

美股科技股深夜大涨,英伟达、谷歌、苹果齐创新高,中概股集体飙升,金山云涨17%,阿里巴巴涨超8%

21世纪经济报道
2026-05-14 07:14:51
三“傻”大闹水晶宫!曼城轮换仍获大胜 瓜帅被迫整活却一举三得

三“傻”大闹水晶宫!曼城轮换仍获大胜 瓜帅被迫整活却一举三得

雪狼侃体育
2026-05-14 10:24:33
28亿美元!被字节逼到无路可走的喜马拉雅终于卖给了腾讯

28亿美元!被字节逼到无路可走的喜马拉雅终于卖给了腾讯

传心财经
2026-05-13 17:38:12
包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

磊子讲史
2025-07-02 13:45:23
放眼看世界之空军一号:美国总统的“空中白宫”

放眼看世界之空军一号:美国总统的“空中白宫”

阿芒娱乐说
2026-05-13 08:09:31
亚历山大:目前为止我们完成了自己的任务 但挑战还在后头

亚历山大:目前为止我们完成了自己的任务 但挑战还在后头

北青网-北京青年报
2026-05-13 21:48:07
5-3!迈阿密客场5连胜 梅西赛季首次戴帽+3轮造9球 生涯已进910球

5-3!迈阿密客场5连胜 梅西赛季首次戴帽+3轮造9球 生涯已进910球

我爱英超
2026-05-14 09:51:48
日军"小钢炮"秘密被我军发现后,在投降书上写下:勿将用于日本!

日军"小钢炮"秘密被我军发现后,在投降书上写下:勿将用于日本!

鉴史录
2026-05-12 17:56:38
乒坛小妖精怒了!斯佐科斯回国后索要奖金 刚夺牌就下最后通牒!

乒坛小妖精怒了!斯佐科斯回国后索要奖金 刚夺牌就下最后通牒!

好乒乓
2026-05-14 12:28:49
知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

风月得自难寻
2026-05-12 06:25:42
特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应消灭台独

特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应消灭台独

去山野间追风
2026-05-14 10:52:23
人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

三农老历
2026-05-08 19:20:12
哈登关键战爆发30+8+6,正名之战稳住东部第一

哈登关键战爆发30+8+6,正名之战稳住东部第一

奇史怪谈
2026-05-14 11:23:53
2026-05-14 13:15:00
Ping值焦虑
Ping值焦虑
有态度网友ytd
2611文章数 39关注度
往期回顾 全部

科技要闻

马斯克:只有我和黄仁勋坐上了"空军一号"

头条要闻

兄妹救4名落水者后遭拉黑 被告知获救者身份不便公开

头条要闻

兄妹救4名落水者后遭拉黑 被告知获救者身份不便公开

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

片仔癀依旧困在“片仔癀”

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

时尚
旅游
本地
公开课
军事航空

T恤+低腰阔腿裤、衬衫+低腰半裙,今年夏天最时髦的搭配,谁穿谁好看!

旅游要闻

大理花事 | 又是一年苍山杜鹃红

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版