网易首页 > 网易号 > 正文 申请入驻

佐治亚理工揪出GPU集群隐形杀手:CPU拖后腿让推理慢5.4倍

0
分享至


2024年买8张H100配个32核CPU的老板,可能正在经历一种精致的浪费——GPU利用率不到三成,账单却按满负荷在跑。

佐治亚理工学院3月发布的技术论文,用一组测试数据把这种「豪车配单缸发动机」的荒诞场景量化了。研究团队发现,多GPU大模型推理的瓶颈根本不在显卡本身,而是CPU没跟上节奏。当CPU核心数不足时,系统会出现内核启动延迟、通信阻塞、分词耗时激增等问题,直接导致GPU空转。

「GPU饱和」是个伪命题

论文作者Euijun Chung团队测试了现代LLM推理和服务负载,发现一个反直觉的现象:系统性能下降时,GPU往往远未达到算力上限。真正卡住脖子的是控制端——CPU来不及给GPU派活,显卡只能干等。

这种「CPU饥饿」症状表现为三类典型故障。内核启动延迟,即CUDA操作从CPU端发起的时间被拉长;通信阻塞,多卡之间的数据同步因为CPU调度不过来而停滞;分词延迟,文本预处理阶段CPU算力不足拖慢整个流水线。

研究团队指出,即便采用了进程级隔离、CUDA Graphs等现代GPU端优化技术,这些瓶颈依然存在。换句话说,软件层面的精巧设计,掩盖不了硬件配置的头重脚轻。


加CPU比加GPU便宜47倍

论文算了一笔云厂商不会主动告诉你的账。以AWS p4d.24xlarge实例为例,8张A100的时价约为32.77美元,而额外增加CPU核心的边际成本几乎可以忽略——同实例规格下CPU从48核提升到96核,价格涨幅不足2%。

测试数据显示,在中等推理负载下,CPU配置不足的集群频繁出现请求超时。而将CPU资源配足后,首token延迟(TTFT)在不同配置下降低了1.36到5.40倍,且无需增加任何GPU。

5.4倍的差距意味着什么?同样处理一批长文本请求,配好CPU的集群响应时间在用户可接受范围内,CPU饥饿的集群则直接超时失败。用户体感是「服务挂了」,实际上是「CPU没吃饱」。

为什么行业集体踩坑

这个盲区有其历史成因。大模型训练时代,算力焦虑集中在GPU数量上,CPU被默认为「能亮机就行」的配角。推理场景爆发后,这种惯性配置思维被延续下来——买卡时一掷千金,配U时精打细算。


论文作者Hyesoon Kim在讨论中指出,现有推理框架的优化文档很少强调CPU配比。开发者的注意力被CUDA内核、张量并行、流水线并行等「性感」话题吸引,控制端的资源规划成了无人区。

更隐蔽的问题是监控盲区。GPU利用率指标在仪表盘上光鲜亮丽,CPU瓶颈导致的调度延迟却分散在各个子系统里,难以被常规监控捕获。团队花了大量时间才定位到,某些「GPU利用率低」的故障根因其实是CPU调度队列堆积。

配置建议与未解问题

论文给出了一个粗略的经验法则:对于基于Transformer的LLM推理,CPU核心数与GPU数量的比例建议不低于6:1,高并发场景下8:1更为稳妥。以8卡A100/H100集群为例,这意味着至少48-64核的CPU配置。

但这个数字并非万能。模型架构差异(MoE vs Dense)、序列长度分布、批处理策略都会影响CPU的实际负载。研究团队承认,当前工作主要基于特定硬件和软件栈的测试,不同云厂商的虚拟化开销、不同推理框架的实现细节都可能改变结论。

一个悬而未决的问题是:当CPU核心数继续增加,收益曲线何时出现拐点?论文测试范围内,更多CPU始终带来正收益,但边际递减的规律必然存在。找到这个甜点区,需要更多生产环境的长期观测数据。

论文链接已公开在arXiv:2603.22774。对于正在规划推理集群的工程师,作者的建议很直白:下次扩容时,先检查CPU配比再下单GPU——毕竟加U的钱,可能还不到一张卡的首付。

你的集群CPU配了几核?有没有遇到过GPU利用率莫名低迷、加卡也不见效的情况?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

游民星空
2026-03-26 17:09:32
特斯拉国内规模最大高速服务区超级充电站项目上线

特斯拉国内规模最大高速服务区超级充电站项目上线

新华社
2026-03-29 08:50:12
冯巩在人民日报发文,撕开喜剧圈脏乱内幕,点破岳云鹏尴尬处境

冯巩在人民日报发文,撕开喜剧圈脏乱内幕,点破岳云鹏尴尬处境

林雁飞
2026-03-27 14:42:10
海南昌江通报“史某辉申请国家赔偿被依法中止办理”:迅速成立联合调查组

海南昌江通报“史某辉申请国家赔偿被依法中止办理”:迅速成立联合调查组

界面新闻
2026-03-29 07:32:17
勇士消息:穆迪手术成功,铂金渴望留队,战掘金出场更新

勇士消息:穆迪手术成功,铂金渴望留队,战掘金出场更新

冷月小风风
2026-03-29 11:56:03
多位院士共识:低密度脂蛋白在安全值,无需用药降脂

多位院士共识:低密度脂蛋白在安全值,无需用药降脂

医学科普汇
2026-03-28 22:55:03
亿万国人破防了!90岁院士平静宣布,中国导弹从此没有任何死角!

亿万国人破防了!90岁院士平静宣布,中国导弹从此没有任何死角!

墨兰史书
2026-03-05 07:10:08
央媒点名批评国乒!直击3大隐患,孙颖莎是典型,王励勤遇到难题

央媒点名批评国乒!直击3大隐患,孙颖莎是典型,王励勤遇到难题

余憁搞笑段子
2026-03-29 08:30:59
美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

快看张同学
2026-03-29 11:34:50
国乒刚到澳门,恶心一幕出现!孙颖莎王楚钦遭遇怼脸拍!CCTV直播澳门世界杯!

国乒刚到澳门,恶心一幕出现!孙颖莎王楚钦遭遇怼脸拍!CCTV直播澳门世界杯!

好乒乓
2026-03-28 12:18:59
11.7亿元,广州市中标一个大项目

11.7亿元,广州市中标一个大项目

蓝天白云1111
2026-03-29 10:27:09
晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

鹤羽说个事
2026-03-24 22:01:27
日本警视厅对强闯我驻日使馆不法之徒所属部队驻地等展开搜查

日本警视厅对强闯我驻日使馆不法之徒所属部队驻地等展开搜查

环球网资讯
2026-03-29 07:52:04
笑麻了!新手爸爸们的离谱行为,老婆要生了,结果人还在家

笑麻了!新手爸爸们的离谱行为,老婆要生了,结果人还在家

夜深爱杂谈
2026-03-28 20:00:23
​一口气吃完9个冰淇淋,这个视频我第一次看到

​一口气吃完9个冰淇淋,这个视频我第一次看到

岁月有情1314
2026-03-28 08:35:45
16岁就是人间尤物,4年换19个男人,找老实人接盘后,变买菜妈妈

16岁就是人间尤物,4年换19个男人,找老实人接盘后,变买菜妈妈

一盅情怀
2026-03-28 15:38:13
伊朗已经想好了:打完这场仗,自己将成阿拉伯国家的新“保护伞”

伊朗已经想好了:打完这场仗,自己将成阿拉伯国家的新“保护伞”

我是盲流
2026-03-29 02:48:07
沙特削减对华供应,油少卖800万桶,中方通知全球,指出当务之急

沙特削减对华供应,油少卖800万桶,中方通知全球,指出当务之急

丁丁鲤史纪
2026-03-28 16:51:54
一辆自行车卖18万元还被抢光,上海"首发经济"凭的是什么?

一辆自行车卖18万元还被抢光,上海"首发经济"凭的是什么?

界面新闻
2026-03-29 08:01:04
输了官司不爽 马斯克嘲讽84岁法官:穿成这样我怎能获公正审判

输了官司不爽 马斯克嘲讽84岁法官:穿成这样我怎能获公正审判

金融界
2026-03-28 10:48:31
2026-03-29 13:43:00
Ping值焦虑
Ping值焦虑
有态度网友ytd
331文章数 2关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

网约车司机被骗网贷后车内轻生:我不想死 但扛不住了

头条要闻

网约车司机被骗网贷后车内轻生:我不想死 但扛不住了

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

旅游
本地
房产
时尚
公开课

旅游要闻

艳染浦东!樱花、杜鹃齐绽放,繁花激活文旅“春日经济”

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

大牌专场|| 爱了8年没换过,这次100+拿下

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版