网易首页 > 网易号 > 正文 申请入驻

佐治亚理工发现:CPU偷懒让5块GPU集体摸鱼,成本只涨3%

0
分享至


多GPU集群跑大模型,瓶颈居然不在显卡——这个反直觉的结论来自佐治亚理工学院3月发布的一项研究。团队在测试中发现,部分配置下首Token延迟飙升5.4倍,而GPU利用率却低得离谱。

问题出在CPU身上。不是算力不够,是调度跟不上。

GPU在等CPU"发令枪"

研究团队Euijun Chung等人测试了现代大模型推理场景下的多GPU系统。他们发现一个普遍现象:GPU资源充足时,性能反而断崖式下跌。症状包括内核启动延迟、通信阻塞、分词(Tokenization)耗时增加。

用个不太准确的类比:这就像F1赛车在维修区排队,技师团队人手不足,再快的引擎也只能干等。

论文指出,这类瓶颈即使在采用进程级隔离和CUDA Graphs(一种减少CPU开销的GPU优化技术)的先进服务栈中依然存在。换句话说,软件层面的优化没能根治硬件调度层面的短板。

具体数据很扎眼。在CPU资源受限的配置下,系统频繁超时;补足CPU核心后,首Token延迟(TTFT)降低1.36-5.40倍——全程没加一块GPU

云厂商的定价盲区

研究团队的发现指向一个被忽视的成本结构问题。

论文算了一笔账:相对GPU实例的定价,增加CPU核心的边际成本极低。这意味着用户花小钱升级CPU配置,就能让已有的昂贵GPU满血运转。云厂商的默认配比可能正在让用户"隐性亏损"。

团队测试了多种服务负载场景。中等负载下,CPU饥饿配置的故障率显著高于充足配置;高负载时差距进一步拉大。稳定性收益和延迟收益同样可观。

一个细节值得玩味:部分用户可能从未意识到自己买了"错配"的实例类型——GPU规格拉满,CPU却成为隐形天花板。

为什么现在才暴露?

CPU瓶颈并非新问题,但在大模型推理场景下被放大了。

传统深度学习训练以GPU计算密集型为主,CPU主要负责数据加载和流程控制,负载相对平稳。而大模型推理的请求级并行度更高、调度更复杂:批处理(Batching)策略动态变化、KV缓存管理频繁、多轮对话状态切换——这些都需要CPU实时介入。

论文提到,现代推理框架如vLLM、TensorRT-LLM虽然优化了GPU内存和计算效率,却默认CPU资源"管够"。当实际部署中CPU核心被容器限制或超售时,性能模型就会崩塌。

研究团队建议将CPU配置视为多GPU推理的"关键调参项",而非默认背景板。这对容量规划、成本优化和SLA(服务等级协议)保障都有直接意义。

行业会跟进吗?

论文结论对云服务商和模型部署团队都有参考价值。

对云厂商而言,默认实例配比可能需要重新审视——当前GPU实例的CPU配给是否基于过时假设?对终端用户,这意味着现有集群可能存在"免费"的性能提升空间:检查CPU利用率,调整容器资源限制,可能比扩容GPU更划算。

研究团队来自佐治亚理工学院的HPArch实验室,长期关注异构计算系统优化。论文已上传arXiv,编号2603.22774。

一个悬而未决的问题是:当CPU不再是瓶颈,下一个限制大模型推理效率的组件会是什么?内存带宽、网络拓扑,还是尚未被命名的中间层?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
确认了!广州出现龙卷风

确认了!广州出现龙卷风

南方都市报
2026-05-25 12:13:13
养了个“祖宗”!广东父亲怒为高三儿子办退学:就当19年做慈善了

养了个“祖宗”!广东父亲怒为高三儿子办退学:就当19年做慈善了

侃故事的阿庆
2026-05-24 15:34:51
近10年煤矿瓦斯爆炸事故,已致近300人死亡,这两个省份为高发区

近10年煤矿瓦斯爆炸事故,已致近300人死亡,这两个省份为高发区

网易新闻出品
2026-05-23 22:23:10
面相是不会骗人的,不信你看黄百鸣,说的真准!

面相是不会骗人的,不信你看黄百鸣,说的真准!

乐悠悠娱乐
2026-05-25 11:12:45
这婚礼太狂!张学友本人现场演唱…宾客也超大咖 新郎惊人背景曝

这婚礼太狂!张学友本人现场演唱…宾客也超大咖 新郎惊人背景曝

ETtoday星光云
2026-05-25 12:22:09
高三老师面相吓到网友,堪称“骨灰级别”,就算这样也舍不得化妆

高三老师面相吓到网友,堪称“骨灰级别”,就算这样也舍不得化妆

泽泽先生
2026-05-12 18:55:50
实锤了!高市早苗雇佣水军抹黑攻击小泉进次郎,日媒拿到关键证据

实锤了!高市早苗雇佣水军抹黑攻击小泉进次郎,日媒拿到关键证据

米老鼠的世界
2026-05-25 09:11:24
OL正装 vs 清纯JK,怎么选?

OL正装 vs 清纯JK,怎么选?

贵圈真乱
2026-05-25 10:42:08
5月25日,人社部关于2026年养老金调整通知会公布吗?有新动态吗

5月25日,人社部关于2026年养老金调整通知会公布吗?有新动态吗

社保小达人
2026-05-25 07:25:08
B费21助破英超纪录!曼联3-0横扫布莱顿锁定季军

B费21助破英超纪录!曼联3-0横扫布莱顿锁定季军

有态度的体育小白
2026-05-25 12:02:21
我每个月给我妈4000孝敬费,老婆因此和我离婚,我刚离婚,我妈就提出一个要求,我才知道自己错的有多离谱

我每个月给我妈4000孝敬费,老婆因此和我离婚,我刚离婚,我妈就提出一个要求,我才知道自己错的有多离谱

LULU生活家
2026-05-23 18:01:18
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
588万平方公里!沙俄抢走的中国故土,如今竟成世界最大荒原

588万平方公里!沙俄抢走的中国故土,如今竟成世界最大荒原

南宗历史
2026-05-23 08:56:52
耿同学的导师,估计要慌了

耿同学的导师,估计要慌了

大张的自留地
2026-05-23 13:46:48
可控核聚变的拦路虎被AI驯服了

可控核聚变的拦路虎被AI驯服了

观察者网
2026-05-24 08:34:17
泰森VS梅威瑟大战再出意外!

泰森VS梅威瑟大战再出意外!

格斗迷
2026-05-25 11:44:37
全球有多少城市能撑得起14日游?要被网友们的评论笑死了!

全球有多少城市能撑得起14日游?要被网友们的评论笑死了!

另子维爱读史
2026-05-24 21:12:23
随着马刺103-82雷霆,系列赛2-2平,产生2大不可思议+2个不争事实

随着马刺103-82雷霆,系列赛2-2平,产生2大不可思议+2个不争事实

钱说体育
2026-05-25 12:42:44
反转!郑丽文获力挺,大佬集体出山,大陆表态定音,赖清德慌了

反转!郑丽文获力挺,大佬集体出山,大陆表态定音,赖清德慌了

娱乐圈的笔娱君
2026-05-25 10:57:50
西交大学生周凯旋被判死刑,行刑前拒见家属,孤身赴死!

西交大学生周凯旋被判死刑,行刑前拒见家属,孤身赴死!

华人星光
2026-05-23 10:51:12
2026-05-25 13:07:00
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
3657文章数 18关注度
往期回顾 全部

科技要闻

华为发表半导体演进新定律

头条要闻

男子收到16年前的停车欠费通知 比他买车的时间还要早

头条要闻

男子收到16年前的停车欠费通知 比他买车的时间还要早

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

洪涛回应歌手淘汰庾澄庆:难以理喻

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

本地
健康
房产
公开课
军事航空

本地新闻

用云锦的方式,打开江苏南京

外泌体 ≠ 生长因子!它们之间究竟有何区别?

房产要闻

疯狂周末,海口楼市突然爆了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版