网易首页 > 网易号 > 正文 申请入驻

佐治亚理工团队发现:GPU集群里藏了1个"隐形杀手"

0
分享至


2026年3月,一份来自佐治亚理工学院的论文在arXiv悄然上线。研究团队花了数月时间追踪多GPU大模型推理的卡顿源头,最后锁定了一个令人意外的答案——不是GPU不够强,是CPU在拖后腿。

这个发现有点反直觉。毕竟过去两年,行业把所有火力都砸向GPU:H100抢不到就抢H200,显存不够就上量化压缩,推理框架迭代了一轮又一轮。但佐治亚理工的测量数据显示,大量生产环境的GPU利用率根本没跑满,问题出在CPU侧的控制面

CPU starvation:GPU空转的元凶

研究团队把这种现象命名为"CPU starvation"(CPU饥饿)。具体症状有三类:内核启动延迟、通信管道堵塞、分词(tokenization)耗时暴涨。这些控制面任务本该由CPU快速调度完成,一旦CPU核心数配少了,GPU就得干等着。

论文给出的数字相当刺眼。在中等负载的在线服务场景下,CPU配置不足的系统频繁触发超时;而补足CPU资源后,首token延迟(TTFT)直接下降1.36到5.40倍——最高5倍多的提升,零额外GPU成本

更麻烦的是,这个问题藏得很深。即使采用了进程级隔离、CUDA Graphs等现代GPU优化手段,CPU瓶颈依然会冒出来。换句话说,你在GPU侧堆的优化,可能被CPU侧的短板一键清零。

为什么没人早发现?

一个合理的疑问是:CPU核心才多少钱,GPU实例多少钱?为什么厂商不直接多配点CPU?

论文作者之一的Hyesoon Kim团队在测量中发现了认知盲区。云厂商的GPU实例模板往往沿用"够用就行"的CPU配比,而用户侧的性能监控又集中在GPU利用率指标上。CPU侧的调度延迟、内核队列堆积,在常规监控面板里几乎不可见。

这就形成了一个诡异局面:GPU利用率显示80%,你以为是模型算力吃满了;实际上可能是CPU来不及喂数据,GPU在空转。用户感受到的卡顿、超时、TTFT抖动,根源在CPU,但排查路径会把你引向量化策略、批大小(batch size)、甚至网络带宽——全是弯路。

研究团队用了一个精妙的类比:多GPU系统像一条流水线,GPU是重型机械臂,CPU是传送带和控制中枢。机械臂再快,传送带卡壳或者指令下发延迟,整条线就得降速。

成本账怎么算?

论文的财务测算部分可能会让很多工程师坐不住。

以当前云厂商的定价结构,增加CPU核心的边际成本相对于GPU实例价格可以忽略不计。但CPU不足导致的性能损失却是实打实的:超时重试、用户体验下降、甚至被迫扩容GPU集群——花大钱办小事,还是花小钱办大事,这道选择题的答案相当明确

研究团队没有给出具体的"黄金配比"数字,因为不同模型架构、序列长度、批处理策略对CPU的压力差异很大。但他们提供了系统性的分析框架:从内核启动延迟、通信停滞时长、分词耗时三个维度建立监控,定位CPU瓶颈的真实位置。

这篇论文的发布时间也值得玩味。2026年3月,正值多模态大模型和Agent系统爆发的前夜,推理负载的复杂度和并发规模都在指数级上升。CPU控制面的压力只会更大,而不是更小。

佐治亚理工团队把论文开源在arXiv:2603.22774,标题直截了当:《Characterizing CPU-Induced Slowdowns in Multi-GPU LLM Inference》。没有造新词,没有包装概念,就是老老实实把测量过程、瓶颈定位、优化收益摊开给你看。

一位参与论文评审的工程师在社交媒体评论:「我们上周刚花三倍预算扩容GPU集群,看完这篇想回去检查一下CPU配置了。」

你的生产环境监控面板里,CPU调度延迟这个指标,现在能直接看到吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马英九基金会“家变”风波持续,前幕僚金溥聪目的不单纯!

马英九基金会“家变”风波持续,前幕僚金溥聪目的不单纯!

总在茶余后
2026-05-25 14:40:51
CBA休赛期大变局!三队同步调整,麦基续约引巨大争议

CBA休赛期大变局!三队同步调整,麦基续约引巨大争议

晰知
2026-05-25 13:41:55
西决G4!马刺强压卫冕冠军 福斯特控场顶级,NBA无愧商业联盟

西决G4!马刺强压卫冕冠军 福斯特控场顶级,NBA无愧商业联盟

揽星河的笔记
2026-05-25 14:30:53
杜欧联手倒计时!火箭全力冲刺,欧文回应:愿加盟休斯顿冲冠!

杜欧联手倒计时!火箭全力冲刺,欧文回应:愿加盟休斯顿冲冠!

田先生篮球
2026-05-24 23:45:56
胡言乱语!0-3变成2-1!NBA最大的笑话

胡言乱语!0-3变成2-1!NBA最大的笑话

篮球教学论坛
2026-05-25 13:38:44
砸锅卖铁也要拿下!美记:火箭可用申京+小贾交易字母哥

砸锅卖铁也要拿下!美记:火箭可用申京+小贾交易字母哥

爱体育
2026-05-24 23:45:37
我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

纸鸢奇谭
2026-05-21 17:44:37
犹太和盎撒资本在内斗?一个重要原因是美国收割不了中国

犹太和盎撒资本在内斗?一个重要原因是美国收割不了中国

王鶔吃吃喝喝
2026-05-24 09:10:57
从万众瞩目到黯然退场!伊万卡的十年梦醒与豪门权力真相

从万众瞩目到黯然退场!伊万卡的十年梦醒与豪门权力真相

别让往昔的悲伤和对未来的恐惧
2026-05-23 00:48:54
寒武纪市值逼近9000亿元

寒武纪市值逼近9000亿元

新浪财经
2026-05-25 13:11:46
52岁朴树近况:无儿无女,没钱没房,成了要钱不要命的“疯子”

52岁朴树近况:无儿无女,没钱没房,成了要钱不要命的“疯子”

流云随风去远方
2026-04-14 12:22:59
遭俄军报复性打击后,泽连斯基转身对美欧提出一个厚颜无耻的要求

遭俄军报复性打击后,泽连斯基转身对美欧提出一个厚颜无耻的要求

万国明信片
2026-05-25 13:48:42
2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

民间胡扯老哥
2026-05-24 13:40:40
飙涨近4%!港股硬科技再创上市新高

飙涨近4%!港股硬科技再创上市新高

每日经济新闻
2026-05-25 10:36:39
79岁黄百鸣面临10年监禁,法庭上求情:不想坐牢,已决定退休

79岁黄百鸣面临10年监禁,法庭上求情:不想坐牢,已决定退休

她时尚丫
2026-05-24 16:51:05
秦志戬这一刀砍得够狠!4个冠军直接出局,3个00后空降上位

秦志戬这一刀砍得够狠!4个冠军直接出局,3个00后空降上位

最爱乒乓球
2026-05-25 05:03:24
不打了!雷霆3人重伤!马刺机会来了!

不打了!雷霆3人重伤!马刺机会来了!

七七自驾游
2026-05-24 15:01:45
这次小米YU7不再神话了?现车销售,都没人买了?

这次小米YU7不再神话了?现车销售,都没人买了?

互联网.乱侃秀
2026-05-23 10:37:31
日媒紧急警告:全球损失10万亿只是起步,美制裁中国就是制裁世界

日媒紧急警告:全球损失10万亿只是起步,美制裁中国就是制裁世界

天气观察站
2026-05-25 15:00:30
"碳水脸"的原因绝不是碳水!

"碳水脸"的原因绝不是碳水!

FitEmpire健身领域
2026-05-24 10:41:03
2026-05-25 16:12:49
灰度测试中
灰度测试中
生活正在重构,目前还在灰度测试阶段,暂不全量发布。
3664文章数 31关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

学生被要求每天体育活动2小时 有学生跑300米后离世

头条要闻

学生被要求每天体育活动2小时 有学生跑300米后离世

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

艺术
健康
手机
数码
家居

艺术要闻

他把葡萄画成了美少女

外泌体 ≠ 生长因子!它们之间究竟有何区别?

手机要闻

小米17系列有望突破500万,vivo、OPPO同档机型呢?

数码要闻

AMD或将把此前仅在中国市场售卖的Radeon RX 9070 GRE推向全球

家居要闻

生与命相依 旧公寓改造

无障碍浏览 进入关怀版