网易首页 > 网易号 > 正文 申请入驻

当 GPU 之间的通信占了 70% 的时间,算力翻倍还有用吗?

0
分享至

DeepSeek-V3 在 32 张 GPU 上跑 MoE 推理时,70.4% 的时间花在 GPU 之间传数据。不是算得慢,是算得快不起来——一半的带宽被同一条数据反复传输浪费掉了。

一篇刚刚被 ISCA 2026 录用的上海交大论文,盯上了这个被忽略了很久的痛点。他们提出了一种叫 DySHARP 的方案,把计算塞进 NVSwitch 交换机里,直接消除冗余传输,最高实现了 1.79 倍的加速。

这不是一个简单的性能优化。它指向了一个更大的问题:当 MoE 成为大模型标配架构,GPU 之间的通信瓶颈,正在变成 AI 算力基础设施中最关键的制约因素之一。


问题出在哪

MoE(Mixture of Experts,混合专家)架构的核心思路是:把前馈网络层拆成多个"专家",每个 token 只激活其中一小部分。DeepSeek-V3、GPT-4、Llama 3、Qwen 等主流大模型都采用了这个架构。

训练和推理时,专家被分布到不同 GPU 上(专家并行,EP)。但问题来了:一个 token 激活的专家可能分布在远程 GPU 上,所以需要频繁地在 GPU 之间传数据。

传数据本身不是问题。问题是——传了很多不该传的。

有两类冗余:

第一,Dispatch 阶段。一个 token 需要发到 3 张 GPU,同样的数据从源 GPU 到 NVSwitch 交换机要传 3 次。交换机拿到这份数据后,再分别转发给 3 张目标 GPU。

第二,Combine 阶段。3 张 GPU 上专家的输出需要聚合回源 GPU。这些输出是累加关系,但现在是 3 份单独传回去,在源 GPU 上再做加法。

上海交大的团队在模拟 GH200 NVL32 系统上跑 DeepSeek-V3,测出来通信冗余占总流量的近 50%。激活的专家越多,冗余越大。

NVIDIA 不是没看到这个问题

NVIDIA 从 Hopper 架构开始在 NVSwitch 里集成了一个叫 NVLink SHARP(NVLS)的功能。简单说,就是在交换机里做计算——交换机不是只管转发,还能做数据聚合(reduce)和多播(multicast)。

这理论上正好能解决上面说的冗余。Dispatch 阶段,GPU 传一份数据给交换机,交换机多播给所有目标 GPU。Combine 阶段,交换机直接在内部做加法,只把最终结果传回去。

但现实是,NVLS 不支持 MoE。

因为 NVLS 是静态的——它要求通信模式固定、目标集已知、地址对称。而 MoE 的通信是动态的:每个 token 激活哪些专家是运行时决定的,目标集随时变化,每个 GPU 的数据要发到不同的地址。

用软件方案把 MoE 通信"伪装"成静态集合通信,结果更糟——会制造出 340% 的无用流量,直接把交换机内计算带来的好处吃光。

DySHARP 怎么做的

DySHARP 的核心思路是:既然 NVLS 是静态的,那就把它扩展成动态的。

第一项技术:动态多内存寻址(Dynamic multimem addressing)

这是 ISA、架构和运行时的协同设计。数据包里只携带一个多内存地址,加上一个轻量级的目标列表。每个 GPU 本地管理自己的内存,不需要全局对称寻址。交换机根据目标列表,把数据动态路由到正确的 GPU 地址。

这一项技术本身就能消除近一半的总流量。

但问题来了。

第二项技术:Token 级核心融合(Token-centric kernel fusion)

流量消除了,加速比却没跟上来。原因很微妙:Dispatch 和 Combine 的流量减少是不对称的。一个方向的带宽省了,另一个方向没省,整体带宽利用率反而不均衡。

DySHARP 的做法是把 Dispatch、计算、Combine 整个链路用 token 级的数据依赖串起来,形成一个流水线。不同 token 的通信模式是互补的——一个 token 在 Dispatch 方向省带宽,另一个 token 在 Combine 方向省带宽——合并在一起,整体带宽利用率就上去了。

两项技术缺一不可。光有动态寻址,加速不明显;光有核心融合,冗余还在。两者配合,才实现了最高 1.79 倍的加速。

为什么通信瓶颈越来越致命

这篇论文提到了一个很容易被忽略的趋势:NVIDIA Blackwell 和 Rubin 架构中,计算能力的增长速度远远快于通信带宽的增长速度。

换句话说,GPU 越算越快,但 GPU 之间的通道没跟上。MoE 的通信开销在总体执行时间中的占比,只会越来越大,不会越来越小。

这跟系统架构里的经典"Amdahl 定律"是一个道理。当一个系统的某一部分被持续优化得越来越快,瓶颈就会转移到没被优化的部分。在 AI 训练集群里,那个没被充分优化的部分,就是 GPU 之间的通信。

更具体地说,MoE 让计算变得稀疏(每个 token 只激活少量专家),但稀疏计算的代价是通信变得密集。你用 MoE 省下的算力,被通信开销吃掉了一大块。当通信占 70% 以上的时间时,你再把算力翻一倍,整体速度也只快了不到 30%。

交换机内计算的战略意义

DySHARP 最有价值的洞察不是技术方案本身,而是它点明了一个方向:加速 AI 基础设施,不一定只在 GPU 芯片上做文章。

过去几年的主流叙事是"更大的 GPU、更多的 HBM、更快的 NVLink"。但 DySHARP 的思路是:交换机不只是交换机,它可以成为计算的一部分。

这个思路其实有先例。SmartNIC、DPU、IPU 都在试图把计算从主机 CPU 移到网络侧。但 DySHARP 的不同之处在于,它瞄准的是 AI 训练/推理最核心的数据流——MoE 的 token 分发和结果聚合——而不是网络管理或安全卸载。

如果 NVSwitch 真的能原生支持 MoE 的动态通信模式,那意味着 NVIDIA 在交换机侧又多了一层护城河。其他 GPU 厂商要追赶,不仅需要做出对标的 GPU,还需要做出对标的交换机。

国内芯片公司的机会窗口

DySHARP 基于 NVIDIA 的 NVLink/NVSwitch 架构。但"交换机内计算"这个思路本身并不绑定特定硬件。

国内做 AI 加速芯片的公司,如果在互联架构设计时就考虑把计算能力嵌入交换机/互联层,而不是事后补救,可能会在 MoE 训练/推理场景中获得差异化优势。尤其是当 NVIDIA 的 NVLS 还停留在静态集合通信阶段时,动态版本的交换机内计算如果能先在国产互联方案中落地,就是一个不错的技术叙事。

当然,实现难度不小。这需要芯片架构、互联协议、编译器、运行时调度等多个层面的协同设计,不是单点优化能搞定的。但至少方向是明确的。

这也正是IC Agent Hub这类 AI 工具平台在芯片设计流程中可以发挥作用的地方——从架构探索到互联协议验证,工程师需要高效的工具链来加速方案迭代。关注回复「合作」,可以深入交流。

MoE 训练的成本压力

MoE 架构的卖点是"用更少的算力达到同样的效果"。但通信瓶颈让这个卖点打了折扣。

对于一个训练集群来说,如果通信占 70% 的执行时间,那意味着你买的大部分 GPU 算力在空转。DySHARP 的 1.79 倍加速,如果能在实际集群中复现,直接等同于训练成本砍半——这比任何算法优化都来得实在。

推理场景的价值可能更大

论文主要关注训练场景。但推理侧的 MoE 通信问题同样严重——甚至更值得关注,因为推理的延迟敏感性比训练高得多。

如果一个 MoE 推理请求的 token 需要在多张 GPU 之间反复传输,那 P99 延迟会被通信开销严重拖累。交换机内计算如果能在推理路径上消除这些冗余传输,对推理延迟的改善可能比训练场景更明显。

对 EDA 工具链的启示

DySHARP 是 ISA、架构和运行时的协同设计。这意味着芯片设计流程中,互联架构和通信原语的验证复杂度会进一步上升。

传统的 EDA 工具在验证计算核心时已经够复杂了。当交换机也成为计算单元,验证范围就从"芯片内部"扩展到了"芯片间互联"。这对形式验证、性能仿真、通信覆盖率分析都提出了新的要求。

交换机内计算会成为标配吗

NVIDIA 在 Hopper 中引入 NVLS,在 Blackwell 中继续增强,再加上这篇论文指出的方向,趋势已经比较清晰:未来的 AI 集群互联架构,交换机一定不只是交换机。

但 NVLS 目前还是静态的。要让它支持 MoE 这种高度动态的通信模式,NVIDIA 需要在架构层面做更大的改动。DySHARP 提供了一个可行的技术路径,但 NVIDIA 是否会采纳、何时采纳,是另一个问题。

这篇论文的价值不在于 1.79 倍的加速数字——虽然这个数字本身已经足够亮眼。

它更大的价值在于提醒了一件事:当所有人都盯着 GPU 芯片本身的算力时,GPU 之间的那根线,可能才是下一个真正的瓶颈。

而解决这个瓶颈的方法,不一定是把线加粗,而是让线上的交换机也能算。

如果你对 AI+芯片设计工具链感兴趣,或者正在探索芯片研发流程自动化,关注回复「合作」,可以深入交流。IC Agent Hub支持 SaaS 体验与私有化部署双模式,欢迎来聊。

作者:麒芯

参考来源:arXiv:2605.05607 (ISCA 2026)、DeepSeek-V3 论文

本文基于公开论文整理分析,不构成任何投资建议。

加入 IC Agent 技术交流群

群里聚集了芯片设计工程师、IT/CAD 负责人和 AI+EDA 从业者,聊技术、聊工具、聊行业趋势。

关注回复「加群」,拉你进群一起聊

关注回复「合作」,如果你在做 AI+ 芯片/EDA 相关,欢迎来聊

后续会持续更新这个系列,关注不迷路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6月1日起全国医院统一新规,看病再也不用愁,谁都不能例外

6月1日起全国医院统一新规,看病再也不用愁,谁都不能例外

老特有话说
2026-05-07 15:20:09
艺人黄子佼被判刑

艺人黄子佼被判刑

第一财经资讯
2026-05-07 21:01:47
德科亲自谈判,巴萨今夏最强引援要来了

德科亲自谈判,巴萨今夏最强引援要来了

吴朑爱游泳
2026-05-09 15:11:16
向太公开痛批小儿子!谈姐弟恋彻底躺平摆烂,直言绝不认这个儿媳

向太公开痛批小儿子!谈姐弟恋彻底躺平摆烂,直言绝不认这个儿媳

观鱼听雨
2026-05-08 16:33:40
乔治三兄妹长大,哈里破防落泪:我的孩子才是这场争斗的牺牲品

乔治三兄妹长大,哈里破防落泪:我的孩子才是这场争斗的牺牲品

麦桐看娱乐
2026-05-09 11:25:08
国内媒体:FIFA曾就两届世界杯转播权向大陆打包报价约8亿美元

国内媒体:FIFA曾就两届世界杯转播权向大陆打包报价约8亿美元

懂球帝
2026-05-09 09:50:08
又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

火山詩话
2026-05-08 18:00:57
俄举行红场阅兵 记者观察:出席嘉宾备受关注

俄举行红场阅兵 记者观察:出席嘉宾备受关注

看看新闻Knews
2026-05-09 20:28:03
日本没想到,美国也没想到,如今的中国安徽省,已成为全球焦点

日本没想到,美国也没想到,如今的中国安徽省,已成为全球焦点

忠于法纪
2026-03-19 10:51:34
东风 - 31 泄密大案:总工程师被美色策反,国之重器险遭灭顶之灾

东风 - 31 泄密大案:总工程师被美色策反,国之重器险遭灭顶之灾

干史人
2026-04-18 13:44:12
我国向巴基斯坦交付首艘潜艇,这对巴基斯坦意味着什么?

我国向巴基斯坦交付首艘潜艇,这对巴基斯坦意味着什么?

止戈军是我
2026-05-09 20:36:51
不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

细说职场
2026-04-26 21:04:20
梁洛施16岁大儿子正面照曝光,网友:当年的“豪门弃妇”赢麻了!

梁洛施16岁大儿子正面照曝光,网友:当年的“豪门弃妇”赢麻了!

科学发掘
2026-05-09 18:30:36
肯豆也没啥特别的,瘦瘦小小的!

肯豆也没啥特别的,瘦瘦小小的!

飛娱日记
2026-04-24 09:10:58
33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

阿讯说天下
2026-04-18 14:53:39
研究表明:性生活越频繁,射精和勃起问题越少!

研究表明:性生活越频繁,射精和勃起问题越少!

黯泉
2026-04-05 20:40:12
心理学有个残忍发现:让一个人终身困在焦虑里、无法自拔,从不是缺爱缺安全感,而是这两道“埋在意识底层的心理门槛”

心理学有个残忍发现:让一个人终身困在焦虑里、无法自拔,从不是缺爱缺安全感,而是这两道“埋在意识底层的心理门槛”

心理观察局
2026-05-09 09:10:05
“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

蝴蝶花雨话教育
2026-04-25 00:45:03
2026网约车大变局!双证清零、抽成封顶8小时限驾,司机都要慌了

2026网约车大变局!双证清零、抽成封顶8小时限驾,司机都要慌了

呼呼历史论
2026-05-09 19:59:31
雪中送炭!中方伸出援手,3小时直飞达沃,给绝境中的莎拉带来希望

雪中送炭!中方伸出援手,3小时直飞达沃,给绝境中的莎拉带来希望

井普椿的独白
2026-05-09 14:26:34
2026-05-09 21:16:49
麒芯说AI
麒芯说AI
分享AI与芯片设计领域的行业新闻、时事热点、、技术干货与行业同仁共探智能算力时代的芯片研发赋能。
4文章数 0关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

香港富豪孙女被绑架 绑匪拿到2800万后逃跑8人花11万

头条要闻

香港富豪孙女被绑架 绑匪拿到2800万后逃跑8人花11万

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
旅游
健康
教育
军事航空

LCK第二赛段:又是爆冷?BFX找回状态,专门搞KT?

旅游要闻

告别“打卡式”旅游 境外游客来杭15分钟即可换证自驾

干细胞能让人“返老还童”吗

教育要闻

2026年能“捡漏”的3所985大学,录取分数极低,性价比超高!

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版