网易首页 > 网易号 > 正文 申请入驻

从灵衢协议,看懂AI计算3.0

0
分享至



公元前219年,秦始皇的南征大军卡在了五岭之间。

粮草运不上去,士兵困在山中,前方百越未平,后方补给线几近断裂。

长江水系与珠江水系被群山隔断,水不通,路难行,再强的军队也寸步难移。

两千多年后,中国乃至全球的AI工程师们,竟站在了相似的十字路口。



大模型参数动辄千亿万亿,数据如洪流奔涌,但算力却像被困在“五岭”之间的秦军。单张GPU算得再快,也扛不住全局需求;堆叠上千张卡组成集群,又陷入通信拥堵、调度混乱、能耗飙升的泥潭。卡再多,资源也无法高效流动。

正是在这相似的困局中,人们开始重新思考:如何不靠蛮力开山,而用巧思引水?如何让算力如活水,而非死湖?

答案悄然指向一条古老智慧的回响——灵渠。



让我们先从最基本的计算单元说起。

现代GPU就像一艘性能卓越的独木舟。以NVIDIA H100为例,FP16算力达1979 TFLOPS,内存带宽3.35 TB/s。如果只是处理图像分类、语音识别这些传统任务,它就像在平静湖面航行的轻舟,游刃有余。

这一阶段可以称为AI计算1.0,单卡主体时代。

那个时代,算力集中在单芯片上。算法优化的核心是挖掘单卡潜力,算子融合、内核优化、显存复用,所有技术手段都围绕如何让这一张卡跑得更快展开。但模型规模受限于显存,模型参数必须能完整地放入单卡显存中,显存容量就是模型规模的天花板,并且扩展方式简单粗暴。当单卡不够用时,解决方案直截了当——换更大的卡。从V100到A100,再到H100,每一代新品都带来显存和算力的双重提升。



那是一个摩尔定律依然有效的美好时代,硬件的迭代速度跟得上算法的增长需求。

然而,2020年之后,风向变了。

大模型训练不再是湖面泛舟,而是横渡太平洋。以GPT-4级别的模型为例,参数量约1.8万亿,是GPT-3的10倍以上;训练数据超过13万亿token,需要处理的知识量相当于人类全部书面记录的数倍;训练周期长达数月,消耗的计算资源相当于数万个GPU年的工作量。



模型参数量暴涨到万亿级别,单卡已经难以承载AI训练的需求。一方面,GPT-4级别的模型仅权重就需要约3.6TB显存空间,单卡连完整模型的一角都无法承载。另一方面,万亿参数模型的前向传播和反向传播涉及海量矩阵运算,单卡算力再强,一次完整的训练周期也以年为单位,而这显然滞后于市场。

独木舟再快,也载不动智能时代的万吨巨轮。那么,既然一艘船不够,能否组建一支庞大的舰队,齐头并进?



既然独木舟不行,那就组建船队。

现代AI超算中心动辄部署成千上万张GPU。Meta的RSC集群拥有6080张A100,微软为OpenAI构建的Azure AI超算据信集成上万张H100。这标志着AI计算2.0,以大规模GPU集群为主体的时代到来。

把算力堆到足够大,就能训练更大的模型,这听起来很美好。理论上,万卡集群的算力应该是单卡的万倍,训练时间应该线性缩短。

但现实却是,所有船只都堵在了几个狭窄的闸口。实际算力利用率往往不到一半,剩下的资源都在等待、同步、重试中白白消耗。

问题出在哪里?

当集群规模达到万卡级别时,系统复杂度呈指数级增长。每一张GPU都是一个计算节点,节点之间需要频繁交换梯度、参数、激活值,通信量随着卡数增加而成倍放大。



一张卡出问题可能拖累整个训练任务,一个网络拥塞可能让上千张卡空转等待。扩展效率随着规模扩大而显著下降,从百卡到千卡的效率损失可能是20%,从千卡到万卡的损失可能超过50%。

这就是分布式训练中的扩展性墙,规模越大,每增加一张卡带来的收益越小。

通信木桶短板效应同样致命。集群的整体速度不取决于最快的节点,而受制于最慢的那个。

一张GPU温度过高降频、一条网络链路带宽波动、一个交换机端口延迟抖动,都可能成为整个集群的瓶颈。在同步训练中,所有节点必须等待最慢的那个完成当前步骤才能继续。



这就像古代漕运,千艘粮船齐发,却共用几座狭窄船闸,没有统一水位调控,没有智能分流机制,船越多,堵得越死。算力的“五岭”并未消失,只是从单卡转移到了集群内部。

显然,单纯增加船只(GPU卡)的数量,无法根治航道(通信与调度)的拥堵问题。

既然堆数量解决不了流通问题,我们是否该换一种思路。不是造更多船,而是修一条能贯通南北的水道?



两千年前,秦人修灵渠,打通湘水与漓水,首次实现长江与珠江水系贯通。此举非为造更多船,而是重构水的流动方式,让资源自然汇聚、高效流转。

今天,灵衢协议以同样的思路带我们走向了AI计算3.0——超节点时代。

超节点是指由多个计算节点通过高速互联组成的逻辑上像一台计算机的计算系统。

这一思路最早可以追溯到英伟达的NVLink技术。



NVLink的核心突破在于重新定义了芯片间的距离。传统PCIe互联带宽有限、延迟较高,如同乡间小路,难以承载海量数据流通。NVLink则如同在芯片之间修建高速公路,让GPU之间的通信效率大幅提升。通过NVLink Switch的引入,跨服务器通信效率得以改善,数百张GPU可以紧密互联,在软件层面呈现为单一计算实体。

NVLink的演进证明了高速互联的价值,为超节点概念奠定了技术基础。但随着集群规模继续扩张,一些局限也逐渐显现。协议相对封闭,主要在自家生态内部优化;跨厂商兼容性有限,异构设备接入成本较高。

用户若采用NVLink,通常需全面采用英伟达的GPU、软件栈等,对单一厂商依赖较深。在扩展规模上,如NVL72超节点最大支持72张GPU卡,超大规模扩展时需结合InfiniBand或以太网等其他技术。

当集群规模从百卡走向万卡,企业不愿被单一供应商锁定时,行业对开放互联标准的呼声便自然浮现。技术演进的逻辑向来如此,一种方案解决了旧问题,也会带来新局限,而后继者便在缝隙中生长。

灵衢协议的出现正是对这一需求的回应。

灵衢协议是华为自主研发的面向超节点的互联协议,旨在解决大规模计算资源连接的互联技术难题。万卡超节点,一台计算机,也就是说,通过该互联协议,把数万规模的计算卡,联接成一个超节点,能够像一台计算机一样工作、学习、思考、推理。



灵衢的突破体现在对集群时代痛点的逐一化解。

显存不够,就构建统一内存池、统一编址,让多个GPU的显存池化。万亿参数模型可以像存放在单一大内存中那样被访问,无需感知底层的分布式架构。这如同灵渠将两条水系连通,水位统一,船只自然畅行。

通信太慢,就用高速互联协议突破带宽时延瓶颈。灵衢采用总线级互联设计,让跨服务器通信效率接近片内通信。对等协作的架构让各计算单元处于平等地位,能够动态分配任务和负载,避免单点瓶颈拖累整体进度。

高可靠性方面,单卡故障自动迁移,训练不中断。数千张GPU连续运行数周,硬件故障几乎成为必然事件。灵衢协议确保故障发生时,任务可以无缝迁移到其他节点,确保大规模算力系统的稳定运行,就像漕运中的备用航道,一处阻塞,立刻分流,粮船不至滞留。

并且,基于灵衢协议支持光电混合互联,Atlas 950 SuperPoD支持8192卡无收敛全互联,这一规模是NVL72的百倍有余。这意味着,原本需要层层网络转换、多协议叠加的万卡集群,现在可以通过一套统一的互联协议直接打通。

简言之,流通的关键是让水系变得更智慧,AI计算的突破往往来自对连接的重新理解。

水流淌了两千年,依旧滋养大地。算力奔涌在芯片间,终将孕育智能。当困在技术的五岭之间时,不妨回头看看历史,答案可能就在身后的古老智慧里。

水之道,即算之道。通则达,阻则滞。此理千古不易,无论湘漓之水,还是0与1之流。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2023年,985女硕士王懿在东京活活饿死,父母拒绝为其收尸

2023年,985女硕士王懿在东京活活饿死,父母拒绝为其收尸

谈史论天地
2026-02-18 17:45:40
中雪大雪局地暴雪要来了

中雪大雪局地暴雪要来了

掌中邯郸
2026-02-26 13:56:55
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

福建平子
2026-02-26 13:52:26
火箭大胜!杜兰特21+4+5,赛后老范抱住德罗赞,小谢接受采访

火箭大胜!杜兰特21+4+5,赛后老范抱住德罗赞,小谢接受采访

担酒
2026-02-26 11:21:36
吃流量?紧凑哥“逼宫”皇马+要求3天内道歉 1天后仍称剩3天时间

吃流量?紧凑哥“逼宫”皇马+要求3天内道歉 1天后仍称剩3天时间

风过乡
2026-02-26 11:31:46
全新奥迪A8有望于2029年发布!车迷直呼:等不及

全新奥迪A8有望于2029年发布!车迷直呼:等不及

汽车网评
2026-02-25 21:26:42
康熙临终前,给胤禎一杯毒酒考验他,胤禎的举动,让康熙心头一震

康熙临终前,给胤禎一杯毒酒考验他,胤禎的举动,让康熙心头一震

千秋文化
2026-02-08 19:38:41
回顾四川“烧妻案”唐路死刑细节曝光,行刑前浑身哆嗦,崩溃痛哭

回顾四川“烧妻案”唐路死刑细节曝光,行刑前浑身哆嗦,崩溃痛哭

谈史论天地
2026-02-25 07:34:55
68岁梁家辉感慨老朋友陆续离世,不得不承认自己老了,但拒绝躺平

68岁梁家辉感慨老朋友陆续离世,不得不承认自己老了,但拒绝躺平

以茶带书
2026-02-25 19:22:11
詹晓武接受纪律审查和监察调查

詹晓武接受纪律审查和监察调查

吉刻新闻
2026-02-26 13:31:50
伊美间接谈判举行 现场安保措施严密

伊美间接谈判举行 现场安保措施严密

新华社
2026-02-26 17:16:05
火箭大胜国王后!证明3件事,1人休战进攻复苏,谁是问题一目了然

火箭大胜国王后!证明3件事,1人休战进攻复苏,谁是问题一目了然

篮球看比赛
2026-02-26 16:11:33
一旦出现“回抽大阴线”,证明主力完成最后一次洗盘,逢买就涨!

一旦出现“回抽大阴线”,证明主力完成最后一次洗盘,逢买就涨!

股经纵横谈
2026-02-11 19:46:30
一种戴久了可能致癌的首饰,很多人家里都有!

一种戴久了可能致癌的首饰,很多人家里都有!

距离距离
2026-02-26 13:18:17
日本最先研究出了氢能电池,于是日本申请了上千个专利,独家生产

日本最先研究出了氢能电池,于是日本申请了上千个专利,独家生产

南权先生
2026-02-24 15:52:07
江苏一家人均1万6去贝加尔湖看蓝冰,为省200块全家遇难

江苏一家人均1万6去贝加尔湖看蓝冰,为省200块全家遇难

王晓爱体彩
2026-02-24 06:13:59
雅阁官降10万仍被吐槽 广汽本田降价为何打动不了消费者?

雅阁官降10万仍被吐槽 广汽本田降价为何打动不了消费者?

BigCarShow
2026-02-23 23:44:11
薛宝钗真是千金小姐?贾母用一盘饰品揭开真面目:不配跟林黛玉比

薛宝钗真是千金小姐?贾母用一盘饰品揭开真面目:不配跟林黛玉比

谈史论天地
2026-02-26 09:34:37
年薪210万!芯片巨头,抢人!

年薪210万!芯片巨头,抢人!

感知芯视界
2026-02-26 18:24:34
在刚刚,26家公司出现重大利好消息,看看有没有与你相关的个股?

在刚刚,26家公司出现重大利好消息,看看有没有与你相关的个股?

股市皆大事
2026-02-26 09:36:56
2026-02-26 19:31:00
脑极体 incentive-icons
脑极体
从智能密钥到已知尽头
3597文章数 167322关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

金与正"转正"了 戴着黑白色发箍坐在候补委员的第一位

头条要闻

金与正"转正"了 戴着黑白色发箍坐在候补委员的第一位

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

人民币离岸价升破6.83 什么原因?

汽车要闻

40岁的吉利,不惑于内外

态度原创

艺术
亲子
教育
房产
公开课

艺术要闻

赵孟頫珍藏的一部《金刚经》,曾是南宋皇家至宝,这才叫“最美中国字”!

亲子要闻

宝蓝帮助邻居阿姨照顾宝宝,阿姨送宝蓝玩具感谢宝蓝的照顾~

教育要闻

南京公办、民办中小学2026最新收费标准!4所民办改革试点自主制定收费标准!

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版