网易首页 > 网易号 > 正文 申请入驻

从灵衢协议,看懂AI计算3.0

0
分享至



公元前219年,秦始皇的南征大军卡在了五岭之间。

粮草运不上去,士兵困在山中,前方百越未平,后方补给线几近断裂。

长江水系与珠江水系被群山隔断,水不通,路难行,再强的军队也寸步难移。

两千多年后,中国乃至全球的AI工程师们,竟站在了相似的十字路口。



大模型参数动辄千亿万亿,数据如洪流奔涌,但算力却像被困在“五岭”之间的秦军。单张GPU算得再快,也扛不住全局需求;堆叠上千张卡组成集群,又陷入通信拥堵、调度混乱、能耗飙升的泥潭。卡再多,资源也无法高效流动。

正是在这相似的困局中,人们开始重新思考:如何不靠蛮力开山,而用巧思引水?如何让算力如活水,而非死湖?

答案悄然指向一条古老智慧的回响——灵渠。



让我们先从最基本的计算单元说起。

现代GPU就像一艘性能卓越的独木舟。以NVIDIA H100为例,FP16算力达1979 TFLOPS,内存带宽3.35 TB/s。如果只是处理图像分类、语音识别这些传统任务,它就像在平静湖面航行的轻舟,游刃有余。

这一阶段可以称为AI计算1.0,单卡主体时代。

那个时代,算力集中在单芯片上。算法优化的核心是挖掘单卡潜力,算子融合、内核优化、显存复用,所有技术手段都围绕如何让这一张卡跑得更快展开。但模型规模受限于显存,模型参数必须能完整地放入单卡显存中,显存容量就是模型规模的天花板,并且扩展方式简单粗暴。当单卡不够用时,解决方案直截了当——换更大的卡。从V100到A100,再到H100,每一代新品都带来显存和算力的双重提升。



那是一个摩尔定律依然有效的美好时代,硬件的迭代速度跟得上算法的增长需求。

然而,2020年之后,风向变了。

大模型训练不再是湖面泛舟,而是横渡太平洋。以GPT-4级别的模型为例,参数量约1.8万亿,是GPT-3的10倍以上;训练数据超过13万亿token,需要处理的知识量相当于人类全部书面记录的数倍;训练周期长达数月,消耗的计算资源相当于数万个GPU年的工作量。



模型参数量暴涨到万亿级别,单卡已经难以承载AI训练的需求。一方面,GPT-4级别的模型仅权重就需要约3.6TB显存空间,单卡连完整模型的一角都无法承载。另一方面,万亿参数模型的前向传播和反向传播涉及海量矩阵运算,单卡算力再强,一次完整的训练周期也以年为单位,而这显然滞后于市场。

独木舟再快,也载不动智能时代的万吨巨轮。那么,既然一艘船不够,能否组建一支庞大的舰队,齐头并进?



既然独木舟不行,那就组建船队。

现代AI超算中心动辄部署成千上万张GPU。Meta的RSC集群拥有6080张A100,微软为OpenAI构建的Azure AI超算据信集成上万张H100。这标志着AI计算2.0,以大规模GPU集群为主体的时代到来。

把算力堆到足够大,就能训练更大的模型,这听起来很美好。理论上,万卡集群的算力应该是单卡的万倍,训练时间应该线性缩短。

但现实却是,所有船只都堵在了几个狭窄的闸口。实际算力利用率往往不到一半,剩下的资源都在等待、同步、重试中白白消耗。

问题出在哪里?

当集群规模达到万卡级别时,系统复杂度呈指数级增长。每一张GPU都是一个计算节点,节点之间需要频繁交换梯度、参数、激活值,通信量随着卡数增加而成倍放大。



一张卡出问题可能拖累整个训练任务,一个网络拥塞可能让上千张卡空转等待。扩展效率随着规模扩大而显著下降,从百卡到千卡的效率损失可能是20%,从千卡到万卡的损失可能超过50%。

这就是分布式训练中的扩展性墙,规模越大,每增加一张卡带来的收益越小。

通信木桶短板效应同样致命。集群的整体速度不取决于最快的节点,而受制于最慢的那个。

一张GPU温度过高降频、一条网络链路带宽波动、一个交换机端口延迟抖动,都可能成为整个集群的瓶颈。在同步训练中,所有节点必须等待最慢的那个完成当前步骤才能继续。



这就像古代漕运,千艘粮船齐发,却共用几座狭窄船闸,没有统一水位调控,没有智能分流机制,船越多,堵得越死。算力的“五岭”并未消失,只是从单卡转移到了集群内部。

显然,单纯增加船只(GPU卡)的数量,无法根治航道(通信与调度)的拥堵问题。

既然堆数量解决不了流通问题,我们是否该换一种思路。不是造更多船,而是修一条能贯通南北的水道?



两千年前,秦人修灵渠,打通湘水与漓水,首次实现长江与珠江水系贯通。此举非为造更多船,而是重构水的流动方式,让资源自然汇聚、高效流转。

今天,灵衢协议以同样的思路带我们走向了AI计算3.0——超节点时代。

超节点是指由多个计算节点通过高速互联组成的逻辑上像一台计算机的计算系统。

这一思路最早可以追溯到英伟达的NVLink技术。



NVLink的核心突破在于重新定义了芯片间的距离。传统PCIe互联带宽有限、延迟较高,如同乡间小路,难以承载海量数据流通。NVLink则如同在芯片之间修建高速公路,让GPU之间的通信效率大幅提升。通过NVLink Switch的引入,跨服务器通信效率得以改善,数百张GPU可以紧密互联,在软件层面呈现为单一计算实体。

NVLink的演进证明了高速互联的价值,为超节点概念奠定了技术基础。但随着集群规模继续扩张,一些局限也逐渐显现。协议相对封闭,主要在自家生态内部优化;跨厂商兼容性有限,异构设备接入成本较高。

用户若采用NVLink,通常需全面采用英伟达的GPU、软件栈等,对单一厂商依赖较深。在扩展规模上,如NVL72超节点最大支持72张GPU卡,超大规模扩展时需结合InfiniBand或以太网等其他技术。

当集群规模从百卡走向万卡,企业不愿被单一供应商锁定时,行业对开放互联标准的呼声便自然浮现。技术演进的逻辑向来如此,一种方案解决了旧问题,也会带来新局限,而后继者便在缝隙中生长。

灵衢协议的出现正是对这一需求的回应。

灵衢协议是华为自主研发的面向超节点的互联协议,旨在解决大规模计算资源连接的互联技术难题。万卡超节点,一台计算机,也就是说,通过该互联协议,把数万规模的计算卡,联接成一个超节点,能够像一台计算机一样工作、学习、思考、推理。



灵衢的突破体现在对集群时代痛点的逐一化解。

显存不够,就构建统一内存池、统一编址,让多个GPU的显存池化。万亿参数模型可以像存放在单一大内存中那样被访问,无需感知底层的分布式架构。这如同灵渠将两条水系连通,水位统一,船只自然畅行。

通信太慢,就用高速互联协议突破带宽时延瓶颈。灵衢采用总线级互联设计,让跨服务器通信效率接近片内通信。对等协作的架构让各计算单元处于平等地位,能够动态分配任务和负载,避免单点瓶颈拖累整体进度。

高可靠性方面,单卡故障自动迁移,训练不中断。数千张GPU连续运行数周,硬件故障几乎成为必然事件。灵衢协议确保故障发生时,任务可以无缝迁移到其他节点,确保大规模算力系统的稳定运行,就像漕运中的备用航道,一处阻塞,立刻分流,粮船不至滞留。

并且,基于灵衢协议支持光电混合互联,Atlas 950 SuperPoD支持8192卡无收敛全互联,这一规模是NVL72的百倍有余。这意味着,原本需要层层网络转换、多协议叠加的万卡集群,现在可以通过一套统一的互联协议直接打通。

简言之,流通的关键是让水系变得更智慧,AI计算的突破往往来自对连接的重新理解。

水流淌了两千年,依旧滋养大地。算力奔涌在芯片间,终将孕育智能。当困在技术的五岭之间时,不妨回头看看历史,答案可能就在身后的古老智慧里。

水之道,即算之道。通则达,阻则滞。此理千古不易,无论湘漓之水,还是0与1之流。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度娃被蛇咬,家人给他扔恒河泡12个小时洗毒??这没毒死都淹死了吧...

印度娃被蛇咬,家人给他扔恒河泡12个小时洗毒??这没毒死都淹死了吧...

英国那些事儿
2026-04-14 23:15:49
山西男女骑车遭开门杀1人被碾压身亡,警方回应:涉案两车驾驶人均被传唤,案件正在调查中

山西男女骑车遭开门杀1人被碾压身亡,警方回应:涉案两车驾驶人均被传唤,案件正在调查中

大象新闻
2026-04-15 21:49:03
CBA最新消息!杜锋确认离队,焦泊乔回归,广东男篮天亮了?

CBA最新消息!杜锋确认离队,焦泊乔回归,广东男篮天亮了?

绯雨儿
2026-04-15 10:25:40
3万就立案!民企老板挪用自己公司资金,也要按贪官标准判刑了?

3万就立案!民企老板挪用自己公司资金,也要按贪官标准判刑了?

今朝牛马
2026-04-14 22:27:13
起拍价34万!一辆沪A牌照摩托被法拍:车值2500、车牌值48万

起拍价34万!一辆沪A牌照摩托被法拍:车值2500、车牌值48万

快科技
2026-04-15 19:40:18
网易股权曝光:丁磊持股45.5% 身价2228亿 一年获股息超50亿

网易股权曝光:丁磊持股45.5% 身价2228亿 一年获股息超50亿

雷递
2026-04-15 22:24:34
我在药店上了10年夜班,发现凌晨来买药的女人,都有一个共同点

我在药店上了10年夜班,发现凌晨来买药的女人,都有一个共同点

千秋文化
2026-04-15 20:27:30
巴基斯坦空军进驻沙特,真实目的曝光,不是防伊朗,是怕有人搞鬼

巴基斯坦空军进驻沙特,真实目的曝光,不是防伊朗,是怕有人搞鬼

爱吃醋的猫咪
2026-04-15 21:20:06
郑丽文返台后,岛内民调曝光,位列倒数第三,与沈伯洋几乎持平?

郑丽文返台后,岛内民调曝光,位列倒数第三,与沈伯洋几乎持平?

秋狝春苗梦
2026-04-14 21:29:07
许家印终于认罪!但2.4万亿窟窿里,还有900亿分红追不回来……

许家印终于认罪!但2.4万亿窟窿里,还有900亿分红追不回来……

毯叔盘钱
2026-04-15 18:59:43
霍姆格伦首次公开恋情,女方为维拉中场埃利奥特的前女友

霍姆格伦首次公开恋情,女方为维拉中场埃利奥特的前女友

懂球帝
2026-04-15 12:03:15
在古代,大雪封山的时候土匪们都在干什么?你肯定想不到

在古代,大雪封山的时候土匪们都在干什么?你肯定想不到

网络易不易
2026-04-14 13:55:13
中国内线新希望!徐昕被NBA疯抢,杨瀚森却陷新秀困境

中国内线新希望!徐昕被NBA疯抢,杨瀚森却陷新秀困境

慢歌轻步谣
2026-04-16 00:23:35
乔致庸临终告诫后人:一个家族想要富过三代,秘诀只有三个字

乔致庸临终告诫后人:一个家族想要富过三代,秘诀只有三个字

千秋文化
2026-03-28 21:09:01
劝大家开始极限储蓄吧,从4月开始!

劝大家开始极限储蓄吧,从4月开始!

欧茜医生
2026-04-15 16:07:10
知名国企集团,六个月没发工资了

知名国企集团,六个月没发工资了

新浪财经
2026-04-13 04:16:19
以军违约空袭伊朗后,革命卫队发射导弹回击,内塔尼亚胡秒停战

以军违约空袭伊朗后,革命卫队发射导弹回击,内塔尼亚胡秒停战

晨枫老苑
2026-04-14 19:43:13
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

番茄说史聊
2026-02-22 14:07:52
新婚夜妻子不愿让我碰,我当夜回单位,半年后她抱娃来给我一封信

新婚夜妻子不愿让我碰,我当夜回单位,半年后她抱娃来给我一封信

卡西莫多的故事
2026-04-09 10:06:47
广汽集团发布2025年报:营收965.42亿元

广汽集团发布2025年报:营收965.42亿元

新浪财经
2026-03-27 22:03:32
2026-04-16 03:27:00
脑极体 incentive-icons
脑极体
从智能密钥到已知尽头
3655文章数 167419关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

法国全票通过 “将不义之财归还中国”

头条要闻

法国全票通过 “将不义之财归还中国”

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

时尚
艺术
数码
旅游
军事航空

赫本爱穿的伞裙,好优雅!

艺术要闻

看!波兰超模阿里亚纳的惊艳写真,身材让人心动不已!

数码要闻

明基新款显示器首发12499元:4K专业级色彩校准 根据环境光自动调整

旅游要闻

拉猪车绕关闯禁区:隐秘危险游该踩刹车了

军事要闻

万斯:对当前美伊局势进展“感到乐观”

无障碍浏览 进入关怀版