网易首页 > 网易号 > 正文 申请入驻

以“算存传一体化”,构筑超大规模智算集群新基座

0
分享至

作者:王聪彬


当大模型成为新一轮技术竞赛的核心载体,AI工作负载正在迅速改写基础设施的底层逻辑。从训练到推理,算力、数据吞吐与系统协同被同时推向极限,也让传统IT架构迅速显露出“不适配”的一面。

计算侧,大模型热潮带动了算力的快速堆叠,无论是GPU,还是国产算力卡,行业普遍采取规模优先的路径。但实践很快表明,单纯堆叠硬件并不能自动转化为有效算力,如果缺乏对资源的高效调度与利用,反而会成为制约AI发展的关键瓶颈。

存储侧,AI计算本质上是对海量数据的持续调用与处理,存储也成为直接影响计算效率的重要一环。如何让存储能力与算力规模相匹配,在数据吞吐、访问延迟等维度实现协同优化,是当前基础设施演进中的另一关键命题。

网络侧,无论是计算节点内部互联,还是存储系统自身架构,最终都需要通过网络实现高效协同。所以网络不仅要在带宽、时延等技术指标上持续突破,更需要肩负起计算与存储的有效结合。

“AI基础设施的挑战,已经成为计算、存储与网络三者之间的深度耦合,只有实现‘存算传一体化’,才能最大化算力建设的投入回报。”曙光信息产业(北京)有限公司总裁助理、分布式存储产品部总经理石静说道。

近期,中科曙光发布首款全栈自研400G无损高速网络scaleFabric,该网络基于原生RDMA架构,从底层的112G SerDes IP、硬件设备到上层的管理软件实现100%自主研发。并结合存储系统的超级隧道技术,构建起“算存传一体化”的紧耦合架构,打破传统I/O瓶颈,让国产智算大集群不仅“算得快”,更“算得高效”。


算存传一体化,重塑AI时代的数据供给体系

随着大模型参数规模持续攀升,万卡级算力集群正逐步成为训练的主流形态,这也意味着上万块AI卡需要在高一致性与高同步性的要求下协同运行。

针对这一挑战,中科曙光通过将分布式存储超级隧道技术与自研RDMA网络结合,以算存传强协同进一步突破智算集群效能。具体来看,在硬件层面,为不同数据域配置独享的RDMA网络连接与PCIe通道,并结合NUMA亲和性优化资源分配,避免相互间的并发冲突;在软件层面,实现线程、内存与存储资源的绑定调度。通过软硬件协同优化设计,有效减少网络拥堵和资源竞争,让数据沿最优路径高速流动,为AI计算持续提供高效、稳定且安全的数据供给能力。

要实现“存算传一体化”的深度协同,存储底座必须具备足够的性能支撑。石静谈到,只有在带宽、吞吐、IOPS以及时延等关键指标上全面匹配计算需求,才能真正释放算力效率。

“超级隧道”技术还构建起专属数据通道,以CPU为核心,将计算、内存、网络与存储等关键资源划入独立的数据域,实现资源级隔离与路径优化。每一份数据都在专属的“超级隧道”中传输,高效传输到计算节点,实现计算、存储与网络的一体化协同。

为了让存储与网络更深度地融合,首先“超级隧道”技术利用RDMA高速网络的高性能和低延时的特点,通过独有的虚拟网卡技术,将高速网卡切分为多个虚拟网卡,并实现数据传输,从源头上保障链路利用率。其次是存储和存储、存储和计算之间的连接,结合scaleFabric对内存使用机制进行了优化,在连接建立初期仅分配最小必要内存保障基础通信,在实际运行过程中,再根据链路流量动态分配共享内存资源。

高速网络正加速向更高带宽演进。曙光信息产业(北京)有限公司scaleFabric产品经理纵瑞博指出,2023年无损高速网络还是以100G、200G为主,到近两年400G逐步成为主流。

在这一趋势之下,围绕高性能场景,曙光也逐步形成了清晰的三大优势:

第一大优势在于可以在高性能场景中提供业界最快的存储,像单节点可实现220GB/s带宽与千万级IOPS,这意味着一个存储节点即可支撑数十张GPU在高通量场景下稳定运行:一方面,高带宽能力显著缩短数据加载与切换时间,让GPU将更多资源用于计算本身;另一方面,高IOPS能力则在数据预处理及小文件密集读写阶段提升整体效率,从而优化训练全流程体验。

第二大优势在于存储与网络的一体化国产自研能力。当前主流RDMA网络仍依赖国外生态,在供应与深度优化上存在一定约束,业内能够同时实现存储与高速网络全栈自研的厂商并不多。

曙光通过将国产存储与自研高速网络整合于统一体系内,实现更深层次的协同优化,这也为大规模AI集群的稳定运行与持续演进提供了关键支撑。

万卡集群背后,一套系统跑通训练到推理

在当前内外部环境影响下,国产化已从“可选项”逐步转变为“必选项”,高速网络是算力基础设施的核心关键技术,其自主可控直接关系到国家算力基础设施的安全与发展质量。

曙光实现了全数据链路的国产化,硬件层面,基于国产全闪介质、自研CPU、IO控制器、infiniband网络,打造了从机“芯”、到内部IO链路、到外部高速互联网络的芯片级和固件级国产化;软件层面拥有全部源代码,实现了全面和深度的整系统国产化,全面保障数据安全。

过去,部分关键环节受限于技术成熟度或产业基础,用户即便有国产化诉求,也不得不在一些核心组件上做出妥协。在自研的环境中,存储系统能够实现更细粒度的资源切分与隔离,在保障稳定性的同时,将整体性能发挥到更高水平。

在网络侧,随着高速以太网的发展,行业通过RoCE方案推进国产化替代,在一定程度上满足了用户对自主可控的需求。但从技术特性来看,RoCE在时延等关键指标上与InfiniBand仍存在差距。

石静表示,scaleFabric实质上补齐了国产体系在InfiniBand技术上的空白,随着这一能力的完善,AI基础设施在计算、存储与高速网络等核心环节的国产化版图已经成型,也为后续大规模落地提供了更完整的技术基础。

目前已在国家超算互联网核心节点上线试运行的三套scaleX万卡,总规模达3万卡,全面应用scaleFabric高速网络,并且已经历超过10个月的稳定测试。纵瑞博强调,InfiniBand基本属于零部署、零配置,三套万卡级集群的网络部署上线仅用了36小时,目前累计服务1万个客户、支撑超10万项作业稳定运行。

国家超算互联网核心节点验证了大规模AI训练场景对存储与网络协同能力的需求。

石静介绍,在数据准备阶段,大量文件的解压与写入通常依赖本地存储,曙光通过BurstBuffer等技术,将计算节点侧存储纳入统一缓存体系,使共享存储在小文件处理性能上接近本地盘水平,从而避免数据分散带来的管理与调度复杂度。在训练阶段,TB级数据可在数分钟内完成回写,显著提升训练效率。在推理阶段,还结合了曙光超算互联网能力。最终做到一套系统即可覆盖多阶段业务需求,显著提升了大规模AI集群的运行效率与资源利用率。

“存算传一体化”不只是一次架构升级,更是一种面向AI时代的数据供给方式重构。这一变革,也将持续拉高AI基础设施的能力上限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快讯!巴铁彻底折服了!

快讯!巴铁彻底折服了!

达文西看世界
2026-03-25 10:02:08
心梗去世逐年增多?医生:牢记“3不喝、2不吃、1坚持”,别大意

心梗去世逐年增多?医生:牢记“3不喝、2不吃、1坚持”,别大意

袁医生课堂
2026-01-24 17:33:06
俄国家杜马国防委员会副主席尤里·什维特金因不明原因去世

俄国家杜马国防委员会副主席尤里·什维特金因不明原因去世

山河路口
2026-03-24 17:13:44
越南领导层权力“大洗牌”,新任总理是哪一派人马很关键

越南领导层权力“大洗牌”,新任总理是哪一派人马很关键

牛锅巴小钒
2026-03-25 16:04:26
有人提议:中国可参考俄罗斯做法,不允许日本民航飞机过境中领空

有人提议:中国可参考俄罗斯做法,不允许日本民航飞机过境中领空

南权先生
2026-03-25 15:30:44
新消息!伊朗突然宣布了!

新消息!伊朗突然宣布了!

达文西看世界
2026-03-23 20:29:16
油价一夜突变!3月25日全国油价调整后92/95汽油价格、0号柴油价格最新公布

油价一夜突变!3月25日全国油价调整后92/95汽油价格、0号柴油价格最新公布

沙雕小琳琳
2026-03-25 15:38:00
青岛市市场监督管理局原一级巡视员孙利国接受纪律审查和监察调查

青岛市市场监督管理局原一级巡视员孙利国接受纪律审查和监察调查

半岛官网
2026-03-25 17:24:09
河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

奇思妙想草叶君
2026-03-25 13:12:39
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

慢歌轻步谣
2026-03-26 00:15:02
成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

大象新闻
2026-03-25 17:53:10
金价银价,突然飙升

金价银价,突然飙升

环球网资讯
2026-03-25 10:53:11
山东大胜20分!广东狂胜42分!辽宁输7分,上海赢32分,排名大变

山东大胜20分!广东狂胜42分!辽宁输7分,上海赢32分,排名大变

老吴说体育
2026-03-25 21:52:52
以色列终于破防,伊朗打出开战以来最大规模伤害!

以色列终于破防,伊朗打出开战以来最大规模伤害!

战争史
2026-03-24 11:40:07
曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

观察者海风
2026-03-25 22:10:33
2-2泰国,2人表现亮眼,1人不受主帅待见,球迷:山东泰山好幸福

2-2泰国,2人表现亮眼,1人不受主帅待见,球迷:山东泰山好幸福

我就是一个说球的
2026-03-25 22:19:57
主场32分惨败上海!山西主帅:这是我接队以来,打得最差一场比赛

主场32分惨败上海!山西主帅:这是我接队以来,打得最差一场比赛

狼叔评论
2026-03-25 23:58:05
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
沈万三临终告诫:寻财无需高深本领,牢记这三句话,轻松富甲一方

沈万三临终告诫:寻财无需高深本领,牢记这三句话,轻松富甲一方

千秋文化
2026-02-10 21:02:09
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
2026-03-26 03:40:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17146文章数 49696关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

伊朗:正在搜捕逃亡美军

头条要闻

伊朗:正在搜捕逃亡美军

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰遗产分割复杂!是否立遗嘱成关键

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

家居
旅游
本地
公开课
军事航空

家居要闻

轻奢堇天府 小资情调

旅游要闻

“女王驾到” 上海温室花园高山杜鹃展开幕,中外游客打卡点赞,Beautiful!Amazing!Fantastic!

本地新闻

来永泰同安 赴一场春天的约会

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版