网易首页 > 网易号 > 正文 申请入驻

国产智算拼图完成!“供数能力”将定义未来竞争

0
分享至

月中旬,中科曙光对外发布scaleFabric:首个国产原生无损RDMA高速网络。智算领域国产化进步速度令人惊叹的同时,也让人们自然关注到另一个价值点,这套高速网络是如何被用起来的——在大模型训推的真实负载下,计算、存储与网络能否被拧成一股绳。



曙光信息产业(北京)有限公司总裁助理、分布式存储产品部总经理石静,在近期一次采访中表示:AI基础设施真正的挑战并不在于哪一块更强,而在于计算、存储和网络三方的协作能力——“最大的挑战就是怎么把这三块强耦合起来,能够让咱们用户的投资和建设的回报率是最高的。”

这也是“算存传一体化”在今天重新变得重要的原因:它不追求把三者物理合并,而是在落地项目里回答一个更实际的问题——如何让数据持续、稳定、低损耗地喂给算力,让昂贵的算力尽可能少地等待,以提升利用率。

GPU足够昂贵,这让更多的讨论天然聚焦在“堆卡”和“上更大模型”方面。但在工程实践中,训练效率的上限常常先撞上另一堵墙:数据通道是否足够通畅、可预测、可规模化。你可以买到更多的卡,却未必能买到同样确定性的“供数能力”。

scaleFabric更像一枚照明弹。它照亮的并不是网络本身,而是一个正在发生的全局变化:存储正在从过去的“容量工程”,走向与计算、网络强协同的“系统工程”。在大模型时代,基础设施竞争越来越像一场关于数据通道的竞赛——数据从哪里来、如何被组织、如何被传输、如何在拥塞与抖动中保持节奏——而它,最终也决定了昂贵的算力投入,是否真的“值回”投入。



存储成为智算中心的“关键变量”

训练与推理改变了数据的流动方式:数据不再是偶尔被读取,而是被持续吞吐;不再只是大文件的顺序读写,而是叠加了数据准备阶段的大量小文件、训练过程的高频访问、checkpoint的周期性大回传,以及推理侧对低时延与稳定性的长期要求。

当训练进入万卡乃至更大规模时,系统对“持续供数”的容忍度会急剧下降。一次短暂丢包、一次抖动带来的长尾时延,都会被放大成算力利用率的下降——瓶颈于是从“堆GPU”转移到“数据供给”:带宽能不能稳定兑现?拥塞发生时路径是否可控?资源争用能否隔离?在这些问题上,存储不再是通道里的一个节点,而更像通道的源头与秩序制定者。

一体化的本质:物理分离,逻辑强协同

“算存传一体化”很容易被误读成把计算、存储、网络“做成一台机器”。但在真正的工程里,三者在物理上依然分离,必须在逻辑上实现强协同。

在曙光的技术叙事里,协同的抓手被固定得很具体:一端是“超级隧道”,用数据域的方式把CPU、内存、网络、SSD等与数据相关的关键资源,纳入一个更可控的范围;另一端是自研RDMA无损网络,把存储到计算的路径变成更可预测的高速通道。

前者解决的是隔离与亲和性,后者解决的是时延与无损,合在一起,大模型训推所追求的“协同”,才能最终落地。



“超级隧道”的关键不在于概念,而在于它把系统里那些最容易互相争抢的资源提前“分域”。

在硬件层面,各数据域可以拥有独享的RDMA网络连接和PCIe通道,并在NUMA亲和性上做优化分配;在软件层面,线程、内存与存储资源的绑定调度,让不同负载之间的并发冲突更少发生。对于大规模训练而言,这类隔离机制的价值往往不体现在峰值跑分上,而体现在“更少的拥塞、更少的抖动、更少的长尾”。

在智算中心里,最理想的状态是:数据路径可预测、关键业务有保障、资源争用可隔离、扩展规模不引入不可控的因素。因此,单点性能只是起点,更难的是在稳定的基础上,让单点性能转向规模化。

存储底座的硬度:性能、稳定与规模化的连锁反应

存储的“硬”,首先来自性能层——带宽、IOPS、时延这些指标最终会左右GPU的数据供给。训练任务并不会因为买了更快的卡,就自动加速,它需要一条持续供数的通道。实践中,算力表现不是在GPU上消失的,而是在数据路径上被“堵车”卡住的。

因此,智算真正难在工程层。大量任务并发、数据模式复杂、访问特征多变,系统需要的不只是“峰值”,更是“可控”。

曙光在存储侧强调的“超级隧道”,更接近一种数据域的工程方法:围绕资源切片、隔离与亲和性优化去重塑数据路径,让不同任务、不同数据域之间的争用边界更清晰,让关键路径在拥塞发生时依然可预期——存储要承担的不只是“存得下”,更是数据“喂得稳”。

规模化是另一道门槛。大集群不是把设备堆大那么简单,随着集群变大,给计算侧“喂数据”的复杂度,会呈现非线性的增长。

完全静态占用内存,会为峰值付出长期成本;完全动态调整,又可能在抖动里牺牲稳定。更现实的解法往往是预分配少量资源、动态共享其余,在关键路径的确定性与整体资源利用率之间找到平衡。能否把这种平衡做成体系,决定了系统在规模扩张时还能否保持同样的传输规则。

把确定性交给数据通道

回到scaleFabric技术本身,它的价值在于能否把存储能力放大成可兑现的系统能力。

事实上,scaleFabric并不只是交换机与链路速率的升级,它从底层112G SerDes IP、硬件设备到上层管理软件实现了100%自主研发。更重要的是,这条自研RDMA无损网络与“超级隧道”形成了协同关系:数据域里被隔离、被优化的资源,只有在一条低时延、可预测的无损通道上,才能把稳定性兑现到存储和计算之间。

网络侧的可预测,常常来自两个细节:其一是无损与低时延,让数据通道更像一条稳定的工程管道,而不是忽快忽慢的“高速公路”;其二是围绕连接规模的工程设计。

石静在采访中举过一个很现实的例子:万卡乃至更大规模集群会把连接数推到一个很难用静态方式管理的量级,如果一开始就给每条连接分配同样的内存,“有可能导致什么业务也没跑,就已经把计算节点和存储资源CPU的内存资源给耗尽了。”

因此在连接建立与内存分配上,更需要“预分配少量+动态共享”的方式,既保证服务能用起来,也避免资源在空载时被占死。对超大规模智算集群而言,这类细节往往决定了部署与运行的稳定边界。

与此同时,“全栈国产化”被放在了与性能同等重要的位置。目前,曙光分布式存储已经在硬件层面基于国产芯片、国产IO控制器与国产全闪介质构建,并与高速互联网络形成完整架构;在软件层面拥有完整源代码,实现基础架构与软件栈的自主可控。

对智算中心而言,这不仅是安全与供应链层面的选择,也意味着软硬件协同优化可以做得更深:当存储、网络、计算需要强耦合时,系统级优化空间往往来自“能把底层细节握在自己手里”。



这样的落地实践,在位于郑州的国家超算互联网核心节点上能看到更清晰的形态。公开信息显示,该节点已部署试运行3套中科曙光scaleX万卡超集群,全面覆盖万亿参数模型训练、高通量推理、AI for Science等大规模AI计算场景。存储、计算与高速网络在其中协同运行,支撑大规模作业的持续、稳定运转。

曙光信息产业(北京)有限公司scaleFabric产品经理纵瑞博透露,郑州项目“从第一台交换机上电到最终的交付到上线,一共花了36小时左右”,上线后“一个半月了,非常稳定”。对智算中心而言,这种“交付速度+运行稳定性”本身就是系统工程能力的外在表现。

在智算中心里,算力看起来最昂贵,但存储决定昂贵是否值得。当行业从“拼算力”走向“拼效率”,决定胜负的往往不是某个单点参数,而是那条看不见的数据通道是否足够坚硬、足够稳定、也足够聪明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杜锋:每支球队都会起伏,可能我们受关注程度更高话题也最多

杜锋:每支球队都会起伏,可能我们受关注程度更高话题也最多

懂球帝
2026-03-23 12:11:05
能源危机爆发全球恐慌!中国为什么淡定从容?三张好牌在手不怕

能源危机爆发全球恐慌!中国为什么淡定从容?三张好牌在手不怕

军评陈光文
2026-03-23 21:42:27
日媒统计得出:中国将成全球第一个,不需要引进任何武器的国家!

日媒统计得出:中国将成全球第一个,不需要引进任何武器的国家!

带你领略快乐真谛
2026-03-23 21:32:18
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
A股:不用等待周二开盘,行情已经有变化,明天很可能将这样走

A股:不用等待周二开盘,行情已经有变化,明天很可能将这样走

财经大拿
2026-03-23 14:51:55
1980年陈景润悔婚惊动中央领导,妻子含泪说道:婚后我绝不妨碍你

1980年陈景润悔婚惊动中央领导,妻子含泪说道:婚后我绝不妨碍你

历史甄有趣
2026-03-19 13:35:11
中餐正在征服全世界?骗你的

中餐正在征服全世界?骗你的

食味艺文志
2026-03-22 16:55:17
广东惨败上海,三大内线直接被完爆,广东毫无任何战术可言,陈家政直接被雪藏

广东惨败上海,三大内线直接被完爆,广东毫无任何战术可言,陈家政直接被雪藏

凯丰侃球
2026-03-23 21:42:47
官媒曝光!成本20块卖899块,暴利45倍!网友:智商税

官媒曝光!成本20块卖899块,暴利45倍!网友:智商税

素衣读史
2026-03-23 16:09:58
陈锦鸿18岁自闭症儿子罕露脸,公开演出成钢琴家,陈锦鸿一脸自豪

陈锦鸿18岁自闭症儿子罕露脸,公开演出成钢琴家,陈锦鸿一脸自豪

八斗小先生
2026-03-22 10:40:36
11场轰入10球!皇马1.5亿巨星爆发,率队踢爆曼城,掀翻马竞

11场轰入10球!皇马1.5亿巨星爆发,率队踢爆曼城,掀翻马竞

足球狗说
2026-03-23 06:33:38
黄埔四期被遗忘的名将:战功不输张灵甫,却装老农从淮海全身而退

黄埔四期被遗忘的名将:战功不输张灵甫,却装老农从淮海全身而退

云端小院
2026-03-23 08:28:16
“梅姨”如何落网?专案组首次披露案件细节!

“梅姨”如何落网?专案组首次披露案件细节!

看看新闻Knews
2026-03-23 18:13:01
一条项链7个亿!2亿人极端贫困背后,首富之女戴巨钻亮相奥斯卡

一条项链7个亿!2亿人极端贫困背后,首富之女戴巨钻亮相奥斯卡

兴史兴谈
2026-03-22 21:36:46
机车网红“黄油腻”身亡,现场惨烈,两度不听劝,车企称帮养孩子

机车网红“黄油腻”身亡,现场惨烈,两度不听劝,车企称帮养孩子

深海的秘密
2026-03-22 18:31:37
收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

做一个合格的吃瓜群众
2026-03-23 11:28:43
5天5夜死战不退!这位少尉一战封神,荣获“乌克兰英雄”!

5天5夜死战不退!这位少尉一战封神,荣获“乌克兰英雄”!

老马拉车莫少装
2026-03-21 00:55:13
学医后才知道,保护心血管最好的运动,不是慢跑快走,而是这个

学医后才知道,保护心血管最好的运动,不是慢跑快走,而是这个

医学科普汇
2026-03-23 21:55:03
为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

另子维爱读史
2026-03-22 22:34:48
中国导弹到位后,武契奇转头邀北约军演,邻国急了:谁在威胁谁?

中国导弹到位后,武契奇转头邀北约军演,邻国急了:谁在威胁谁?

浪子阿邴聊体育
2026-03-22 21:24:57
2026-03-23 22:32:49
IT创事记
IT创事记
创见科技未来
699文章数 1610关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

伊朗媒体列出中东11个"目标":包括海水淡化站和核电站

头条要闻

伊朗媒体列出中东11个"目标":包括海水淡化站和核电站

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

钟丽缇就女儿考拉争议道歉:女儿还小

财经要闻

市场见底了吗?谁在抛售?机构火线解读

汽车要闻

"拒绝"豪车税 新款Panamera尽享版99.8万元起精准入局

态度原创

健康
旅游
手机
教育
数码

转头就晕的耳石症,能开车上班吗?

旅游要闻

【“中国游记”第二季㉕】当老外闯进中国田园画卷,直接不想走了!

手机要闻

OPPO K15系列突然入网:双芯+标配主动散热,四月初发布

教育要闻

物化生550分—620分:适合女同学的三大黄金专业,就业高薪且稳定

数码要闻

华为向第一代智慧屏老用户推出福利活动:含免费送装定制画框等

无障碍浏览 进入关怀版