![]()
在中国超级算力大会上,一个朴素却经常被忽略的认知再次被强调:决定可用算力上限的,不是单张加速卡的峰值指标,而是成千上万张卡如何被稳定、高效地连在一起。
会中,钱德沛院士、郑纬民院士、张云泉研究员、何宝宏所长等共同发布了《2025中国算力发展之AI计算开放架构研究报告》。该报告由单志广、张云泉、何宝宏、张广彬牵头编著指导,用三个关键词概括了这一历史侧认知的转向——开放、互联、融合,并在报告中完整阐释了这种变化发生的动因。
![]()
其实这一点上,早前的Grok 3训练,就是对全球AI产业的一次标准示范:大模型竞争的终点线,是“集群效率”而非“单卡算力”。
事实上,这种转向不只是技术选型的变化,更是一种产业方法论的升级:当模型规模、数据载荷与应用复杂度同时增长,系统级效率就会被放大为时间与成本的代名词。报告明确提出,面向更大规模的训练与推理,算力体系必须从“单点最强”转向“系统均衡”,从硬件指标转向软硬协同,从封闭堆叠转向开放生态。
这意味着,产业的认知已经达成共识:下一代智算基础设施不应只在单点性能上“堆料”,而要回到系统工程的基本面:把通信域规划清楚,把数据路径打通,进而把系统的运行状态管起来。
定位与首创:把“超节点”收拢到一柜
趋势的认知不止体现在研究报告的前瞻里,市场已经用方案创新呼应了专家的观点。在此前2025世界互联网大会乌镇峰会期间,中科曙光展出了首个开放架构单机柜级640卡超节点scaleX640。
![]()
scaleX640选择把“超节点”的边界收拢到单机柜,形成世界首个单机柜级640卡超节点——与其说它是一处“强算力岛屿”,不如说它是一块“高质量通信域”。
走近scaleX640的组织方式,可以看到一种自下而上的秩序。scaleX640超节点采用高密“一拖二”架构与超高速正交互联,在单柜内完成640卡的超高速总线互连,先把强依赖的通信“关在柜内”。
![]()
在这个“以柜为域”的范围内,带宽更充足、时延更可控、抖动更可预期,昂贵且脆弱的跨柜通信也因此被显著降低。面向万亿参数训练、混合专家(MoE)以及高通量推理等对吞吐与稳定极度敏感的场景,这样的设计比单纯追逐单卡峰值更现实——它把工程复杂度关在了可管理的边界里,把不确定性留在了域外。
它强调“近场优先”:把强依赖的通信就地解决,缩短关键路径,减少跨层级跳数与拥塞,降低尾部延迟;与此同时,把并行策略、通信栈、任务编排放到同一个控制面上思考,让算子映射更贴合拓扑,让路由与缓存更亲和计算,让关键链路获得明确的优先级。结果不是某一处的“漂亮数值”,而是在长时间窗口内稳定、可重复的产出曲线。
通过软硬协同全局优化,相较传统架构,MoE大模型训练效率与高通量推理吞吐性能大幅提升30-40%。
工程层面上,scaleX640超节点以浸没相变液冷与高压直流供电配合高密架构,把能效降低到了PUE 1.04,同时CDM液体冷凝换热装置更是为千卡级计算单元,提供了最高1.72MW散热能力。
值得关注的是,可运营性在这一代基础设施里被前置成为设计目标。从单机RAS特性出发,scaleX640超节点把可靠性延伸到集群层面的智能运维与故障恢复。据介绍,在高负载工况下,系统已经完成了30天以上的长稳运行验证。对于需要滚动训练与在线推理并存的业务来说,这种确定性本身就是生产力:它决定了在较长时间窗口里,系统能否稳定、可预期地产出,而不是偶尔“漂亮”一次的峰值跑分。
如果把这些设计内容抽象为方法论,scaleX640超节点更像一个可复制的“系统工程单元”。以柜为最小强一致通信域,优先就地放置强依赖算子与路由;用拓扑感知的并行划分减少跨域代价;让调度与缓存策略去抑制长尾与抖动,最终保证集群整体的服务性能、稳定性和可预测性。
联合体协同:scaleX640超节点的生态承诺
开放决定了这条路径能走多远。scaleX640超节点基于AI计算开放架构,支持多品牌AI加速卡,全面兼容主流AI计算软件生态,已适配优化400+主流大模型,便于模型与业务的快速迁移与深度优化。
![]()
在中国超级算力大会上,中科曙光以常务理事成员单位身份加入九源智能计算系统生态联合体(China9S Intelligent Computing Ecosystem Alliance, China9S ICEA)。它是由国内智能计算系统领域企事业单位、高等院校、科研院所、社团组织及行业用户等,基于自愿、平等、互利、合作原则结成的跨行业、开放性、非营利性社会组织。
这一动作与scaleX640超节点的开放路线实现了同频——联合体以“产学研用服”协同为核心,面向国产智能计算系统建设、软件生态统一与技术成果转化,目标是在统一的软件栈与开放标准之上,推动大规模应用的落地与可持续演进。
对于中科曙光而言,加入九源意味着把产品层面的开放,进一步上升为生态层面的协同,从接口规范、软硬件适配验证到工具链与人才培养,形成跨机构的长期承诺。
值得注意的是,中科曙光与“九源”智能计算系统生态联合体同频,对于共同推进国产智能计算系统建设与软件生态统一是一大利好,因为这种联合事实上是把规模化部署中的不确定性尽量前置并完成消解。对于使用者,开放意味着“选择权”与“可持续”;对于提供者,开放意味着对接口、兼容性与工具链持续而严格的工程纪律。
对于产业发展而言,这种联合意味着中科曙光把标准与兼容性问题前移:在联合体机制下,通过统一的软件栈路线与适配验证,减少大规模部署中的不确定性与重复集成成本。
同时,这种生态级的努力也将带来成果与能力的共享:联合体提供协同创新与资源共享平台,让来自高校、企业与研究机构的工程能力和方法论可以在更大的产业范围内复用。
当然,整个产业还将因此获得长远收益,也就是长期演进的确定性:当硬件器件与模型生态不断演进,九源的共同体机制为应用方保留了“迭代的权利”,也要求供给侧对接口稳定性与生态一致性承担更强的工程责任——这是推动生态进化到“多赢”状态的必要条件。
就像scaleX640超节点作为产品方案,把最复杂的连接问题前置解决,让扩展、运维与升级建立在“可预测”的秩序之上一样。这种生态级的合力,同样把对“单点峰值”的期盼,转向了通过产业组织能力落地,来获取更稳、更久的生产力提升。
扫描二维码,下载报告电子版
![]()
—— 越看越精彩 ——
【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.