2026年2月5日,郑州上线了国家超算互联网的核心节点,这个设施不是慢慢增加设备边用边建,而是一开始就装好了三套中科曙光的scaleX集群,每套有10240张AI加速卡,加起来总共30720张,这是全国第一个直接满配运行、达到三万卡级别的国家级算力设施,以前人们总说算力不够,这次就直接一步到位,不用再逐步增加了。
这背后有个实际问题,现在训练万亿参数的大模型,光靠堆显卡数量已经不够了,卡多了通信跟不上,数据传着传着就卡住,调度一乱任务分不过来,机器空转浪费电力,郑州这个节点用了四个办法:网络速度特别快,延迟低、带宽高,把计算、存储和传输结合起来,数据流基本不浪费,采用浸没式液冷和高密度机柜,PUE做到1.04,接近理论极限,还做了一个统一调度引擎,三套集群能够互相补位,不是简单相加,而是协同工作。
很多人觉得算力就是比谁跑得快,其实不是这样,真正难的是让任务一直稳定运行,比如气候模拟要连续算几个星期,药物筛选需要反复尝试调整,中间不能停下来,郑州这个节点从一开始设计的时候,就不光追求快,更看重稳定、联通和节省,它要成为全国算力网络的一个支点,一边接着东部的人工智能需求,另一边连着西部的绿色电力资源,就像一个中转站。
![]()
这里有个细节挺有意思,以前国产芯片都是各做各的,比如昇腾、寒武纪、海光这些平台互不兼容,用户换一个平台就得重新写一遍代码,现在scaleX能直接支持不同品牌的硬件混搭使用,还能运行CUDA生态里的模型,已经有四百多个主流大模型适配好了,上千个AI应用也接进去了,这不是技术上的妥协,而是现实需求推动出来的整合方式,因为用户不想为硬件之间的冲突额外付出代价。
实际效果已经出来了,万亿参数模型的整机训练跑通了,中途断电也能恢复,给几家大厂做推理服务,吞吐量提升了超过40%,材料科学那边,一个模型登上国际榜单,蛋白质结构预测速度提高了3到6个数量级,科研团队用OneScience平台建模,周期直接缩短了七成,这些不是实验室数据,是真实使用中的反馈。
我注意到这次"满配上线"不是为了炫耀实力,国家很清楚现在拼的不是单个点的性能,而是整个系统的稳定可靠,三万张卡同时运行,散热供电调度容错都得跟上,能做到这一点说明国产算力确实跨过了"能用"的门槛,开始进入"敢接重活"的阶段了。
有人担心这些卡会不会闲置,目前看来不会出现这种情况,训练任务已经排满,推理需求持续增加,连高校和药企都开始排队申请资源,算力问题不再是讨论有没有,而是研究怎么分配更公平。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.