当“414.7亿”这个数字出现在屏幕上的时候,整个实验室都沸腾了。
这不仅仅是一个枯燥的统计数字,它代表着人类首次以第一性原理级的超高精度,在接近真实尺度的微观世界中,成功完成了414.7亿原子规模液态水分子的动力学模拟。更令人振奋的是,完成这一壮举的,是一支纯国产的“梦幻组合”:由中科曙光提供的scaleX万卡超集群,与龙讯旷腾的MatPL-2026.3软件,在国家超算互联网核心节点上携手,将此前由他们自己创造的290亿原子世界纪录,一口气提升了43%。
![]()
在机器学习力场(MLFF)这一科学计算前沿赛道,中国力量再次站上世界舞台中央!这一突破,不仅让全球目光再次聚焦中国科研,更为“AI for Science”的战略布局,提供了坚实硬核的实践支撑。
MatPL:打开量子世界大门的“万能钥匙”
在深入了解这次破纪录背后的技术攻坚之前,我们有必要先认识一下本次的主角之一:MatPL软件。
![]()
如果以我们非专业人士的视角来看,MatPL则显得非常神秘,因为大部分人可能都是首次接触到它。通俗地讲,MatPL是龙讯旷腾自主研发的机器学习力场(MLFF)开源软件包,是AI与材料科学深度融合的核心计算工具。它广泛应用于多晶材料、先进半导体制程、固态电池界面、合金设计、生物大分子等前沿科研与产业场景。MatPL通过学习第一性原理高精度数据构建模型,兼顾了量子级计算精度与分子动力学的超高模拟效率,破解了材料计算领域“精度与规模不可兼得”的行业痛点。
MatPL-2026.3 最新版本在训练效率、并行能力、内存优化上实现全面突破,打破跨节点并行的行业瓶颈,成为本次 414.7 亿原子规模世界纪录模拟的核心软件基石。
突破千卡异构并行计算痛点
理论上,软件准备好了,堆砌更多的计算卡似乎就能解决问题。但现实远比理论复杂。当计算规模从几百卡扩展到4096张异构加速卡时,一系列“拦路虎”便冒了出来。
痛点一:算力的“延迟黑洞”。随着节点增多,数据通信的延迟和带宽瓶颈会成倍放大。如果网络跟不上,算力再多,也只能在无休止的“等数据”中空转,形成吞噬效率的“黑洞”。
痛点二:软硬件的“水土不服”。通用硬件在跑特定科学计算时,往往无法充分发挥潜力。就像一辆顶级赛车,如果轮胎和路面不匹配,再强的发动机也跑不出好成绩。
痛点三:AI与科学的“隔阂”。AI芯片擅长的是低精度的矩阵运算,而科学计算追求的是高精度的物理模型。如何让AI的“特长”服务于科学的“刚需”,是一道世界级难题。
正是这些痛点,让全球绝大多数超算集群徒有“万卡之名”,却难有“万卡之实”。而中科曙光与龙讯旷腾的此次合作,恰恰为破解这一系列难题,交出了一份近乎完美的全自主化答卷。
scaleX万卡超集群:为科学计算定制的“超级引擎”
作为部署于国家超算互联网核心节点的主力算力设施,scaleX万卡超集群绝非算力硬件的简单堆砌,而是一套从底层芯片架构到上层软件适配全链路深度重构的算力系统。目前,该核心节点已完成3套scaleX万卡超集群的落地部署,可对外提供超3万卡的国产AI算力,成为支撑“AI for Science”重大科学工程、筑牢我国科研自主可控算力底座的核心载体。
![]()
首先,scaleX万卡超集群攻克高密度算力集成难题,使其算力密度比肩国际顶尖水平。
长期以来,散热能力是制约计算集群算力密度提升的头号瓶颈。scaleX依托中科曙光自研的浸没式相变液冷技术,彻底打破了这一限制。这套业界公认最高效的散热方案,让集群实现了单柜640张加速卡、860千瓦功耗的惊人集成密度,相较传统数据中心20-40千瓦的单柜通用标准,实现了数十倍的算力密度跃升,整体水平比肩甚至超越国际顶尖同类产品。与此同时,该液冷系统可将数据中心PUE降至1.04,在释放海量算力的同时,保障了数千卡规模并行任务的长期稳定运行,从根本上规避了超大规模科学模拟中因单点硬件故障导致全任务失败的核心风险。
第二,全栈高速互联体系,让每一份算力都用在科研刀刃上。
一直以来,对于超大规模科学计算而言,“堆得起算力”只是基础,“用得好算力”才是核心竞争力。scaleX采用超节点架构设计,搭配国产自研的scaleFabric 400G RDMA高速网络,构建了从卡内、卡间到跨节点的全层级高速互联体系,实现了卡间448GB/s的超高通信带宽,彻底打通了大规模并行计算的通信瓶颈。
本次世界纪录级模拟的实测数据给出了最直观的印证:在4096张异构加速卡全并行运行的场景下,集群整体通信开销仅占4.92%,核心计算占比始终稳定在90%以上,同时实现了高达88%的弱扩展效率。近乎线性的扩展表现,不仅保障了本次超大规模模拟的顺畅完成,更意味着即便后续集群扩容至十万卡级别,算力效能也不会出现大幅衰减,为冲击更高量级原子模拟预留了充足空间。
第三,scaleX可以更好支撑科学计算需求。
不同于面向通用AI训练的算力集群,scaleX从设计之初就锚定前沿科学计算的核心需求。硬件层面,它兼容多品牌国产异构加速芯片,原生支持全系列精度算力覆盖,完美匹配第一性原理计算对精度的严苛要求,真正兼顾了模拟结果的“准”与计算过程的“快”;架构层面,其“存、算、网、管”全栈深度协同的紧耦合设计,大幅降低了科研软件的适配与优化成本,本次与龙讯旷腾MatPL软件的深度协同调优,正是这套架构软硬协同优势的集中体现。
本次刷新世界纪录,也体现了国产软硬件从技术适配、团队协同到平台赋能的全链路深度融合,而非单一环节的单点突破。双方团队不仅基于MatPL软件的核心计算模块,创新性地应用AI芯片的TensorFloat-32算力,将多精度计算的优势发挥到极致,更通过对编译器、数据库等全栈技术的协同优化,让开发者无需编写底层代码,就能充分调用硬件的全部性能潜力。
对于此次国产算力适配的初衷与落地价值,北京龙讯旷腾科技有限公司总经理田洪镇表示,推进国产算力适配,既是应对国际算力封锁的必然选择,也看重其落地可行性与长期产业价值。中科曙光提供的专业转化工具,可将MatPL软件原本基于GPU开发的架构,顺利适配至曙光X86与DCU卡架构,大幅降低了跨平台适配成本;而适配落地后,无论是联合打造软硬件一体化解决方案,还是依托超算互联网架构优化算力服务,都形成了正向循环。优质算力能显著提升软件使用体验,软件的普及应用也能进一步释放国产算力的核心价值,最终实现软硬件双向共赢。
而这套深度适配能够高效落地,离不开“懂行”团队构建的高效协同机制。中科曙光解决方案与创新业务总经理张磊介绍,双方团队均拥有深厚的材料物理专业背景,极大降低了跨领域沟通成本,能够面对面快速对齐算法优化方向与硬件架构优势,形成了高效联动的协同研发机制,为本次技术突破提供了核心保障。
依托国家超算互联网平台,这套世界级的顶尖算力,真正实现了“开箱即用”的普惠化。无论是高校的科研人员,还是企业的研发团队,再也不用砸重金、耗精力自建动辄千万级的超算集群,只要有研发需求,随时随地都能按需调用这套顶尖算力,。曾经仅供国家级实验室的高端超算,彻底走出了象牙塔,变成了人人可及、能真正赋能产业的普惠研发工具。
从能用到好用,国产算力的“质变”时刻
此次414.7亿原子模拟的破纪录成果,绝非单纯的技术指标刷新,更标志着国产算力在科学计算领域,完成了从“能用”“好用”到“世界领先”的关键质变。
它既印证了龙讯旷腾与中科曙光这对国产软硬件“黄金搭档”的强大实力,在AI for Science赛道跑出了令世界瞩目的中国速度;也打通了算力赋能真实科研的落地链路:700多纳米的模拟尺度已能覆盖合金界面、半导体器件、固态电池等前沿领域的真实场景,为科学家提供了原子级精准研发的核心工具;更推动覆盖“算法-算力-应用”全链条的自主科学计算生态初具雏形,未来通过智能体等轻量化入口还将进一步降低使用门槛,为高端算力的普惠化铺平了道路。
![]()
2026年政府工作报告明确提出,要加快算力基础设施高质量建设,完善全国一体化算力网络,强化算力对科技创新的核心支撑,筑牢高水平科技自立自强的坚实底座。本次国产软硬件的协同突破,正是对这一国家战略部署的生动践行。
414.7亿原子的突破,只是一个开始。伴随国产算力集群的升级,原子模拟的“千亿、万亿时代”正加速到来。曾经在全球科学计算赛道奋力追赶的中国算力,正持续为一代代科研人探索微观世界的星辰大海,筑牢了坚不可摧的算力底气。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.