网易首页 > 网易号 > 正文 申请入驻

迈向Z级计算:Cloud4Science范式加速科学发现进程

0
分享至

编辑 |X_X

传统超级计算机作为科学计算的核心支柱,在推动技术进步方面发挥了不可替代的作用,但随着科学智能时代下需求的多样化和复杂化,其扩展性和能效的局限逐渐显现。

针对这一挑战,微软亚洲研究院的研究员提出了 Cloud4Science 的新范式,以云计算、人工智能和高性能计算技术的深度融合为核心,重新定义科学计算的架构,加速科学智能的研究进展。

在此框架下,研究员们已对关键科学计算算法如 Stencil、FFT、SpMV 等进行了优化,并成功开发了一系列创新算法,为科学家利用云计算及人工智能平台进行科学计算和研究开辟了新的途径。

相关工作已连续发表在 SC、PPoPP 等高性能计算与并行计算领域顶会,并获得了 PPoPP’24 唯一最佳论文奖。

在刚刚落幕的国际超算大会 SC’24 上,最新揭晓的戈登贝尔奖获奖应用成功突破了 E 级计算的瓶颈,标志着超级计算机应用正式迈入下一个关键阶段——万 P 级计算(每秒千亿亿次浮点运算)。作为高性能计算(HPC)的巅峰代表,超级计算机长期以来一直是推动科学和技术进步的重要力量。

科学计算作为超级计算机的核心应用领域,利用其强大的计算能力,通过数值模拟、数据分析和数学建模,旨在解决科学、工程和技术中的复杂问题,在揭示自然规律、预测未知现象以及推动技术创新中发挥着不可或缺的作用。

然而,随着科学智能(AI for science)时代的到来,超级计算机在追求更高性能的同时,也面临着一些新的挑战:

  • 架构碎片化:各超算系统采用不同的硬件架构和编程模型,科学应用需要复杂的定制化适配才能运行。这不仅限制了科学应用的多样性,还难以兼顾传统科学计算与智能计算的双重需求。
  • 开发难度高:科学智能时代强调多学科、多技术领域的交叉与协作。不同的超级计算机架构不仅增加了软件开发和维护的复杂度,开发者还需要不断重新学习并掌握跨领域的专业知识,阻碍了科学研究的灵活性和快速推进。
  • 能耗与成本压力:当前 E 级超算每年耗电可达上亿度,未来 Z 级超算能耗可能更高。同时,系统更新换代成本巨大,应用需重新设计和部署,进一步增加了科研投入的时间和经济成本。

「传统科学计算的优势在于数值求解,通过高精度计算模拟复杂的物理过程。然而,随着问题规模的快速扩大和计算复杂度的持续攀升,单纯依赖数值求解的模式难以充分释放未来万 P 级甚至 Z 级超算的全部潜力。」微软亚洲研究院高级研究员李琨表示,「科学计算正在从传统数值求解向融合知识推理的科学智能转型。通过将高性能计算技术与未来的 Z 级算力结合,全面支撑科学智能时代对极限计算和智能推理的双向扩展需求,才会为更多突破性发现提供全新的可能性。」

Cloud4Science 范式加速科学计算进程

为了应对这些挑战,微软亚洲研究院的研究员提出了 Cloud4Science 范式,希望通过融合现有的云基础设施、人工智能和高性能计算技术,重塑科学计算的模式。这一范式为传统超算范式提供了有效的补充,也为科学智能提供了一种更加灵活、高效且可扩展的解决方案。

「Cloud4Science 范式通过将科学计算任务迁移到云平台或人工智能架构上,实现了计算架构的统一,降低了科学计算的访问门槛。」微软亚洲研究院首席研究员曹婷表示,「这使得科研人员能够在单一平台上使用多种算法和应用,同时,云平台和人工智能的强大算力也将大幅提升科学计算效率,为未来的科学研究与计算应用开辟新的可能性。」

为了实现 Cloud4Science 范式,研究员们计划分两个阶段来推进:

Cloud4Science:融合云计算、AI 与高性能计算,驱动科学智能新未来

第一阶段是以问题为导向,从算法角度对传统科学计算进行迁移,确保这些计算任务能够在云计算或人工智能硬件架构上顺利运行。这一阶段的核心任务是将经典的科学计算算法,如 Stencil、FFT(快速傅里叶变换)、SpMV(稀疏矩阵-向量乘法)等,转换为基于矩阵乘法的计算模式,以便充分利用云计算和人工智能的强大计算能力。通过这一转化,传统科学计算算法的性能得以显著提升,同时大幅降低了科学应用对硬件适配的复杂性,并为下一步科学计算的智能化奠定了基础。

第二阶段的目标是推动科学计算算法与人工智能的深度融合。传统的科学计算算法更注重数值计算,而科学智能则强调推理能力的提升。科学计算模型与大语言模型虽然在某些方面可以互相借鉴,但二者之间存在显著差异。科学计算模型通常包含大量的物理信息和生物信息,这些专业知识需要被有效地整合到算法设计中。因此,这一阶段的任务是设计融合传统科学计算模型与人工智能技术的创新解决方案,通过人工智能技术有效整合领域知识、生成洞见并促进科学创新,充分利用云原生和人工智能原生架构的优势,进一步推动 Cloud4Science 范式的发展。

传统科学算法向云计算与人工智能硬件的无缝迁移

目前,第一阶段的研究目标已经基本完成,即实现传统科学计算算法向云计算和人工智能硬件的无缝迁移。

研究员们从 Stencil 算法入手,设计了全新的算法 Jigsaw 和 ConvStencil,将 Stencil 算法向量化并重新张量化成矩阵乘法模式,使 Stencil 算法成功映射到 Tensor Core 等人工智能加速器硬件单元。

随后,研究员们又引入了人工智能驱动的低秩适应(Low-Rank Approximation,LoRA)技术,进一步优化 Stencil 性能,推出了 LoRAStencil 以及融合三种经典算法的 FlashFFTStencil,这些创新让多种科学计算算法能够更高效地部署在人工智能加速单元上,实现性能的显著提升并同时降低了硬件适配的复杂性。

扩展矩阵计算边界,连接科学与 AI 硬件

为突破科学计算的性能瓶颈,研究员们提出了ConvStencil[1],通过将传统的科学计算算法映射为矩阵乘法,进一步扩展了矩阵计算的应用边界,为科学计算与 AI 硬件的高效协同奠定了坚实基础。

基于 Stencil 算法与人工智能领域广泛应用的卷积计算模式有着相似之处,研究员们专门开发了一套针对 GPU Tensor Core 的优化算法,使得其能够充分利用 Tensor Core 强大的矩阵计算能力。

通过引入布局转换与冲突消除机制,ConvStencil 不仅显著提升了科学计算与云计算及人工智能硬件的兼容性,还促进了科学计算从传统的 CPU 计算向现代 GPU 计算的顺利过渡。

基于矩阵乘法的 ConvStencil 计算系统(PPoPP’24 唯一最佳论文奖)

为了实现内存访问效率的大幅提高,研究员们在 ConvStencil 的基础上设计了 LoRAStencil[4],通过融入 LoRA 技术,巧妙地结合了数据的低秩特征与计算需求。利用分解权重矩阵,优化数据的加载与复用过程,LoRAStencil 有效减少了不必要的内存访问,解决了维度残差问题。

实验评估显示,LoRAStencil 相比现有技术,性能提升最高可达2.16倍。LoRAStencil 为在 Tensor Core 单元上实现高效的张量化 Stencil 计算开辟了新的途径,使其在科学计算中能发挥更大作用。

尽管 Tensor Core 单元在处理人工智能任务时表现出色,但在处理如 Stencil 这样涉及大量稀疏数据的高性能计算算法时,仍面临计算资源利用率不高和内存带宽受限的问题。

为了解决这些挑战,研究员们创造性地将 Stencil、FFT 和矩阵乘法三种经典科学计算算法融为一体,提出了更为高效的 FlashFFTStencil 计算系统[3]。

实验结果证实,FlashFFTStencil 实现了无稀疏性的边界转换,其性能较现有最先进的技术平均提升了 2.57 倍。

FlashFFTStencil 在实现了多种科学计算算法统一的同时,还成功地将这些算法与 Tensor Core 单元等先进的人工智能硬件连接起来,为科学计算的未来发展提供了新的可能性。

基于全稠密矩阵计算的 FlashFFTStencil 系统

时空数据向量对齐,提升CPU 计算效率

Jigsaw 算法[5]专注于 Stencil 算法的向量化,通过采用基于通道的蝶形向量化、基于奇异值分解的维度展平(SVD-based Dimension Flattening)技术以及基于迭代的时间合并策略,有效解决了空间和时间维度上的数据对齐冲突(Data Alignment Conflict, DAC)问题,大幅提升了科学计算在 CPU 上的效率。

实验结果显示,在多种测试环境中,Jigsaw 相对于当前最先进的技术平均实现了2.31倍的加速效果,适用于广泛的 Stencil 内核。

在此基础上,研究员们还对另一种重要的科学计算算法——稀疏矩阵-向量乘(Sparse Matrix-Vector Multiplication, SpMV)进行了深入优化,提出了 VNEC 算法[6]。

这是一种创新的 SpMV 存储格式,旨在优化数据局部性和向量化操作,同时缓解现有算法的局限性。VNEC 通过剔除冗余列和改进数据局部性,大幅度减少了内存访问开销,增强了向量计算的效率。

实验表明,在多核处理器环境下,VNEC 在 x86 CPU 上相较于标准 MKL SpMV 例程最高实现了 6.94 倍(平均 2.10 倍)的加速,在 ARM CPU 上的加速比最高可达 5.92 倍(平均 1.73 倍)。

由于 VNEC 格式转换的预处理成本较低,特别适用于实际的迭代应用场景,展现出了极高的实用价值。

Cloud4Science 范式在量子化学中的实践探索

为了验证 Cloud4Science 范式能否为科学计算带来更好的性能提升,微软亚洲研究院的研究员们与微软研究院科学智能中心(Microsoft Research AI for Science)团队合作,共同开发了一种端到端的优化编译器 EPT(Elastic Parallel Transformation)[2]。利用弹性并行转换技术,EPT 可以把传统的科学计算算法,特别是从头算量子化学计算,自动适配至 GPU 架构。因此,EPT 能够将复杂的量子化学问题分解为适合并行处理的单元,优化任务的划分粒度,并生成专为 GPU 架构优化的高效计算内核。

弹性并行转换(EPT)编译器系统框架图

通过在多种 GPU 硬件(如 NVIDIA V100、A6000、A100 等)上对13种具有代表性的分子进行测试,实验结果显示,EPT 在保证从头算精度的前提下,相较于现有的顶级 CPU 和 GPU 解决方案,性能分别提升了高达34.90倍和9.89倍。

通过 Cloud4Science 范式,量子化学研究的计算效率和精度得到了显著提升,这为加速新材料开发、药物设计和基础科学探索提供了坚实的技术基础。

Cloud4Science 范式推动 HPC 领域变革,加速科学研究发现

在科学研究迈向智能时代的进程中,矩阵计算正逐渐成为连接传统数值计算与科学智能的关键桥梁,而 Cloud4Science 范式凭借其 Z 级计算潜力,不但为科学在时间和空间尺度上带来了质的飞跃的可能,同时也为科学计算向智能化与推理驱动方向的演进注入了动力。

以量子化学为例,Cloud4Science 不仅能缩短计算周期,将复杂分子相互作用的模拟时间从数年压缩至数周甚至数天,还能通过矩阵计算与 AI 推理的融合,使得系统能够基于海量计算数据进行模式识别与智能推理,例如预测药物分子与蛋白靶点的相互作用趋势,自动发现可能的抗性突变路径。

正如个人计算机从单机时代迈入云计算时代,彻底革新了信息处理的广度与效率,未来 Cloud4Science 范式的成功应用也有望在人工智能时代为高性能科学计算带来新的变革。

通过融合云计算的可扩展性、AI 的智能决策能力以及高性能计算技术,Cloud4Science 将在未来迈向 Z 级计算的过程中,实现科学计算在极限求解与智能推理两大方向的双向突破,赋予科学智能更强的灵活性、更高的效率与更广泛的可扩展性,为科学研究带来新的创新动力与发展空间。

「Cloud4Science 新范式将显著降低高性能计算基础设施的开发成本,并提升其对科研人员的易用性。」曹婷表示,「尤其是对于那些资源有限的小型研究团队或初创企业而言,这一范式将赋能他们获取 E 级乃至万 P 级科学计算的潜力。这意味着更多的科研工作者可以参与到之前仅限于顶尖机构和大型企业才能涉足的前沿科学计算研究中,极大地拓宽了科学研究的边界,加速科学发现的步伐。」

相关文献

1. [PPoPP'24, [Best Paper Award]]Yuetao Chen, Kun Li *, Yuhao Wang, Donglin Bai, Lei Wang, Lingxiao Ma, Liang Yuan, Yunquan Zhang, Ting Cao, Mao Yang. ConvStencil: Transform Stencil Computation to Matrix Multiplication on Tensor Cores.

https://doi.org/10.1145/3627535.3638476

2. [To be appeared]Tuowei Wang, Kun Li *, Donglin Bai, Fusong Ju, Leo Xia, Ju Ren, Yaoxue Zhang, Ting Cao, Mao Yang. Matryoshka: Optimization of Dynamic Diverse Quantum Chemistry Systems via Elastic Parallelism Transformation.

https://arxiv.org/abs/2412.13203

3. [PPoPP'25]Haozhi Han, Kun Li *, Wei Cui, Donglin Bai, Yiwei Zhang, Liang Yuan, Yifeng Chen, Yunquan Zhang, Ting Cao, Mao Yang. FlashFFTStencil: Bridging Fast Fourier Transforms to Memory-Efficient Stencil Computations on Tensor Core Units.

https://www.likun.tech/pdf/ppopp25_FlashFFTStencil.pdf

4. [SC'24]Yiwei Zhang, Kun Li *, Liang Yuan, Jiawen Cheng, Yunquan Zhang, Ting Cao, Mao Yang. LoRAStencil: Low-Rank Adaptation of Stencil Computation on Tensor Cores.

https://doi.org/10.1109/SC41406.2024.00059

5. [PPoPP'25]Yiwei Zhang, Kun Li *, Liang Yuan, Haozhi Han, Yunquan Zhang, Ting Cao, Mao Yang. Jigsaw: Toward Conflict-free Vectorized Stencil Computation by Tessellating Swizzled Registers.

https://www.likun.tech/pdf/ppopp25_Jigsaw.pdf

6. [IPDPS'24]Luhan Wang, Haipeng Jia, Lei xu, Cunyang Wei, Kun Li , Xianmeng Jiang, Yunquan Zhang. VNEC: A Vectorized Non-Empty Column Format for SpMV on CPUs.

https://ieeexplore.ieee.org/document/10579118

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!中国籍美发店老板在西班牙被捕,涉嫌向哈马斯转移百万欧元

震惊!中国籍美发店老板在西班牙被捕,涉嫌向哈马斯转移百万欧元

老马拉车莫少装
2026-01-31 01:17:09
中国金币集团提醒!理性参与投资,注意管控风险

中国金币集团提醒!理性参与投资,注意管控风险

每日经济新闻
2026-01-29 16:46:11
中英谈妥了,斯塔默当着中方的面,就港台问题做表态,态度不一般

中英谈妥了,斯塔默当着中方的面,就港台问题做表态,态度不一般

书纪文谭
2026-01-31 12:36:13
初中各科淘汰的规律:数学满分120,考不到110分的,重高基本没戏

初中各科淘汰的规律:数学满分120,考不到110分的,重高基本没戏

好爸育儿
2026-01-31 19:33:28
李嘉诚在巴拿马的两个港口,鸡飞蛋打

李嘉诚在巴拿马的两个港口,鸡飞蛋打

基本常识
2026-01-31 22:38:45
郭艾伦仅6分赛季最低!广州丢绝平难阻山东15战13胜 高诗岩14+7

郭艾伦仅6分赛季最低!广州丢绝平难阻山东15战13胜 高诗岩14+7

醉卧浮生
2026-01-31 21:38:59
白银,暴跌!黄金,40年最大跌幅!

白银,暴跌!黄金,40年最大跌幅!

数据宝
2026-01-31 08:13:17
港口交易生变?巴拿马港口运营合同被裁定违宪,李嘉诚旗下长和股价大跌!香港政府:强烈不满,企业应认真审视其现时及未来在当地的投资

港口交易生变?巴拿马港口运营合同被裁定违宪,李嘉诚旗下长和股价大跌!香港政府:强烈不满,企业应认真审视其现时及未来在当地的投资

每日经济新闻
2026-01-31 00:00:09
乌龙球登顶阿森纳队内射手榜!24场5球,再入1球将平队史纪录

乌龙球登顶阿森纳队内射手榜!24场5球,再入1球将平队史纪录

奥拜尔
2026-02-01 00:26:24
太残暴!白银史诗级大崩盘,大v做空1天赚120万?分析师:金属盛宴结束

太残暴!白银史诗级大崩盘,大v做空1天赚120万?分析师:金属盛宴结束

金石随笔
2026-01-31 09:58:47
听说忠臣孝子的命更贵?

听说忠臣孝子的命更贵?

走读新生
2026-01-29 16:12:34
重庆一中学家委会负责人要求每人交263.3元,再换成现金给班主任且使用明细不公示 ,家长报警

重庆一中学家委会负责人要求每人交263.3元,再换成现金给班主任且使用明细不公示 ,家长报警

扬子晚报
2026-01-31 20:22:18
应急管理部部长王祥喜任上被查 4天前曾主持会议

应急管理部部长王祥喜任上被查 4天前曾主持会议

红星新闻
2026-01-31 17:25:13
深圳罗湖区:水贝黄金平台杰我睿公司已启动兑付

深圳罗湖区:水贝黄金平台杰我睿公司已启动兑付

界面新闻
2026-01-31 17:24:18
比尔·盖茨打破沉默,否认跟俄罗斯女孩发生关系后染病,引发争议

比尔·盖茨打破沉默,否认跟俄罗斯女孩发生关系后染病,引发争议

译言
2026-01-31 07:46:07
55票反对45票赞成!美投票结果公布,特朗普态度转变,美停止行动

55票反对45票赞成!美投票结果公布,特朗普态度转变,美停止行动

书纪文谭
2026-01-31 12:36:45
从济南工人女儿到盖茨红人,李一诺的逆袭,比邓文迪更精彩!

从济南工人女儿到盖茨红人,李一诺的逆袭,比邓文迪更精彩!

李砍柴
2026-01-30 16:49:16
火车新规2026正式执行!禁带品、实名制升级,这些坑千万别踩

火车新规2026正式执行!禁带品、实名制升级,这些坑千万别踩

复转这些年
2026-01-30 23:33:48
突发!伊朗阿巴斯港传出爆炸声!伊媒否认革命卫队海军司令遭暗杀

突发!伊朗阿巴斯港传出爆炸声!伊媒否认革命卫队海军司令遭暗杀

每日经济新闻
2026-01-31 20:19:15
日本山林发现的中国籍女性推测已死亡数周:外裤掉落附近,多处外伤,警方初步认定系遭谋杀

日本山林发现的中国籍女性推测已死亡数周:外裤掉落附近,多处外伤,警方初步认定系遭谋杀

红星新闻
2026-01-31 16:23:50
2026-02-01 00:56:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1222文章数 223关注度
往期回顾 全部

科技要闻

SpaceX申请部署百万卫星 打造太空数据中心

头条要闻

新年"打虎"不停歇 三天落马两个正部级

头条要闻

新年"打虎"不停歇 三天落马两个正部级

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

李维嘉、吴昕、汪涵现身魏文彬追悼会

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

教育
亲子
艺术
时尚
军事航空

教育要闻

一年一度“花式”期末考,成都的小学今年做了哪些探索?又有哪些特别?

亲子要闻

家里有兄妹的宝妈,请高度关注这个危险隐患!

艺术要闻

半世纪的蜕变:她从初中辍学到传奇艺术家!

10个瞬间,回顾这一年

军事要闻

特朗普称庞大舰队驶向伊朗 已超委内瑞拉

无障碍浏览 进入关怀版