ORNL推进图神经网络解决千万亿级科学数据挑战|算法|大模型|人工智能|ornl

ORNL推进图神经网络解决千万亿级科学数据挑战

2024-01-23 08:12:12　来源: Ai时代前沿

北京举报

分享至

要解决当今最复杂的科学挑战，往往需要追踪数百、数千甚至数百万个变量之间的联系。科学数据集越大，这些联系就越复杂。

随着时间的推移，实验会产生PB（万亿字节）甚至EB（千万亿字节）级的数据，跟踪药物发现、材料开发或网络安全等过程中的联系可能是一项艰巨的任务。

值得庆幸的是，随着人工智能的出现，研究人员可以依靠图形神经网络(GNN)来绘制连接并揭示它们之间的关系，从而大大加快了解决问题的时间，并进一步加快了科学发现的时间。

美国能源部橡树岭国家实验室(ORNL)和劳伦斯伯克利国家实验室(LBNL)的研究人员正在发展GNN，以便在美国最强大的计算资源上进行扩展，这是解决当今以数据为中心的科学挑战的必要步骤。

ORNL在去年11月27日至30日举行的线上虚拟会议“学习图表2023”上分享了这个多机构团队的研究结果。他们的教程“使用高性能计算和超级计算设施进行可扩展的图形神经网络训练”说明了如何在能源部的尖端计算系统上扩展GNN。

具体来说，该团队在LBNL国家能源研究科学计算中心的Perlmutter系统以及橡树岭先进计算设施的Summit和Frontier超级计算机上演示了HydraGNN的缩放。Frontier是世界上第一个百亿亿次系统，目前被评为世界上最强大的计算机。

ORNL的GNN架构称为HydraGNN，旨在快速准确地预测材料性能。它通过将固体材料的晶格结构抽象为图形来使用原子信息，其中原子由节点表示，金属键由边缘表示。这种表示自然地包含了有关材料结构的信息，消除了传统神经网络所需的计算中昂贵的数据预处理。

“科学进步需要发现和设计具有改进机械和热力学性能的材料，而HydraGNN是一个很有前途的替代模型。一旦接受了大量第一性原理数据的训练，该模型就可以提供快速准确的材料特性预测。”ORNL计算科学与工程部的研究员Pasini说。”HydraGNN预测速度的提高，为有效材料的发现和设计提供了独特的探索能力。”

该团队的教程分为五个部分。第一部分重点介绍了促进可扩展GNN代理模型开发的科学应用，以加速复杂物理和工程系统的研究。第二份报告介绍了在美国能源部（DOE）顶级超级计算设施上使用大量科学数据来扩展GNN的需求。第三个是HydraGNN的可扩展性和灵活性，这使得它可以在多个DOE系统中移植。第四部分介绍了在开源数据集上运行HydraGNN的示例，第五部分也是最后一部分包括教程和结束语。

该教程在YouTube上进行了直播。HydraGNN改进后的性能最近也被记录在用户手册中，该手册已通过ORNL技术报告向公众发布。

这项研究是ORNL人工智能计划的一部分，该计划是一项内部投资，致力于确保安全、可靠和节能的人工智能服务于科学研究和国家安全。通过该计划，ORNL的研究人员利用实验室的计算基础设施和软件功能，加快解决方案的时间，并在美国国家和国际重要项目中实现人工智能的潜力。

例如，该计划帮助多学科团队证明，机器学习算法可用于从低信噪比的信号中提取信息，开发能够在很少的训练数据下加速建模和仿真的算法，以及设计能够检测癫痫发作的新型仿生神经形态设备。

“缩放图神经网络提出了独特的挑战。”ORNL人工智能计划主任Prasanna Balaprakash说，“这些模型能够在广泛的科学数据集上进行训练，解锁了一系列广泛的下游应用，特别是在新材料开发和药物发现方面。这一成就强调了我们对开发不仅强大而且节能和可扩展的人工智能的承诺，确保我们保持在科学研究和国家安全的最前沿。”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.