网易首页 > 网易号 > 正文 申请入驻

著名材料数据库用户数突破65万,对AI可用数据需求增长

0
分享至

2011年,美国能源部劳伦斯伯克利国家实验室(伯克利实验室)的一个小团队启动了后来成为世界引用最多的材料数据库的项目。如今,材料项目服务超过65万用户,已被引用超过32,000次——但其真正的影响可能才刚刚开始。


当著名计算材料科学家Kristin Persson及其团队首次创建材料项目(Materials Project)时,他们构想了一个自动化筛选工具,能够帮助工业界和学术界的研究人员加速设计用于电池和其他能源技术的新材料。一个用户友好的界面将研究人员免费连接到最大的材料属性集合。其开源框架——由伯克利实验室能源部用户设施国家能源研究科学计算中心(NERSC)的超级计算机支持——将有助于普及材料知识并促进跨学科合作。另一个优势则是无需编程经验。

这个开创性数据库的消息很快在材料科学界传开,材料项目迅速成为世界上最受欢迎的材料数据提供商之一。到2020年初,多达120,000人——从国家实验室科学家和工业创新者到好奇的高中生——加入了材料项目社区。现在,材料项目达到了另一个重大里程碑:注册用户超过65万。

这种指数级增长反映了对经过策划的、可用于机器学习的数据集的激增需求,这些数据集可以立即为AI应用提供动力,而无需大量预处理。数据巨头和机器学习革命在其14年的运营中,材料项目及其软件工具已被同行评审的科学期刊发表的研究引用超过32,000次,推动了电池、量子计算、微电子、工业制造催化剂等方面的进步。其计算材料数据库现在包括超过200,000种材料——从普通金属到稀有化合物——以及超过577,000种分子。

在过去两年中,它向用户交付了465TB的数据——相当于大约1亿张高分辨率照片或100,000部电影大片的高清版本。“机器学习对材料发现来说是革命性的,因为它使科学家免于在实验室中测试新化学品和制造新材料时一遍又一遍地重复相同的过程,”材料项目主任兼联合创始人Persson说。“要取得成功,机器学习程序需要访问大量高质量、经过精心策划的数据。凭借其庞大的策划数据存储库,材料项目已准备好为AI服务。”

从一开始,伯克利实验室的材料项目领导团队——由Persson(她还担任伯克利实验室材料科学系高级科学家和加州大学伯克利分校材料科学与工程教授)、伯克利实验室科学家和材料项目副主任Anubhav Jain,以及伯克利实验室高级计算工程师和材料项目技术主管Patrick Huck组成——一直与来自工业界、国家实验室和学术界的众多贡献者密切合作,其中许多人被列为Persson和团队最近在Nature Materials期刊发表的视角文章的共同作者。


材料项目主任Kristin Persson

他们共同改进了材料项目,增加了更多材料、更好的算法和搜索能力,以及更多样化的属性覆盖。以用户友好性为指导原则,他们具有远见,早在AI兴起之前的数年就将最先进的机器学习算法构建到系统中,帮助研究人员理解和识别功能材料。“材料项目一直处于促进材料科学机器学习革命的前沿。”Jain说。“许多机器学习公司——从初创公司到成熟公司——都依赖材料项目来训练其预测材料属性的机器学习模型,他们的工程师和科学家随后使用这些模型来开发产品。”

AI就绪:策划数据的力量

研究人员目前正在寻找新的电池材料,以更有效地为电网或交通储能,或寻找新的催化剂来帮助提高化学工业的效率。但开放科学文献中只有不到1%的化合物有实验数据可用,这限制了对新材料及其属性的理解。这就是数据驱动的材料科学可以提供帮助的地方。“加速材料发现是解锁新能源技术的关键,”Jain说。“材料项目在过去十年中实现的是,研究人员通过使用高保真计算模拟,可以了解数十万种材料的属性。这反过来又使他们能够更快地设计材料,并开发机器学习模型来预测他们感兴趣的任何应用的材料行为。”

材料项目平台在国家能源研究科学计算中心(NERSC)使用高通量计算建模来筛选大型材料库以用于特定目的。属性使用先进的计算方法计算,并根据现实世界的实验进行验证。这种方法允许研究人员快速测试和评估许多不同的材料,加速发现过程。

该平台还提供标准化数据集,格式化用于训练机器学习系统,包括关于材料电子密度的详细信息。这种经过策划的数据允许研究人员根据性能基准验证新的AI模型。这种广泛准备工作消除了通常需要数月来组装和清理材料数据集的时间,使研究人员能够专注于开发新的AI算法和进行科学发现。在疫情期间,材料项目的AI就绪能力使材料研究得以继续,尽管实验研究实验室的现场访问受到限制。“传统上进行动手实验室实验的实验材料科学家转向数字工具来分析数据并运行模拟,同时远程工作。


如今,像材料项目这样的现代平台现在被期望全天候运营,以“支持自2022年5月以来增长了2.5倍的用户社区。”Huck说。为了支持这一不断增长的需求,Huck及其团队与MongoDB(现代应用程序的领先数据库)、可观测性平台Datadog和云计算提供商亚马逊(Amazon Web Services)等工业合作伙伴合作,将材料项目迁移到基于云的基础设施,该基础设施支持从快速属性搜索到大规模数据下载的所有内容,以及允许实时探索不同材料之间关系的交互式工具。这种创新的云基础设施确保了99.98%的正常运行时间,这是高可用性的行业标准。

从数据库到发现材料项目已被全球大学、研究实验室和公司采用,服务于电池、半导体、催化剂和结构材料的研究。长期用户丰田研究院(TRI)总部位于加利福尼亚州洛斯阿尔托斯,在马萨诸塞州剑桥市和密歇根州安娜堡设有设施,一直依赖材料项目的开源工具和数据来开发新材料。TRI是丰田汽车公司的研发和科学开发子公司,专注于开发人工智能、车辆自动化、材料科学和机器人技术。

“材料项目通过为整个研究社区提供透明开发的开源工具,成为工业界和学术界的强大桥梁。几乎每一项专注于材料发现AI的工业工作——无论是在成熟公司还是初创公司——都由在材料项目受过训练的众多才华横溢的年轻科学家中的一员领导。他们的印记无处不在,”丰田研究院副总裁Brian Storey说。

微软公司也使用材料项目来训练材料科学模型,最近开发了一种称为MatterGen的工具,这是一种用于无机材料设计的生成模型。微软Azure量子使用材料项目的数据开发了一种新的电池电解质。其他著名研究使用材料项目成功设计用于有前途的新应用的功能材料。2020年,加州大学圣塔芭芭拉分校、阿贡国家实验室和伯克利实验室的研究人员合成了Mn1+xSb,这是一种对电子、汽车、航空航天和能源应用中的热冷却有前景的磁性化合物。研究人员通过材料项目对超过5,000种候选化合物的筛选发现了这种磁热材料。


除了访问庞大的数据库外,材料界还可以通过一个称为MPContribs的平台向材料项目贡献新数据。这允许国家实验室设施、学术机构、公司和其他已经生成大量材料数据集的组织与更广泛的研究社区共享这些数据。其他社区贡献通过新材料预测和实验验证扩展到了以前未探索的领域。例如,谷歌Deepmind——谷歌的人工智能实验室——使用材料项目训练了初始GNoME(用于材料探索的图网络)模型来预测晶体的总能量,这是材料稳定性的一个关键指标。通过2023年在Nature期刊上发表的工作,谷歌Deepmind向材料项目贡献了近400,000种新化合物,扩展了平台庞大的材料属性和模拟工具包。材料项目贡献或管理的注册到能源部科学与技术信息办公室(OSTI)数据ID服务的数据集比任何其他平台都多,这标志着其在开放科学和数据共享方面的领导地位,并通过谷歌数据集搜索等搜索引擎设定了数据管理和可访问性标准。如今,它只是能源部科学办公室的七个公共可重用数据资源之一,这些资源使策划的数据公开可用,以进一步科学发现和技术知识。该平台庞大的材料数据库不仅有助于激发新能源技术,还激发了下一代材料科学家。

“公立和私立大学的研究生、博士后和教授依靠材料项目24/7作为他们研究的资源。我们现在平均每天被研究论文引用超过六次这一事实表明,材料项目在短短十年中已成为多少教育资源,”Huck说。连接到自主实验室随着材料科学拥抱数据驱动的发现,材料项目的经过策划的数据集使其成为AI驱动的材料设计的重要基础设施。该平台正在继续发展其机器学习能力,计划增强计算方法和改进对复杂材料行为的处理。“我们一直在工作的一个令人兴奋的领域是将这个模拟管道与伯克利实验室A-Lab进行的自主实验连接起来。我们不仅在计算机中模拟事物,而且还将新材料带入现实,”Jain说。

A-Lab是一个全自动实验室,使用由人工智能引导的机器人来加速材料科学发现。自2023年推出以来,A-Lab与材料项目合作,合成了对未来技术有前景的新材料。这种全面数据覆盖、严格质量标准和社区驱动扩展的组合创造了加速具有特定期望属性的新材料发现时间表的基础,Jain补充说。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈佛研究:吃一个西红柿,就等于喝了一大口可乐,真的还是假的?

哈佛研究:吃一个西红柿,就等于喝了一大口可乐,真的还是假的?

泠泠说史
2025-11-10 14:17:05
伊朗通告世界:或打击美国本土!五角大楼急申500亿,菲律宾慌了

伊朗通告世界:或打击美国本土!五角大楼急申500亿,菲律宾慌了

古事寻踪记
2026-03-11 07:21:31
纳瓦尔的智慧:没有父母托举,普通人在30-50岁只有一个主线任务

纳瓦尔的智慧:没有父母托举,普通人在30-50岁只有一个主线任务

阿胖读书
2026-03-10 22:59:48
WTT任命樊振东新职务,刘国梁又失去一个身份,王濛获破格提拔

WTT任命樊振东新职务,刘国梁又失去一个身份,王濛获破格提拔

三十年莱斯特城球迷
2026-03-11 22:22:20
光漂亮有何用?全场3中0,0板0断0帽+空篮不中,球迷:用高颂换她

光漂亮有何用?全场3中0,0板0断0帽+空篮不中,球迷:用高颂换她

南海浪花
2026-03-12 06:05:55
谁给的胆子?巴铁派战舰闯入波斯湾,居然是用中国武器叫板美伊!

谁给的胆子?巴铁派战舰闯入波斯湾,居然是用中国武器叫板美伊!

浯江孤舟
2026-03-12 15:30:32
重庆WTT冠军赛:孙颖莎强势晋级16强,将战跨国闺蜜

重庆WTT冠军赛:孙颖莎强势晋级16强,将战跨国闺蜜

赫岝乡村摄影
2026-03-12 14:11:00
特朗普称必要时美军会护航霍尔木兹海峡,美军:护不了

特朗普称必要时美军会护航霍尔木兹海峡,美军:护不了

极目新闻
2026-03-11 20:23:20
向太也没想到,自己那指望不上的儿子向佐,如今竟把老脸都丢光了

向太也没想到,自己那指望不上的儿子向佐,如今竟把老脸都丢光了

削桐作琴
2026-03-11 15:09:07
俄罗斯向联合国控诉乌克兰用导弹袭击俄军工厂是“恐怖袭击”

俄罗斯向联合国控诉乌克兰用导弹袭击俄军工厂是“恐怖袭击”

山河路口
2026-03-11 21:16:21
油轮迁徙避开波斯湾烽火:25艘油轮改道沙特延布港 运力达5000万桶

油轮迁徙避开波斯湾烽火:25艘油轮改道沙特延布港 运力达5000万桶

财联社
2026-03-12 13:55:12
安理会决议要求伊朗停止打海湾国家

安理会决议要求伊朗停止打海湾国家

澎湃新闻
2026-03-12 04:58:04
《逐玉》6位妈妈辈大有来头,认出了田丽,却没认出头发花白的她

《逐玉》6位妈妈辈大有来头,认出了田丽,却没认出头发花白的她

剧芒芒
2026-03-11 15:15:50
全红婵官宣个人全球代言 披肩长发造型亮相广告片 大方又可爱

全红婵官宣个人全球代言 披肩长发造型亮相广告片 大方又可爱

章眽八卦
2026-03-12 11:35:32
以色列一位学者认为:下一个屠杀犹太人的极可能是美国

以色列一位学者认为:下一个屠杀犹太人的极可能是美国

诺言卿史录
2026-03-12 09:10:39
9分钟充饱电?比亚迪没撒谎,但也有话没说完

9分钟充饱电?比亚迪没撒谎,但也有话没说完

孔二老师
2026-03-12 10:20:20
伊朗内奸大起底:新领袖刚上任就遭袭,原来身边竟藏着高层叛国团

伊朗内奸大起底:新领袖刚上任就遭袭,原来身边竟藏着高层叛国团

浯江孤舟
2026-03-12 15:25:45
究竟逊尼派与什叶派的区别是什么?

究竟逊尼派与什叶派的区别是什么?

难得君
2026-03-07 09:53:43
重磅:乌克兰7枚风暴阴影导弹全部命中布良斯克导弹工厂!

重磅:乌克兰7枚风暴阴影导弹全部命中布良斯克导弹工厂!

项鹏飞
2026-03-11 17:13:08
布伦特原油价格涨幅扩大至10%

布伦特原油价格涨幅扩大至10%

每日经济新闻
2026-03-12 10:43:05
2026-03-12 16:16:49
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1676文章数 511关注度
往期回顾 全部

科技要闻

当养虾人开始卸载,大厂的战争才真正开始

头条要闻

美国将对包括中国在内的多国启动新贸易调查 中方回应

头条要闻

美国将对包括中国在内的多国启动新贸易调查 中方回应

体育要闻

要脸,还是要83分纪录?

娱乐要闻

李湘瘦身惊艳亮相肖邦之夜 携女儿出席

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

游戏
旅游
本地
公开课
军事航空

《刺客信条:黑旗》重制版地图泄露 大小不变内容增多

旅游要闻

行走世界|杜布罗夫尼克的古墙内外

本地新闻

坐标北京,过敏季反向迁徒

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普自行宣布对伊朗战争胜利

无障碍浏览 进入关怀版