网易首页 > 网易号 > 正文 申请入驻

刘淼:数据是 AI 时代材料科学唯一的壁垒 | AI for Science沙龙

0
分享至

编者按

当AI开始重构材料科学,真正的壁垒是什么?5月21日,未来光锥「AI for Science 创变者说」第二期沙龙“AI+材料的千亿级机会”,邀请了三位学界与产业一线嘉宾,共同探讨AI+材料科学的前沿与实践。中国科学院物理研究所/松山湖材料实验室刘淼老师,基于团队与国际巨头同台并进的经验,从自建Atomly数据库、开源GPT-FF力场,到打造全固态机器人实验室,给出了一个冷静而笃定的判断:数据,才是唯一的护城河。

为什么 AI 时代要讲数据?

这是 AI 领域大家特别关注的一件事。AI 的到来给了我们一个特别好的工具——在这个时代我们其实有了“infinite mind”(无限心智),用机器去帮我们或者代替我们思考,从而让各个领域都获得非常高效的进步。

如果我们看 Gartner 2025 年(高德纳)的新兴技术成熟度曲线,标出来的这些技术基本上都是 AI 和机器人。也就是说,几乎所有领域被效率革命的方式都是“AI 加机器人”。在这种情况下,科学领域也会面临很大的挑战和变革。

从国际上看,大家都在做这件事:

美国:特朗普政府提出的 AI 行动计划,把芯片、数据中心、模型都放在了非常重要的位置。其中和科学相关的内容,可以归纳为三件事:自动化实验室、高质量数据集、计算基础设施。在科学领域落实这件事,是通过美国能源部(DOE)的 Genesis Mission(创世纪任务)——用科学去变革研发方式,加速材料科学的发现。

中美对比:在战略上中美其实是一致的,但策略不同。我们偏政府主导、政策主导,美国偏市场化主导。

在这个背景下,美国科技公司的进步非常大:

DeepMind 在 2023 年底发布了 GNoME 数据集和模型,号称通过高通量计算的方式发现了 38 万种热力学稳定的材料,相当于人类 800 年知识积累的总和。

Microsoft 也做了很多事,比如 MatterGen 和 MatterSim,对这个领域有很大的推动。MatterGen 用生成式的方法,给出材料性质,就可以推测和推理出该材料可能的组分构型。

学术界:英国 Andy Cooper 团队、美国 Gerbrand Ceder 团队,都用机器人的方式自主化地去发现新材料、改革制备工艺,效率有特别大的提升。

新兴公司:DeepMind、Microsoft 和 Meta 的一些人合作成立了一个新实验室叫 Periodic Labs,这是由 Google 的各种 X-Labs 出来的团队,估值非常高,要用 AI 和机器人变革材料科学。最近 Jeff Bezos 也有动作,号称要投资 62 亿美元,这是他卸任 Amazon CEO 之后唯一一次在一家公司担任管理角色去推动的事——他做的叫 Physical AI,材料科学可能是其中的一个板块。


在行业进步的带领下,我们现在面临的是 AI 在材料领域的应用,仔细看你会发现,大家都是从数据开始做的。

我列出来一些材料科学数据领域的进步。过去两个诺贝尔奖(化学奖和物理奖)多多少少都是 AI 方向的,但本质都是数据的进步。所以近期 Google DeepMind、Meta、Microsoft 都开始做这样的数据集。在国际范围内,这条技术路线已经勾画得非常清楚了。


如何去做?

这些大公司都在做的一件事是:用密度泛函理论(DFT)去做计算。计算一个材料已经非常容易,于是可以批量计算材料的性质——根源是解密度泛函理论,也就是解电子的薛定谔方程;知道电子的行为之后,就可以推测出材料的各种性质。这已经是非常稀松平常的事了。

这就是科学发展的“第四范式”:在数据基础之上,做各种各样的 AI 工具。回头看,数据计算的奠基人和先驱者是 Materials Project,之后各国科研机构都开始做。近期 Google、Microsoft、Meta 也都加入。我们是在中科院物理研究所和松山湖材料实验室下面做这件事,现在这个实验室一部分也被独立为东莞材料科学与技术研究所。


我们这个项目叫 Atomly,其实启动得非常早,2018 年就启动了,相当于在中国本土建了一个 Materials Project。美国Materials Project 的数据质量和数量都非常好,在这种数据质量的基础上,可以用数据做很多人工智能的发现和建模。我们做的事情和它没有本质区别,但在计算量和计算精度上有比较大的提升:

网站所有数据都是我们自主生产出来的,有 34 万个无机晶体材料,数据量大概是 Materials Project 的一倍多。目前已有 8000 多个注册用户,很多用户在日常工作学习中用我们的数据库做材料性质的初探。

Atomly 这个数据库比较厉害的地方是:有了这些数据,可以做化学反应类型的计算,速度非常快。背后的原理是:我们没有去发展密度泛函理论,而是把 DFT 做成一个产生数据的 Agent,通过高通量的方式不停做计算。这套背后的工作流是我们自主开发的,现在看起来稀松平常,但 2018 年开发时技术上还是有难度的。

在这种情况下,我们具备了一个和国外齐平的数据生产能力。Materials Project 能做的事,我们几乎都能做;在某些领域,我们的数据量还更大一些,所以我们可以部分实现国产替代。

最近我们在用 R2-SCAN level 的计算去算新数据,以及之前大家不太算的数据,比如光学计算。未来大概半年到一年之内,我们会有一个光学数据库出现,会给大家提供光吸收等性质的描述。

ICSD(无机晶体结构数据库)里人类已发现的已知材料很快会被算尽,所以我们通过元素替代的方式不断扩增化学空间。

Atomly 一个特别好的优势是可以算化学反应。一旦可以算化学反应,就可以比较化合物的形成能:化合物 A 和 B 反应时,放热本领最大的肯定是最稳定的。通过这种方式可以定量地描述任意一个结构是否稳定。Google 的 GNoME 就是用这套方式做的,所以这套方式现在变得非常时髦。


举几个具体例子:

超导体发现:已知一个化合物之后,我们替换元素做高通量计算,找到这个空间里哪些化合物是稳定的,发表出来指导实验。我们从数据库里筛选出和 MgB₂(二硼化镁)结构类似的一个超导体——从筛选到实验合成,只用了 3 个月时间就把新材料发现出来。

全固态电池:现在做电池有一个困难是,电极材料和电解质材料会发生副反应——界面处的副反应会让电池的效率和循环性能变低。解决方案是找一层中间层把电极和电解质隔开。我们有这样一个工作流,可以从 5 万多个化合物中筛选出几十个比较好的镀层材料。我们还筛选了电池的正极材料,找到了一个氟化物的钠电池材料,如果合成出来,其性能超过现在的磷酸铁锂。这些已经被我们申请成了专利。

我们还可以用这些数据做人工智能模型。一旦标定出来一个化合物中原子在不同构型时的受力和键能,我们就可以预测任意结构的键能和受力。这样我们就做出了一个通用力场 GPT-FF,基于一些特殊的嵌入,加入了键角这样的描述,在元素的投影上把电子轨道的行为投影在球形函数上。

2024 年我们发布时,GPT-FF 在行业里是比较领先的,比美国 MIT 的 CHGNet、M3GNet 都要好一些。几个月之后,MatterSim 在更大的数据下把力场又往前推了一步。

我们最近对我们的力场进行了效率评估,发现它的效率非常高,性能又比当时其他力场好一些。它的应用场景包括:

- 预测材料稳定性:给定一个原子在空间摆开的构型,力场可以快速把它带到平衡态的位置。

- 微调(Fine-tune):在预训练力场的基础上,用少量数据就可以微调到更合理的情况,比如可以分辨钛金属体系从 HCP 到 FCC 的相变,这在传统经验势能(empirical potential)里一直是难点。

- 离子晶体分子动力学:我们对一个流行的全固态电解质做了离子扩散率的模拟,结果和实验值非常接近。

GPT-FF 力场的所有参数都全部公开,大家可以下载、开箱即用,是一个很好的开源工具。

我们还在做一件事情:用它快速扫描化合物中的势能面,获得离子输运的精准计算。开发出来的快速通道工具包可以快速模拟锂离子、钠离子电池材料中的离子输运,比传统 DFT 快大概 100 倍,与实验值和其他力场的比值都非常接近。这是电池材料计算中核心的一步,传统上做电池材料筛选到这一步是没办法做的,但有了这套人工智能力场就可以快速解锁。

如何选择科学问题?

传统上大家做这些 AI 的事情时,都以数据为起点或判据。如果数据是合适的,你就可以拿这些数据做合适的科学问题。

DeepMind 其实是挑选问题的高手。他们选 AlphaGo 的原因是因为围棋的数据质量非常高,不存在主观偏见、模糊的问题,预测指标也非常清晰。

所以选择科学问题永远是人工智能领域最重要的一步。怎么选择?拿数据来做一个非常重要的判据。

我们最近在做 MatChat 智能体。

- 2023 年:用 Llama 2 做了一些训练,发现有迹象,但难度和资源需求都非常大。

- 2024 年:发现可以用 RAG(检索增强生成)模式去做。

- 2025 年:上线了第一版,包含 28 万篇论文。

- 2026 年 3 月:发布 2.0 版本,包含 80 万篇论文,可以快速查询和写作论文。


第三版我们包含了大量文献检索的全文内容。检索出来之后,会根据检索结果直接给出参考文献。未来还会具备写作功能——我们背后有一个 skill 可以写综述论文,调用 MatChat 的 API 之后可以直接用它写综述论文。

隐私计算:我们做了一个用隐私计算保护数据的开放平台。数据上传后,作为数据拥有者,你可以选择数据“可用不可见”。这样大家可以登录访问你的数据但看不到真实的值,只能看到它的元结构,用这种结构调用你的数据做 AI 模型。

机器人科学家:我们用工业协作机器人把自动化合成在实验室里变成真实场景。我们实验室已经开始用这套东西合成材料,合成效率非常高。

国内这类实验室非常多,但基本都是基于溶液或溶液化学的;像我们这样全固态、机器人处理粉末、放在高温环境烧结的机器人实验室其实非常稀缺,而这又是材料科学里非常重要的合成步骤。我们也是国内为数不多、有能力对标美国 A-Lab 做这样合成的几家单位之一。


AI for Science 期刊:这是我们最近办的一本期刊,由松山湖材料实验室和东莞材料所主办,编委非常国际化。期刊一半以上的论文来自国际海外作者,发表在我们这里能保证全世界都能看到你的工作。今年 10 月我们还会开一个 AI for Science 会议,邀请到了很多国际知名的领域大咖。现在开放获取,全免费,欢迎大家投稿。

互动提问

提问 1:10 年后的材料实验室会是什么样子?

刘淼:这是个开放性的问题,我没有答案。因为这个领域发展太快了,顶多能看个两三年。

但总的来说,我们可以看一下生物医药的发展,他们比材料科学发展早一点点。几乎所有材料科学里经历的事情,生物医药里其实已经做过了一遍——他们至少早 20 年就知道用 AI 计算找药,他们有各种各样的人工智能方案做新药发现,或者类似的软件/硬件产品。除了生物医药,材料科学可能是第二个在数据上具备类似发现或突破的领域。我觉得还是很有希望——既有很多未知,又有很多希望。

提问 2:DeepMind、Microsoft 发 Nature 都不再公布数据和模型了。你们把 GPT-FF 和材料数据库都免费开放,对国内免费是出于什么考虑?

刘淼:其实他们没有公布数据,但还是公布模型的。开源的意思不是“模型 + 数据 + 训练方式”全部开源,而是只公开参数。这又回到我报告的主题:数据很重要。所以各个领域的大模型公司,包括图像、世界模型、大语言模型,都不公开数据。材料科学也在朝这个方向发展。

这也是未来的趋势:数据将会成为这个行业的壁垒,其他的都不会是壁垒。模型已经不重要了,因为模型的壁垒已经非常小——你的模型比我的模型在同样数据底下效率高一点点,这种差异已经小到看不出来了。接下来无非就是怎么做数据,这会成为这个行业唯一的壁垒。在这种数据高价值的情况下,大家是不会把数据放出来的。我们的数据有些开放给大家浏览,但作为供机器学习使用的数据,没有人会放出来。

如果你要做这个行业或者任何 AI 相关的行业,如果没有在数据上占到先机,you will never make it(永远做不成)。每个企业都是这样。所以学生、投资人、每个行业的人都可以看一下:你要去的这家公司,在数据上是不是有先机——如果没有数据先机,there is no way you can go。

提问 3:你们 80 万篇论文的数据是怎么清洗的?

刘淼:首先,我们在一个学术机构里面,有一些资源和条件可以获得论文全文。拿到论文全文之后,把 PDF 变成可用的数据,这里我们用到了浦江实验室的 MinerU 这一类的智能文档解析工具。这种行业先进的工具用起来,可以让某一个细节变得更好。

我想今天在座的我们几位都是在做科学的工程化。在这个行业里,科学已经做到一定程度的时候,可以通过工程化的方式让它变成生产力工具,把它做成产品、做成大家可以使用的工具的过程中,其实是工程思维——每个细节都到位,最后产品才能比较好。任何一个细节不考虑,最后产品就会因为那一个细节显示出不好的地方。

提问 4:做 AI 的人很多都被业界高薪吸引过去了。AI for Science 如何长期有系统地做下去?高校研究所有竞争力吗?

刘淼:我的感受是,这个领域做 AI + 科学的人,更多是从科学出身的。如果你单纯是 AI 出身,在这个领域很难往下做深入发展。做 AI 的人虽然工资很高,但那些做“生化环材”四大“火坑”专业的人出来,在 AI + 科学领域做事,对他们来说可能是一个让自己往更前沿方向走的机会。

人类社会人很多,每个人做的事情不一样,如果大家都做一样的事就没意思了。我们也希望吸引进来的人不是看钱,而是在思考“怎么样去创造价值”。这中间有一些有意思的、自己感兴趣的、好玩的事情。我相信这个领域还会不停地吸引人进来,至少我看到我们新进来的研究生干劲十足,所以我丝毫不担心这个问题。

最近我看了 Yann LeCun(杨立昆)的一个播客访谈,他提出一个观点:如果你现在去一个大厂或者企业做大语言模型,或者在研究生阶段学 LLM,其实非常无聊。我回头思考一下我们团队在做什么——有做基础设施的、有做产品的、有做数据的、有做模型的,这其实和一个大语言模型公司做的事非常相似,相当于他们的早期阶段。所以这个领域其实就像大语言模型的早期阶段,映射到我们这个行业中,因此这个领域是蓬勃发展的。

在这个阶段,与其去一个成熟企业、成熟方向里做一只小蚂蚁,不如来我们这个行业,做一个行业成长期、早期进来的独角兽。这就是我们在这件事上的取舍。

作者简介

刘淼,中国科学院物理研究所 /松山湖材料实验室 研究员、博士生导师,曾任 国际材料基因组计划(Materials Project)的核心开发人员。 长期致力于“材料大数据+人工智能”方向, 带领团队创立了Atomly.net材料科学数据库、GPTFF人工智能通用力场、matchat材料科学智能体等多项工具。

想要了解更多AI for Science创业项目?有BP想要投送?或者想来分享你的真知灼见?添加果壳硬科技企业微信,私信沟通。

未来光锥

部分已投项目

华天航空动力

丨天璇新材料

关注话题

闭门活动

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
【2026.5.31】爆姐的饭后爆料:生命不止,爆料不息!

【2026.5.31】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2026-05-31 23:12:26
采访两位年薪60万(字节2-2、阿里P7)女生,房子、婚姻、被裁

采访两位年薪60万(字节2-2、阿里P7)女生,房子、婚姻、被裁

蚂蚁大喇叭
2026-04-14 11:21:18
淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

磊子讲史
2026-05-29 16:17:30
6月金股全曝光!主力资金大换仓,谁是下一个风口?

6月金股全曝光!主力资金大换仓,谁是下一个风口?

证券市场周刊
2026-06-01 20:23:04
苏联绝密档案:预言家死前神秘手稿,2025年中国高原将现惊天秘密

苏联绝密档案:预言家死前神秘手稿,2025年中国高原将现惊天秘密

大耳朵老师
2024-11-09 16:55:37
直到伊朗下令轰炸美空军基地,全世界才惊觉,中国有句话说得很对

直到伊朗下令轰炸美空军基地,全世界才惊觉,中国有句话说得很对

锅锅爱历史
2026-05-31 16:08:36
穆里尼奥不要的人,阿隆索当成宝!切尔西强挖 8700 万伯纳乌真核

穆里尼奥不要的人,阿隆索当成宝!切尔西强挖 8700 万伯纳乌真核

澜归序
2026-06-01 06:43:38
美媒怒喷掘金管理层:老板富得流油还这么抠搜!

美媒怒喷掘金管理层:老板富得流油还这么抠搜!

止境
2026-06-01 23:32:40
华为nova 16系列手机独占,小艺照相馆代言人专区新模板公开

华为nova 16系列手机独占,小艺照相馆代言人专区新模板公开

IT之家
2026-06-01 22:40:20
41岁白百何首晒二胎,二婚丈夫身份终于曝光:兜兜转转还是你!

41岁白百何首晒二胎,二婚丈夫身份终于曝光:兜兜转转还是你!

In风尚
2026-05-12 06:04:59
自己演男一号,却只让媳妇儿露个脸,张嘉益是懂避嫌的

自己演男一号,却只让媳妇儿露个脸,张嘉益是懂避嫌的

暖心萌阿菇凉
2026-05-30 12:35:14
楚阿梅尼首谈皇马更衣室斗殴:媒体夸大了,我和巴尔韦德没问题

楚阿梅尼首谈皇马更衣室斗殴:媒体夸大了,我和巴尔韦德没问题

甜度百分百21
2026-06-01 00:48:50
中央为江渭清6次安排工作无果,毛主席亲自发令:就让他去江西吧

中央为江渭清6次安排工作无果,毛主席亲自发令:就让他去江西吧

英子谈
2026-06-02 00:47:48
央国企降薪第一刀:取消证书补贴

央国企降薪第一刀:取消证书补贴

新浪财经
2026-06-01 23:44:29
窦骁发文: 乡党们,碎碎兵已笑得合不拢嘴啦,咱娥今天可太美啦

窦骁发文: 乡党们,碎碎兵已笑得合不拢嘴啦,咱娥今天可太美啦

韩小娱
2026-06-01 11:24:32
时代芯存重磅时刻:首台光刻机正式进场 设备调试全面启动

时代芯存重磅时刻:首台光刻机正式进场 设备调试全面启动

快科技
2026-05-31 22:28:11
“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

药识局
2026-05-30 21:11:23
苏芒,求求你来起诉!不要来投诉我们的文章了!

苏芒,求求你来起诉!不要来投诉我们的文章了!

红色少女主播
2026-06-01 18:52:51
没想到,被中国授予最高荣誉仅1天,武契奇因一句话实现口碑暴涨

没想到,被中国授予最高荣誉仅1天,武契奇因一句话实现口碑暴涨

黑鹰观军事
2026-06-01 16:11:03
黄春光:上将之子,父亲不出事的话,他也会是个将军

黄春光:上将之子,父亲不出事的话,他也会是个将军

浔阳咸鱼
2026-05-29 15:10:10
2026-06-02 02:04:49
未来光锥 incentive-icons
未来光锥
“未来光锥”是由果壳发起的科创品牌,致力于推动科研端与产业端相互融合,促进科技成果的高效转化。
4468文章数 315683关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

特朗普:是时候查金库了

头条要闻

特朗普:是时候查金库了

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

艺术
健康
游戏
家居
亲子

艺术要闻

吴镇写竹,清清爽爽

干细胞临床研究向患者收费?别踩坑

又一款经典RPG神作启动重制!不止高清 期待拉满

家居要闻

自信舒展 高背座椅

亲子要闻

向太坦言给孙女买衣服从不超100块:真的豪门从不靠名牌养娃

无障碍浏览 进入关怀版