编者按
当AI开始重构材料科学,真正的壁垒是什么?5月21日,未来光锥「AI for Science 创变者说」第二期沙龙“AI+材料的千亿级机会”,邀请了三位学界与产业一线嘉宾,共同探讨AI+材料科学的前沿与实践。中国科学院物理研究所/松山湖材料实验室刘淼老师,基于团队与国际巨头同台并进的经验,从自建Atomly数据库、开源GPT-FF力场,到打造全固态机器人实验室,给出了一个冷静而笃定的判断:数据,才是唯一的护城河。
为什么 AI 时代要讲数据?
这是 AI 领域大家特别关注的一件事。AI 的到来给了我们一个特别好的工具——在这个时代我们其实有了“infinite mind”(无限心智),用机器去帮我们或者代替我们思考,从而让各个领域都获得非常高效的进步。
如果我们看 Gartner 2025 年(高德纳)的新兴技术成熟度曲线,标出来的这些技术基本上都是 AI 和机器人。也就是说,几乎所有领域被效率革命的方式都是“AI 加机器人”。在这种情况下,科学领域也会面临很大的挑战和变革。
从国际上看,大家都在做这件事:
美国:特朗普政府提出的 AI 行动计划,把芯片、数据中心、模型都放在了非常重要的位置。其中和科学相关的内容,可以归纳为三件事:自动化实验室、高质量数据集、计算基础设施。在科学领域落实这件事,是通过美国能源部(DOE)的 Genesis Mission(创世纪任务)——用科学去变革研发方式,加速材料科学的发现。
中美对比:在战略上中美其实是一致的,但策略不同。我们偏政府主导、政策主导,美国偏市场化主导。
在这个背景下,美国科技公司的进步非常大:
DeepMind 在 2023 年底发布了 GNoME 数据集和模型,号称通过高通量计算的方式发现了 38 万种热力学稳定的材料,相当于人类 800 年知识积累的总和。
Microsoft 也做了很多事,比如 MatterGen 和 MatterSim,对这个领域有很大的推动。MatterGen 用生成式的方法,给出材料性质,就可以推测和推理出该材料可能的组分构型。
学术界:英国 Andy Cooper 团队、美国 Gerbrand Ceder 团队,都用机器人的方式自主化地去发现新材料、改革制备工艺,效率有特别大的提升。
新兴公司:DeepMind、Microsoft 和 Meta 的一些人合作成立了一个新实验室叫 Periodic Labs,这是由 Google 的各种 X-Labs 出来的团队,估值非常高,要用 AI 和机器人变革材料科学。最近 Jeff Bezos 也有动作,号称要投资 62 亿美元,这是他卸任 Amazon CEO 之后唯一一次在一家公司担任管理角色去推动的事——他做的叫 Physical AI,材料科学可能是其中的一个板块。
![]()
在行业进步的带领下,我们现在面临的是 AI 在材料领域的应用,仔细看你会发现,大家都是从数据开始做的。
我列出来一些材料科学数据领域的进步。过去两个诺贝尔奖(化学奖和物理奖)多多少少都是 AI 方向的,但本质都是数据的进步。所以近期 Google DeepMind、Meta、Microsoft 都开始做这样的数据集。在国际范围内,这条技术路线已经勾画得非常清楚了。
![]()
如何去做?
这些大公司都在做的一件事是:用密度泛函理论(DFT)去做计算。计算一个材料已经非常容易,于是可以批量计算材料的性质——根源是解密度泛函理论,也就是解电子的薛定谔方程;知道电子的行为之后,就可以推测出材料的各种性质。这已经是非常稀松平常的事了。
这就是科学发展的“第四范式”:在数据基础之上,做各种各样的 AI 工具。回头看,数据计算的奠基人和先驱者是 Materials Project,之后各国科研机构都开始做。近期 Google、Microsoft、Meta 也都加入。我们是在中科院物理研究所和松山湖材料实验室下面做这件事,现在这个实验室一部分也被独立为东莞材料科学与技术研究所。
![]()
我们这个项目叫 Atomly,其实启动得非常早,2018 年就启动了,相当于在中国本土建了一个 Materials Project。美国Materials Project 的数据质量和数量都非常好,在这种数据质量的基础上,可以用数据做很多人工智能的发现和建模。我们做的事情和它没有本质区别,但在计算量和计算精度上有比较大的提升:
网站所有数据都是我们自主生产出来的,有 34 万个无机晶体材料,数据量大概是 Materials Project 的一倍多。目前已有 8000 多个注册用户,很多用户在日常工作学习中用我们的数据库做材料性质的初探。
Atomly 这个数据库比较厉害的地方是:有了这些数据,可以做化学反应类型的计算,速度非常快。背后的原理是:我们没有去发展密度泛函理论,而是把 DFT 做成一个产生数据的 Agent,通过高通量的方式不停做计算。这套背后的工作流是我们自主开发的,现在看起来稀松平常,但 2018 年开发时技术上还是有难度的。
在这种情况下,我们具备了一个和国外齐平的数据生产能力。Materials Project 能做的事,我们几乎都能做;在某些领域,我们的数据量还更大一些,所以我们可以部分实现国产替代。
最近我们在用 R2-SCAN level 的计算去算新数据,以及之前大家不太算的数据,比如光学计算。未来大概半年到一年之内,我们会有一个光学数据库出现,会给大家提供光吸收等性质的描述。
ICSD(无机晶体结构数据库)里人类已发现的已知材料很快会被算尽,所以我们通过元素替代的方式不断扩增化学空间。
Atomly 一个特别好的优势是可以算化学反应。一旦可以算化学反应,就可以比较化合物的形成能:化合物 A 和 B 反应时,放热本领最大的肯定是最稳定的。通过这种方式可以定量地描述任意一个结构是否稳定。Google 的 GNoME 就是用这套方式做的,所以这套方式现在变得非常时髦。
![]()
举几个具体例子:
超导体发现:已知一个化合物之后,我们替换元素做高通量计算,找到这个空间里哪些化合物是稳定的,发表出来指导实验。我们从数据库里筛选出和 MgB₂(二硼化镁)结构类似的一个超导体——从筛选到实验合成,只用了 3 个月时间就把新材料发现出来。
全固态电池:现在做电池有一个困难是,电极材料和电解质材料会发生副反应——界面处的副反应会让电池的效率和循环性能变低。解决方案是找一层中间层把电极和电解质隔开。我们有这样一个工作流,可以从 5 万多个化合物中筛选出几十个比较好的镀层材料。我们还筛选了电池的正极材料,找到了一个氟化物的钠电池材料,如果合成出来,其性能超过现在的磷酸铁锂。这些已经被我们申请成了专利。
我们还可以用这些数据做人工智能模型。一旦标定出来一个化合物中原子在不同构型时的受力和键能,我们就可以预测任意结构的键能和受力。这样我们就做出了一个通用力场 GPT-FF,基于一些特殊的嵌入,加入了键角这样的描述,在元素的投影上把电子轨道的行为投影在球形函数上。
2024 年我们发布时,GPT-FF 在行业里是比较领先的,比美国 MIT 的 CHGNet、M3GNet 都要好一些。几个月之后,MatterSim 在更大的数据下把力场又往前推了一步。
我们最近对我们的力场进行了效率评估,发现它的效率非常高,性能又比当时其他力场好一些。它的应用场景包括:
- 预测材料稳定性:给定一个原子在空间摆开的构型,力场可以快速把它带到平衡态的位置。
- 微调(Fine-tune):在预训练力场的基础上,用少量数据就可以微调到更合理的情况,比如可以分辨钛金属体系从 HCP 到 FCC 的相变,这在传统经验势能(empirical potential)里一直是难点。
- 离子晶体分子动力学:我们对一个流行的全固态电解质做了离子扩散率的模拟,结果和实验值非常接近。
GPT-FF 力场的所有参数都全部公开,大家可以下载、开箱即用,是一个很好的开源工具。
我们还在做一件事情:用它快速扫描化合物中的势能面,获得离子输运的精准计算。开发出来的快速通道工具包可以快速模拟锂离子、钠离子电池材料中的离子输运,比传统 DFT 快大概 100 倍,与实验值和其他力场的比值都非常接近。这是电池材料计算中核心的一步,传统上做电池材料筛选到这一步是没办法做的,但有了这套人工智能力场就可以快速解锁。
如何选择科学问题?
传统上大家做这些 AI 的事情时,都以数据为起点或判据。如果数据是合适的,你就可以拿这些数据做合适的科学问题。
DeepMind 其实是挑选问题的高手。他们选 AlphaGo 的原因是因为围棋的数据质量非常高,不存在主观偏见、模糊的问题,预测指标也非常清晰。
所以选择科学问题永远是人工智能领域最重要的一步。怎么选择?拿数据来做一个非常重要的判据。
我们最近在做 MatChat 智能体。
- 2023 年:用 Llama 2 做了一些训练,发现有迹象,但难度和资源需求都非常大。
- 2024 年:发现可以用 RAG(检索增强生成)模式去做。
- 2025 年:上线了第一版,包含 28 万篇论文。
- 2026 年 3 月:发布 2.0 版本,包含 80 万篇论文,可以快速查询和写作论文。
![]()
第三版我们包含了大量文献检索的全文内容。检索出来之后,会根据检索结果直接给出参考文献。未来还会具备写作功能——我们背后有一个 skill 可以写综述论文,调用 MatChat 的 API 之后可以直接用它写综述论文。
隐私计算:我们做了一个用隐私计算保护数据的开放平台。数据上传后,作为数据拥有者,你可以选择数据“可用不可见”。这样大家可以登录访问你的数据但看不到真实的值,只能看到它的元结构,用这种结构调用你的数据做 AI 模型。
机器人科学家:我们用工业协作机器人把自动化合成在实验室里变成真实场景。我们实验室已经开始用这套东西合成材料,合成效率非常高。
国内这类实验室非常多,但基本都是基于溶液或溶液化学的;像我们这样全固态、机器人处理粉末、放在高温环境烧结的机器人实验室其实非常稀缺,而这又是材料科学里非常重要的合成步骤。我们也是国内为数不多、有能力对标美国 A-Lab 做这样合成的几家单位之一。
![]()
AI for Science 期刊:这是我们最近办的一本期刊,由松山湖材料实验室和东莞材料所主办,编委非常国际化。期刊一半以上的论文来自国际海外作者,发表在我们这里能保证全世界都能看到你的工作。今年 10 月我们还会开一个 AI for Science 会议,邀请到了很多国际知名的领域大咖。现在开放获取,全免费,欢迎大家投稿。
互动提问
提问 1:10 年后的材料实验室会是什么样子?
刘淼:这是个开放性的问题,我没有答案。因为这个领域发展太快了,顶多能看个两三年。
但总的来说,我们可以看一下生物医药的发展,他们比材料科学发展早一点点。几乎所有材料科学里经历的事情,生物医药里其实已经做过了一遍——他们至少早 20 年就知道用 AI 计算找药,他们有各种各样的人工智能方案做新药发现,或者类似的软件/硬件产品。除了生物医药,材料科学可能是第二个在数据上具备类似发现或突破的领域。我觉得还是很有希望——既有很多未知,又有很多希望。
提问 2:DeepMind、Microsoft 发 Nature 都不再公布数据和模型了。你们把 GPT-FF 和材料数据库都免费开放,对国内免费是出于什么考虑?
刘淼:其实他们没有公布数据,但还是公布模型的。开源的意思不是“模型 + 数据 + 训练方式”全部开源,而是只公开参数。这又回到我报告的主题:数据很重要。所以各个领域的大模型公司,包括图像、世界模型、大语言模型,都不公开数据。材料科学也在朝这个方向发展。
这也是未来的趋势:数据将会成为这个行业的壁垒,其他的都不会是壁垒。模型已经不重要了,因为模型的壁垒已经非常小——你的模型比我的模型在同样数据底下效率高一点点,这种差异已经小到看不出来了。接下来无非就是怎么做数据,这会成为这个行业唯一的壁垒。在这种数据高价值的情况下,大家是不会把数据放出来的。我们的数据有些开放给大家浏览,但作为供机器学习使用的数据,没有人会放出来。
如果你要做这个行业或者任何 AI 相关的行业,如果没有在数据上占到先机,you will never make it(永远做不成)。每个企业都是这样。所以学生、投资人、每个行业的人都可以看一下:你要去的这家公司,在数据上是不是有先机——如果没有数据先机,there is no way you can go。
提问 3:你们 80 万篇论文的数据是怎么清洗的?
刘淼:首先,我们在一个学术机构里面,有一些资源和条件可以获得论文全文。拿到论文全文之后,把 PDF 变成可用的数据,这里我们用到了浦江实验室的 MinerU 这一类的智能文档解析工具。这种行业先进的工具用起来,可以让某一个细节变得更好。
我想今天在座的我们几位都是在做科学的工程化。在这个行业里,科学已经做到一定程度的时候,可以通过工程化的方式让它变成生产力工具,把它做成产品、做成大家可以使用的工具的过程中,其实是工程思维——每个细节都到位,最后产品才能比较好。任何一个细节不考虑,最后产品就会因为那一个细节显示出不好的地方。
提问 4:做 AI 的人很多都被业界高薪吸引过去了。AI for Science 如何长期有系统地做下去?高校研究所有竞争力吗?
刘淼:我的感受是,这个领域做 AI + 科学的人,更多是从科学出身的。如果你单纯是 AI 出身,在这个领域很难往下做深入发展。做 AI 的人虽然工资很高,但那些做“生化环材”四大“火坑”专业的人出来,在 AI + 科学领域做事,对他们来说可能是一个让自己往更前沿方向走的机会。
人类社会人很多,每个人做的事情不一样,如果大家都做一样的事就没意思了。我们也希望吸引进来的人不是看钱,而是在思考“怎么样去创造价值”。这中间有一些有意思的、自己感兴趣的、好玩的事情。我相信这个领域还会不停地吸引人进来,至少我看到我们新进来的研究生干劲十足,所以我丝毫不担心这个问题。
最近我看了 Yann LeCun(杨立昆)的一个播客访谈,他提出一个观点:如果你现在去一个大厂或者企业做大语言模型,或者在研究生阶段学 LLM,其实非常无聊。我回头思考一下我们团队在做什么——有做基础设施的、有做产品的、有做数据的、有做模型的,这其实和一个大语言模型公司做的事非常相似,相当于他们的早期阶段。所以这个领域其实就像大语言模型的早期阶段,映射到我们这个行业中,因此这个领域是蓬勃发展的。
在这个阶段,与其去一个成熟企业、成熟方向里做一只小蚂蚁,不如来我们这个行业,做一个行业成长期、早期进来的独角兽。这就是我们在这件事上的取舍。
作者简介
刘淼,中国科学院物理研究所 /松山湖材料实验室 研究员、博士生导师,曾任 国际材料基因组计划(Materials Project)的核心开发人员。 长期致力于“材料大数据+人工智能”方向, 带领团队创立了Atomly.net材料科学数据库、GPTFF人工智能通用力场、matchat材料科学智能体等多项工具。
想要了解更多AI for Science创业项目?有BP想要投送?或者想来分享你的真知灼见?添加果壳硬科技企业微信,私信沟通。
未来光锥
部分已投项目
华天航空动力
丨天璇新材料
关注话题
闭门活动
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.