刘淼：数据是 AI 时代材料科学唯一的壁垒 | AI for Science沙龙|化学

分享至

编者按

当AI开始重构材料科学，真正的壁垒是什么？5月21日，未来光锥「AI for Science 创变者说」第二期沙龙“AI+材料的千亿级机会”，邀请了三位学界与产业一线嘉宾，共同探讨AI+材料科学的前沿与实践。中国科学院物理研究所/松山湖材料实验室刘淼老师，基于团队与国际巨头同台并进的经验，从自建Atomly数据库、开源GPT-FF力场，到打造全固态机器人实验室，给出了一个冷静而笃定的判断：数据，才是唯一的护城河。

为什么 AI 时代要讲数据？

这是 AI 领域大家特别关注的一件事。AI 的到来给了我们一个特别好的工具——在这个时代我们其实有了“infinite mind”（无限心智），用机器去帮我们或者代替我们思考，从而让各个领域都获得非常高效的进步。

如果我们看 Gartner 2025 年（高德纳）的新兴技术成熟度曲线，标出来的这些技术基本上都是 AI 和机器人。也就是说，几乎所有领域被效率革命的方式都是“AI 加机器人”。在这种情况下，科学领域也会面临很大的挑战和变革。

从国际上看，大家都在做这件事：

美国：特朗普政府提出的 AI 行动计划，把芯片、数据中心、模型都放在了非常重要的位置。其中和科学相关的内容，可以归纳为三件事：自动化实验室、高质量数据集、计算基础设施。在科学领域落实这件事，是通过美国能源部（DOE）的 Genesis Mission（创世纪任务）——用科学去变革研发方式，加速材料科学的发现。

中美对比：在战略上中美其实是一致的，但策略不同。我们偏政府主导、政策主导，美国偏市场化主导。

在这个背景下，美国科技公司的进步非常大：

DeepMind 在 2023 年底发布了 GNoME 数据集和模型，号称通过高通量计算的方式发现了 38 万种热力学稳定的材料，相当于人类 800 年知识积累的总和。

Microsoft 也做了很多事，比如 MatterGen 和 MatterSim，对这个领域有很大的推动。MatterGen 用生成式的方法，给出材料性质，就可以推测和推理出该材料可能的组分构型。

学术界：英国 Andy Cooper 团队、美国 Gerbrand Ceder 团队，都用机器人的方式自主化地去发现新材料、改革制备工艺，效率有特别大的提升。

新兴公司：DeepMind、Microsoft 和 Meta 的一些人合作成立了一个新实验室叫 Periodic Labs，这是由 Google 的各种 X-Labs 出来的团队，估值非常高，要用 AI 和机器人变革材料科学。最近 Jeff Bezos 也有动作，号称要投资 62 亿美元，这是他卸任 Amazon CEO 之后唯一一次在一家公司担任管理角色去推动的事——他做的叫 Physical AI，材料科学可能是其中的一个板块。

在行业进步的带领下，我们现在面临的是 AI 在材料领域的应用，仔细看你会发现，大家都是从数据开始做的。

我列出来一些材料科学数据领域的进步。过去两个诺贝尔奖（化学奖和物理奖）多多少少都是 AI 方向的，但本质都是数据的进步。所以近期 Google DeepMind、Meta、Microsoft 都开始做这样的数据集。在国际范围内，这条技术路线已经勾画得非常清楚了。

如何去做？

这些大公司都在做的一件事是：用密度泛函理论（DFT）去做计算。计算一个材料已经非常容易，于是可以批量计算材料的性质——根源是解密度泛函理论，也就是解电子的薛定谔方程；知道电子的行为之后，就可以推测出材料的各种性质。这已经是非常稀松平常的事了。

这就是科学发展的“第四范式”：在数据基础之上，做各种各样的 AI 工具。回头看，数据计算的奠基人和先驱者是 Materials Project，之后各国科研机构都开始做。近期 Google、Microsoft、Meta 也都加入。我们是在中科院物理研究所和松山湖材料实验室下面做这件事，现在这个实验室一部分也被独立为东莞材料科学与技术研究所。

我们这个项目叫 Atomly，其实启动得非常早，2018 年就启动了，相当于在中国本土建了一个 Materials Project。美国Materials Project 的数据质量和数量都非常好，在这种数据质量的基础上，可以用数据做很多人工智能的发现和建模。我们做的事情和它没有本质区别，但在计算量和计算精度上有比较大的提升：

网站所有数据都是我们自主生产出来的，有 34 万个无机晶体材料，数据量大概是 Materials Project 的一倍多。目前已有 8000 多个注册用户，很多用户在日常工作学习中用我们的数据库做材料性质的初探。

Atomly 这个数据库比较厉害的地方是：有了这些数据，可以做化学反应类型的计算，速度非常快。背后的原理是：我们没有去发展密度泛函理论，而是把 DFT 做成一个产生数据的 Agent，通过高通量的方式不停做计算。这套背后的工作流是我们自主开发的，现在看起来稀松平常，但 2018 年开发时技术上还是有难度的。

在这种情况下，我们具备了一个和国外齐平的数据生产能力。Materials Project 能做的事，我们几乎都能做；在某些领域，我们的数据量还更大一些，所以我们可以部分实现国产替代。

最近我们在用 R2-SCAN level 的计算去算新数据，以及之前大家不太算的数据，比如光学计算。未来大概半年到一年之内，我们会有一个光学数据库出现，会给大家提供光吸收等性质的描述。

ICSD（无机晶体结构数据库）里人类已发现的已知材料很快会被算尽，所以我们通过元素替代的方式不断扩增化学空间。

Atomly 一个特别好的优势是可以算化学反应。一旦可以算化学反应，就可以比较化合物的形成能：化合物 A 和 B 反应时，放热本领最大的肯定是最稳定的。通过这种方式可以定量地描述任意一个结构是否稳定。Google 的 GNoME 就是用这套方式做的，所以这套方式现在变得非常时髦。

举几个具体例子：

超导体发现：已知一个化合物之后，我们替换元素做高通量计算，找到这个空间里哪些化合物是稳定的，发表出来指导实验。我们从数据库里筛选出和 MgB₂（二硼化镁）结构类似的一个超导体——从筛选到实验合成，只用了 3 个月时间就把新材料发现出来。

全固态电池：现在做电池有一个困难是，电极材料和电解质材料会发生副反应——界面处的副反应会让电池的效率和循环性能变低。解决方案是找一层中间层把电极和电解质隔开。我们有这样一个工作流，可以从 5 万多个化合物中筛选出几十个比较好的镀层材料。我们还筛选了电池的正极材料，找到了一个氟化物的钠电池材料，如果合成出来，其性能超过现在的磷酸铁锂。这些已经被我们申请成了专利。

我们还可以用这些数据做人工智能模型。一旦标定出来一个化合物中原子在不同构型时的受力和键能，我们就可以预测任意结构的键能和受力。这样我们就做出了一个通用力场 GPT-FF，基于一些特殊的嵌入，加入了键角这样的描述，在元素的投影上把电子轨道的行为投影在球形函数上。

2024 年我们发布时，GPT-FF 在行业里是比较领先的，比美国 MIT 的 CHGNet、M3GNet 都要好一些。几个月之后，MatterSim 在更大的数据下把力场又往前推了一步。

我们最近对我们的力场进行了效率评估，发现它的效率非常高，性能又比当时其他力场好一些。它的应用场景包括：

- 预测材料稳定性：给定一个原子在空间摆开的构型，力场可以快速把它带到平衡态的位置。

- 微调（Fine-tune）：在预训练力场的基础上，用少量数据就可以微调到更合理的情况，比如可以分辨钛金属体系从 HCP 到 FCC 的相变，这在传统经验势能（empirical potential）里一直是难点。

- 离子晶体分子动力学：我们对一个流行的全固态电解质做了离子扩散率的模拟，结果和实验值非常接近。

GPT-FF 力场的所有参数都全部公开，大家可以下载、开箱即用，是一个很好的开源工具。

我们还在做一件事情：用它快速扫描化合物中的势能面，获得离子输运的精准计算。开发出来的快速通道工具包可以快速模拟锂离子、钠离子电池材料中的离子输运，比传统 DFT 快大概 100 倍，与实验值和其他力场的比值都非常接近。这是电池材料计算中核心的一步，传统上做电池材料筛选到这一步是没办法做的，但有了这套人工智能力场就可以快速解锁。

如何选择科学问题？

传统上大家做这些 AI 的事情时，都以数据为起点或判据。如果数据是合适的，你就可以拿这些数据做合适的科学问题。

DeepMind 其实是挑选问题的高手。他们选 AlphaGo 的原因是因为围棋的数据质量非常高，不存在主观偏见、模糊的问题，预测指标也非常清晰。

所以选择科学问题永远是人工智能领域最重要的一步。怎么选择？拿数据来做一个非常重要的判据。

我们最近在做 MatChat 智能体。

- 2023 年：用 Llama 2 做了一些训练，发现有迹象，但难度和资源需求都非常大。

- 2024 年：发现可以用 RAG（检索增强生成）模式去做。

- 2025 年：上线了第一版，包含 28 万篇论文。

- 2026 年 3 月：发布 2.0 版本，包含 80 万篇论文，可以快速查询和写作论文。

第三版我们包含了大量文献检索的全文内容。检索出来之后，会根据检索结果直接给出参考文献。未来还会具备写作功能——我们背后有一个 skill 可以写综述论文，调用 MatChat 的 API 之后可以直接用它写综述论文。

隐私计算：我们做了一个用隐私计算保护数据的开放平台。数据上传后，作为数据拥有者，你可以选择数据“可用不可见”。这样大家可以登录访问你的数据但看不到真实的值，只能看到它的元结构，用这种结构调用你的数据做 AI 模型。

机器人科学家：我们用工业协作机器人把自动化合成在实验室里变成真实场景。我们实验室已经开始用这套东西合成材料，合成效率非常高。

国内这类实验室非常多，但基本都是基于溶液或溶液化学的；像我们这样全固态、机器人处理粉末、放在高温环境烧结的机器人实验室其实非常稀缺，而这又是材料科学里非常重要的合成步骤。我们也是国内为数不多、有能力对标美国 A-Lab 做这样合成的几家单位之一。

AI for Science 期刊：这是我们最近办的一本期刊，由松山湖材料实验室和东莞材料所主办，编委非常国际化。期刊一半以上的论文来自国际海外作者，发表在我们这里能保证全世界都能看到你的工作。今年 10 月我们还会开一个 AI for Science 会议，邀请到了很多国际知名的领域大咖。现在开放获取，全免费，欢迎大家投稿。

互动提问

提问 1：10 年后的材料实验室会是什么样子？

刘淼：这是个开放性的问题，我没有答案。因为这个领域发展太快了，顶多能看个两三年。

但总的来说，我们可以看一下生物医药的发展，他们比材料科学发展早一点点。几乎所有材料科学里经历的事情，生物医药里其实已经做过了一遍——他们至少早 20 年就知道用 AI 计算找药，他们有各种各样的人工智能方案做新药发现，或者类似的软件/硬件产品。除了生物医药，材料科学可能是第二个在数据上具备类似发现或突破的领域。我觉得还是很有希望——既有很多未知，又有很多希望。

提问 2：DeepMind、Microsoft 发 Nature 都不再公布数据和模型了。你们把 GPT-FF 和材料数据库都免费开放，对国内免费是出于什么考虑？

刘淼：其实他们没有公布数据，但还是公布模型的。开源的意思不是“模型 + 数据 + 训练方式”全部开源，而是只公开参数。这又回到我报告的主题：数据很重要。所以各个领域的大模型公司，包括图像、世界模型、大语言模型，都不公开数据。材料科学也在朝这个方向发展。

这也是未来的趋势：数据将会成为这个行业的壁垒，其他的都不会是壁垒。模型已经不重要了，因为模型的壁垒已经非常小——你的模型比我的模型在同样数据底下效率高一点点，这种差异已经小到看不出来了。接下来无非就是怎么做数据，这会成为这个行业唯一的壁垒。在这种数据高价值的情况下，大家是不会把数据放出来的。我们的数据有些开放给大家浏览，但作为供机器学习使用的数据，没有人会放出来。

如果你要做这个行业或者任何 AI 相关的行业，如果没有在数据上占到先机，you will never make it（永远做不成）。每个企业都是这样。所以学生、投资人、每个行业的人都可以看一下：你要去的这家公司，在数据上是不是有先机——如果没有数据先机，there is no way you can go。

提问 3：你们 80 万篇论文的数据是怎么清洗的？

刘淼：首先，我们在一个学术机构里面，有一些资源和条件可以获得论文全文。拿到论文全文之后，把 PDF 变成可用的数据，这里我们用到了浦江实验室的 MinerU 这一类的智能文档解析工具。这种行业先进的工具用起来，可以让某一个细节变得更好。

我想今天在座的我们几位都是在做科学的工程化。在这个行业里，科学已经做到一定程度的时候，可以通过工程化的方式让它变成生产力工具，把它做成产品、做成大家可以使用的工具的过程中，其实是工程思维——每个细节都到位，最后产品才能比较好。任何一个细节不考虑，最后产品就会因为那一个细节显示出不好的地方。

提问 4：做 AI 的人很多都被业界高薪吸引过去了。AI for Science 如何长期有系统地做下去？高校研究所有竞争力吗？

刘淼：我的感受是，这个领域做 AI + 科学的人，更多是从科学出身的。如果你单纯是 AI 出身，在这个领域很难往下做深入发展。做 AI 的人虽然工资很高，但那些做“生化环材”四大“火坑”专业的人出来，在 AI + 科学领域做事，对他们来说可能是一个让自己往更前沿方向走的机会。

人类社会人很多，每个人做的事情不一样，如果大家都做一样的事就没意思了。我们也希望吸引进来的人不是看钱，而是在思考“怎么样去创造价值”。这中间有一些有意思的、自己感兴趣的、好玩的事情。我相信这个领域还会不停地吸引人进来，至少我看到我们新进来的研究生干劲十足，所以我丝毫不担心这个问题。

最近我看了 Yann LeCun（杨立昆）的一个播客访谈，他提出一个观点：如果你现在去一个大厂或者企业做大语言模型，或者在研究生阶段学 LLM，其实非常无聊。我回头思考一下我们团队在做什么——有做基础设施的、有做产品的、有做数据的、有做模型的，这其实和一个大语言模型公司做的事非常相似，相当于他们的早期阶段。所以这个领域其实就像大语言模型的早期阶段，映射到我们这个行业中，因此这个领域是蓬勃发展的。

在这个阶段，与其去一个成熟企业、成熟方向里做一只小蚂蚁，不如来我们这个行业，做一个行业成长期、早期进来的独角兽。这就是我们在这件事上的取舍。

作者简介

刘淼，中国科学院物理研究所 /松山湖材料实验室研究员、博士生导师，曾任国际材料基因组计划（Materials Project）的核心开发人员。长期致力于“材料大数据+人工智能”方向，带领团队创立了Atomly.net材料科学数据库、GPTFF人工智能通用力场、matchat材料科学智能体等多项工具。

想要了解更多AI for Science创业项目？有BP想要投送？或者想来分享你的真知灼见？添加果壳硬科技企业微信，私信沟通。

未来光锥

部分已投项目

华天航空动力

丨天璇新材料

关注话题

闭门活动

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.