Heather Kulik：AI设计新材料4倍韧性|科学|原子|化学|实验|聚合物|新型高温超导体

Heather Kulik：AI设计新材料4倍韧性

2026-03-26 12:04:23　来源: 算力游侠

北京举报

分享至

2012年，当深度学习在ImageNet上掀起风暴时，Heather Kulik还在MIT读博。她的导师问她：要不要试试把机器学习和量子化学结合？

「那时候这不算正经研究方向。」Kulik回忆。没人觉得神经网络能搞定电子结构问题。她成了最早一批「AI for Science」实践者——比这个标签流行早了整整十年。

现在她是MIT材料科学与工程系教授，实验室里同时跑着分子模拟和生成式AI。她的团队最近干了一件事：用AI设计出一种全新聚合物，实验室测下来韧性是现有材料的4倍。合成化学家看到结构时懵了——这设计违反直觉，但AI发现了一个连人类专家都没注意到的量子力学效应。

不过Kulik对行业现状很清醒。她给所有想复制AlphaFold神话的人泼了盆冷水：材料科学没有「单一目标函数」，也没有像蛋白质数据库那样干净的标准化数据。她的22原子配体测试至今没一个大模型能稳定通过——这任务任何化学专家一秒钟就能完成。

这篇访谈值得所有AI for Science从业者细读。不是成功学叙事，是一个在前线打了十年仗的人，告诉你哪些坑是真的，哪些胜利经得起实验室检验。

「AI发现了一个我们没教过它的量子效应」

Kulik团队的聚合物项目始于一个实际问题：能不能用AI设计更强韧的材料？

她和合作者选了聚酰亚胺——一类已经研究几十年的高性能聚合物，常用于航空航天和柔性电子。传统方法是 tweak 已知结构：换个侧链，调调交联密度。Kulik团队换了个思路：让生成模型在化学空间里自由探索，然后用物理仿真筛选。

关键突破发生在验证环节。AI提出的一个候选结构，合成化学家看了直摇头。那个设计让某些化学键以非常规方式断裂——按经验，这会导致材料变脆。

「但AI算出来，这种断裂模式会耗散更多能量。」Kulik解释。团队被说服做了合成，结果测下来韧性提升400%。后来他们才搞清楚：AI捕捉到了一个纯粹的量子力学效应，涉及电子云在键断裂时的重排。这个效应在经典分子力学里根本不存在。

换句话说，AI从数据中学到了人类专家没编码过的物理规律。

这个案例被Kulik反复提及，不是因为它是「AI颠覆科学」的公关素材。恰恰相反，她强调这个胜利的脆弱性：如果合成团队不信任AI的奇怪建议，如果验证环节省掉了昂贵的实验，如果物理仿真的精度差一点点——这个故事就不存在。

「实验室才是终审法庭。」她说。Nature doesn't care about your hype.

22原子测试：大模型的化学直觉有多差

每次主流LLM更新，Kulik都会做一个简单测试：设计一个配体，恰好包含22个重原子（非氢原子）。

这任务对任何配位化学专家 trivial 到可笑。你心里有数：金属中心配位数多少，每个配位点需要几个原子，桥连还是螯合——几秒钟草图就出来了。

但Kulik测试了GPT-4、Claude、Gemini的多个版本，「至今没一个能稳定成功」。它们要么数错原子数，要么化学结构不合理，要么给出的合成路线不存在。

「这有点像草莓里有几个r的问题。」她调侃。但化学版更尴尬：大模型能背诵配位化学的教科书内容，能写看似合理的反应机理，却在最基础的构造任务上翻车。

访谈录制三个月后，Latent Space团队做了跟进测试。他们让Claude和GPT-4分别为两类体系设计22原子配体：激酶蛋白（Kinase）和金属有机框架（MOF）。

激酶任务，两者都对了。Claude调用了RDKit做迭代优化，ChatGPT直接一次生成成功。

MOF任务，两者都错了。生成的配体原子数在21到24之间浮动，而且固执地坚持自己数对了。当被告知错误时，模型会道歉、重新计算、然后给出另一个错误答案。

Kulik认为这暴露了核心问题：LLM的化学知识是文本统计模式，不是可操作的结构直觉。它们知道「双齿配体」的定义，但不知道在三维空间里怎么拼出恰好22个原子的结构。

「这不是数据量的问题。」她说。即使喂给模型几百万个晶体结构，如果没有显式的几何推理能力，22原子测试依然会失败。

为什么没有「材料界的AlphaFold」

这是访谈标题问题，也是Kulik被问最多的问题。她的答案分三层。

第一层：目标函数不统一。

蛋白质折叠有明确终点：预测结构与实验测得的晶体结构一致，用RMSD量化。材料科学没有等价物。同一个材料，你要优化导电性还是机械强度？热稳定性还是可加工性？这些目标经常互相矛盾。

「客户说我要更好的电池材料，这不是有效需求。」Kulik吐槽。能量密度？循环寿命？安全性？成本？每个方向的最优解完全不同。

第二层：数据质量与标准化。

蛋白质数据库（PDB）经过几十年整理，有统一的格式、质量控制、实验方法标注。材料数据散落在数万篇论文里，合成条件描述方式各异，「室温」可以指15度到30度，「快速冷却」没有统一速率。

Kulik团队花大量时间做数据清洗。她估计，原始文献数据能直接用的不到10%。大部分时候需要重新计算、重新标注、甚至联系原作者确认细节。

第三层：验证成本。

AlphaFold的预测可以用冷冻电镜或X射线晶体学快速验证。新材料必须合成、表征、测试——周期以周或月计，成本从几千到几十万美元。

这创造了一个危险的激励结构：发表计算预测比验证它容易得多。Kulik见过太多「AI发现新材料」的论文，从未被实验检验。她自己的实验室坚持「计算-合成-测试」闭环，但这意味着产出速度慢一个数量级。

「我们发论文的数量可能只有纯计算组的一半。」她说。但那些经过实验室检验的结果，被产业界引用的概率高得多。

给从业者的实操建议

访谈后半段，Kulik分享了十年踩坑经验。没有宏大叙事，全是细节。

关于领域知识：

「AI for Science不是让AI替代科学家，是让科学家用AI放大能力。」她见过太多反例：纯计算机背景的团队，用标准图神经网络处理晶体结构，没考虑周期边界条件，结果模型在测试集上表现优异，实际预测完全错误。

她的团队每个项目都有材料科学家深度参与。不是挂名，是每天讨论：这个特征物理意义是什么？这个预测违反哪些已知规律？

关于数据：

不要迷信大数据。Kulik的聚合物项目，训练数据只有几千个经过精心筛选的结构。「质量比数量重要一个数量级。」她建议新手从文献中手动整理100个高质量数据点，比下载10万个未经验证的计算结果更有价值。

另一个陷阱：计算数据与实验数据的分布偏移。很多团队用密度泛函理论（DFT）计算的数据训练模型，然后直接预测实验性质。但DFT本身有系统误差，对某些性质（如带隙）低估30%是常态。模型学得越好，离实验越远。

关于模型选择：

Kulik对当前大模型热潮保持警惕。她的22原子测试就是刻意设计的「简单任务复杂化」案例——大模型在需要精确结构推理时不可靠。

她的团队主要用两类工具：物理启发的机器学习势（用于快速模拟），和针对特定化学空间的生成模型（用于结构探索）。两者都不追求通用性，但在各自任务上有可验证的精度。

「不要用锤子找钉子。」她说。先定义科学问题，再选工具，而不是反过来。

产业合作的真实面貌

Kulik与多家电池、化工企业有合作。她描述了AI for Science产业化的典型困境。

企业客户常被媒体误导，期待「输入需求，输出配方」的魔法。实际流程是：先花3-6个月理解客户的真实约束（成本上限、现有产线兼容性、监管要求），再花同样时间整理相关数据，然后才能进入模型开发。

「最耗时的部分不是训练模型，是对齐预期。」她说。有客户要求「6个月内找到下一代固态电解质」，但不愿意提供现有配方的失败数据——而这些负面数据对模型至关重要。

成功的合作有共同特征：客户指派懂技术的对接人，愿意分享未发表的实验结果，接受「计算筛选+实验验证」的迭代节奏。Kulik的团队最近完成的一个电池项目，从启动到验证花了18个月，最终找到的材料能量密度提升15%——不算革命性，但客户愿意量产。

「产业界要的是可重复、可放大、成本可控的改进。」她说。不是Nature封面，是供应链上的确定性。

未来三年的务实预测

访谈最后，Kulik被问到对AI for Science的展望。她没有谈AGI或科学革命，给出了三个具体判断。

第一，多尺度建模的整合会加速。

当前瓶颈在于：量子力学算得准但太慢，分子力学快但不准，连续介质模型适合工程尺度但丢失原子细节。机器学习正在打通这些尺度——不是用单一模型，而是用神经网络学习不同尺度间的映射关系。

Kulik团队最近在做的，是用图神经网络预测DFT能量，再用这个结果训练更粗粒度的力场。层层嵌套，最终能在分钟级模拟微米尺度的材料行为。

第二，自主实验（self-driving lab）会改变数据生产。

机器人合成平台+在线表征+闭环优化，这个组合还在早期，但Kulik认为未来三年会有质变。她的实验室正在搭建小规模版本：AI提出候选结构，机械臂执行合成，原位光谱实时反馈。

关键优势不是速度，是探索空间的系统性。人类实验者倾向于测试「看起来合理」的结构，AI没有这种偏见——这正是那个4倍韧性聚合物的来源。

第三，评估标准会收紧。

Kulik预测，期刊和资助机构会要求更高的实验验证门槛。「AI预测」单独作为成果的空间在缩小，「AI指导的发现」需要配套实验证据。

这对从业者既是压力也是机会。愿意做重活、建闭环的团队，会积累难以复制的数据资产。

访谈结束前，Kulik提到一个细节：她的22原子测试，最近有个学生用开源化学信息学工具（RDKit+自定义脚本）做了自动化验证。不是用大模型，是传统算法+规则引擎，准确率100%。

「有时候最老的工具，配上对问题的真正理解，比最新的黑箱更可靠。」

这让人想起她的开场白：她做AI for Science的时候，这还不是个热门标签。现在标签热了，但前线的工作方式没有本质变化——深度整合领域知识，保持怀疑，让实验室说话。

下一个版本的Claude或GPT，能不能通过22原子测试？Kulik说她会继续测。但即使通过了，也只是通过了测试——真正的化学直觉，体现在知道什么时候该问这个问题，以及为什么恰好是22个原子。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Heather Kulik：AI设计新材料4倍韧性

「AI发现了一个我们没教过它的量子效应」

22原子测试：大模型的化学直觉有多差

为什么没有「材料界的AlphaFold」

给从业者的实操建议

产业合作的真实面貌

未来三年的务实预测

OpenAI“复活”了QQ宠物，网友直接玩疯

牛弹琴：特朗普大怒使出三板斧报复 德国还是怂了

牛弹琴：特朗普大怒使出三板斧报复 德国还是怂了

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

黄晓明五一带娃去游乐场 父子幸福同框

后巴菲特时代，首场股东会透露了啥

态度原创

五一楼市彻底明牌！塔尖人群都在重仓凯旋新世界

干细胞治烧烫伤面临这些“瓶颈”

LPL第二赛段：鞋底不够厚，BLG三局战胜NIP

伊朗公布伊方最新谈判方案

牛弹琴：特朗普大怒使出三板斧报复德国还是怂了

牛弹琴：特朗普大怒使出三板斧报复德国还是怂了

曼联3-2双杀利物浦!提前三轮锁定欧冠资格梅努制胜

黄晓明五一带娃去游乐场父子幸福同框