![]()
2012年,当深度学习在ImageNet上掀起风暴时,Heather Kulik还在MIT读博。她的导师问她:要不要试试把机器学习和量子化学结合?
「那时候这不算正经研究方向。」Kulik回忆。没人觉得神经网络能搞定电子结构问题。她成了最早一批「AI for Science」实践者——比这个标签流行早了整整十年。
现在她是MIT材料科学与工程系教授,实验室里同时跑着分子模拟和生成式AI。她的团队最近干了一件事:用AI设计出一种全新聚合物,实验室测下来韧性是现有材料的4倍。合成化学家看到结构时懵了——这设计违反直觉,但AI发现了一个连人类专家都没注意到的量子力学效应。
不过Kulik对行业现状很清醒。她给所有想复制AlphaFold神话的人泼了盆冷水:材料科学没有「单一目标函数」,也没有像蛋白质数据库那样干净的标准化数据。她的22原子配体测试至今没一个大模型能稳定通过——这任务任何化学专家一秒钟就能完成。
这篇访谈值得所有AI for Science从业者细读。不是成功学叙事,是一个在前线打了十年仗的人,告诉你哪些坑是真的,哪些胜利经得起实验室检验。
「AI发现了一个我们没教过它的量子效应」
Kulik团队的聚合物项目始于一个实际问题:能不能用AI设计更强韧的材料?
她和合作者选了聚酰亚胺——一类已经研究几十年的高性能聚合物,常用于航空航天和柔性电子。传统方法是 tweak 已知结构:换个侧链,调调交联密度。Kulik团队换了个思路:让生成模型在化学空间里自由探索,然后用物理仿真筛选。
关键突破发生在验证环节。AI提出的一个候选结构,合成化学家看了直摇头。那个设计让某些化学键以非常规方式断裂——按经验,这会导致材料变脆。
「但AI算出来,这种断裂模式会耗散更多能量。」Kulik解释。团队被说服做了合成,结果测下来韧性提升400%。后来他们才搞清楚:AI捕捉到了一个纯粹的量子力学效应,涉及电子云在键断裂时的重排。这个效应在经典分子力学里根本不存在。
换句话说,AI从数据中学到了人类专家没编码过的物理规律。
这个案例被Kulik反复提及,不是因为它是「AI颠覆科学」的公关素材。恰恰相反,她强调这个胜利的脆弱性:如果合成团队不信任AI的奇怪建议,如果验证环节省掉了昂贵的实验,如果物理仿真的精度差一点点——这个故事就不存在。
「实验室才是终审法庭。」她说。Nature doesn't care about your hype.
22原子测试:大模型的化学直觉有多差
每次主流LLM更新,Kulik都会做一个简单测试:设计一个配体,恰好包含22个重原子(非氢原子)。
这任务对任何配位化学专家 trivial 到可笑。你心里有数:金属中心配位数多少,每个配位点需要几个原子,桥连还是螯合——几秒钟草图就出来了。
但Kulik测试了GPT-4、Claude、Gemini的多个版本,「至今没一个能稳定成功」。它们要么数错原子数,要么化学结构不合理,要么给出的合成路线不存在。
「这有点像草莓里有几个r的问题。」她调侃。但化学版更尴尬:大模型能背诵配位化学的教科书内容,能写看似合理的反应机理,却在最基础的构造任务上翻车。
访谈录制三个月后,Latent Space团队做了跟进测试。他们让Claude和GPT-4分别为两类体系设计22原子配体:激酶蛋白(Kinase)和金属有机框架(MOF)。
激酶任务,两者都对了。Claude调用了RDKit做迭代优化,ChatGPT直接一次生成成功。
MOF任务,两者都错了。生成的配体原子数在21到24之间浮动,而且固执地坚持自己数对了。当被告知错误时,模型会道歉、重新计算、然后给出另一个错误答案。
Kulik认为这暴露了核心问题:LLM的化学知识是文本统计模式,不是可操作的结构直觉。它们知道「双齿配体」的定义,但不知道在三维空间里怎么拼出恰好22个原子的结构。
「这不是数据量的问题。」她说。即使喂给模型几百万个晶体结构,如果没有显式的几何推理能力,22原子测试依然会失败。
为什么没有「材料界的AlphaFold」
这是访谈标题问题,也是Kulik被问最多的问题。她的答案分三层。
第一层:目标函数不统一。
蛋白质折叠有明确终点:预测结构与实验测得的晶体结构一致,用RMSD量化。材料科学没有等价物。同一个材料,你要优化导电性还是机械强度?热稳定性还是可加工性?这些目标经常互相矛盾。
「客户说我要更好的电池材料,这不是有效需求。」Kulik吐槽。能量密度?循环寿命?安全性?成本?每个方向的最优解完全不同。
第二层:数据质量与标准化。
蛋白质数据库(PDB)经过几十年整理,有统一的格式、质量控制、实验方法标注。材料数据散落在数万篇论文里,合成条件描述方式各异,「室温」可以指15度到30度,「快速冷却」没有统一速率。
Kulik团队花大量时间做数据清洗。她估计,原始文献数据能直接用的不到10%。大部分时候需要重新计算、重新标注、甚至联系原作者确认细节。
第三层:验证成本。
AlphaFold的预测可以用冷冻电镜或X射线晶体学快速验证。新材料必须合成、表征、测试——周期以周或月计,成本从几千到几十万美元。
这创造了一个危险的激励结构:发表计算预测比验证它容易得多。Kulik见过太多「AI发现新材料」的论文,从未被实验检验。她自己的实验室坚持「计算-合成-测试」闭环,但这意味着产出速度慢一个数量级。
![]()
「我们发论文的数量可能只有纯计算组的一半。」她说。但那些经过实验室检验的结果,被产业界引用的概率高得多。
给从业者的实操建议
访谈后半段,Kulik分享了十年踩坑经验。没有宏大叙事,全是细节。
关于领域知识:
「AI for Science不是让AI替代科学家,是让科学家用AI放大能力。」她见过太多反例:纯计算机背景的团队,用标准图神经网络处理晶体结构,没考虑周期边界条件,结果模型在测试集上表现优异,实际预测完全错误。
她的团队每个项目都有材料科学家深度参与。不是挂名,是每天讨论:这个特征物理意义是什么?这个预测违反哪些已知规律?
关于数据:
不要迷信大数据。Kulik的聚合物项目,训练数据只有几千个经过精心筛选的结构。「质量比数量重要一个数量级。」她建议新手从文献中手动整理100个高质量数据点,比下载10万个未经验证的计算结果更有价值。
另一个陷阱:计算数据与实验数据的分布偏移。很多团队用密度泛函理论(DFT)计算的数据训练模型,然后直接预测实验性质。但DFT本身有系统误差,对某些性质(如带隙)低估30%是常态。模型学得越好,离实验越远。
关于模型选择:
Kulik对当前大模型热潮保持警惕。她的22原子测试就是刻意设计的「简单任务复杂化」案例——大模型在需要精确结构推理时不可靠。
她的团队主要用两类工具:物理启发的机器学习势(用于快速模拟),和针对特定化学空间的生成模型(用于结构探索)。两者都不追求通用性,但在各自任务上有可验证的精度。
「不要用锤子找钉子。」她说。先定义科学问题,再选工具,而不是反过来。
产业合作的真实面貌
Kulik与多家电池、化工企业有合作。她描述了AI for Science产业化的典型困境。
企业客户常被媒体误导,期待「输入需求,输出配方」的魔法。实际流程是:先花3-6个月理解客户的真实约束(成本上限、现有产线兼容性、监管要求),再花同样时间整理相关数据,然后才能进入模型开发。
「最耗时的部分不是训练模型,是对齐预期。」她说。有客户要求「6个月内找到下一代固态电解质」,但不愿意提供现有配方的失败数据——而这些负面数据对模型至关重要。
成功的合作有共同特征:客户指派懂技术的对接人,愿意分享未发表的实验结果,接受「计算筛选+实验验证」的迭代节奏。Kulik的团队最近完成的一个电池项目,从启动到验证花了18个月,最终找到的材料能量密度提升15%——不算革命性,但客户愿意量产。
「产业界要的是可重复、可放大、成本可控的改进。」她说。不是Nature封面,是供应链上的确定性。
未来三年的务实预测
访谈最后,Kulik被问到对AI for Science的展望。她没有谈AGI或科学革命,给出了三个具体判断。
第一,多尺度建模的整合会加速。
当前瓶颈在于:量子力学算得准但太慢,分子力学快但不准,连续介质模型适合工程尺度但丢失原子细节。机器学习正在打通这些尺度——不是用单一模型,而是用神经网络学习不同尺度间的映射关系。
Kulik团队最近在做的,是用图神经网络预测DFT能量,再用这个结果训练更粗粒度的力场。层层嵌套,最终能在分钟级模拟微米尺度的材料行为。
第二,自主实验(self-driving lab)会改变数据生产。
机器人合成平台+在线表征+闭环优化,这个组合还在早期,但Kulik认为未来三年会有质变。她的实验室正在搭建小规模版本:AI提出候选结构,机械臂执行合成,原位光谱实时反馈。
关键优势不是速度,是探索空间的系统性。人类实验者倾向于测试「看起来合理」的结构,AI没有这种偏见——这正是那个4倍韧性聚合物的来源。
第三,评估标准会收紧。
Kulik预测,期刊和资助机构会要求更高的实验验证门槛。「AI预测」单独作为成果的空间在缩小,「AI指导的发现」需要配套实验证据。
这对从业者既是压力也是机会。愿意做重活、建闭环的团队,会积累难以复制的数据资产。
访谈结束前,Kulik提到一个细节:她的22原子测试,最近有个学生用开源化学信息学工具(RDKit+自定义脚本)做了自动化验证。不是用大模型,是传统算法+规则引擎,准确率100%。
「有时候最老的工具,配上对问题的真正理解,比最新的黑箱更可靠。」
这让人想起她的开场白:她做AI for Science的时候,这还不是个热门标签。现在标签热了,但前线的工作方式没有本质变化——深度整合领域知识,保持怀疑,让实验室说话。
下一个版本的Claude或GPT,能不能通过22原子测试?Kulik说她会继续测。但即使通过了,也只是通过了测试——真正的化学直觉,体现在知道什么时候该问这个问题,以及为什么恰好是22个原子。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.