网易首页 > 网易号 > 正文 申请入驻

全球首个化学反应AI「考场」7种MLIPs模型与SOTA生成式模型同场PK

0
分享至

编辑 | ScienceAI

过渡态(Transition State, TS)是化学反应的「关键帧」,就像群山中的最低隘口,决定了分子翻山越岭所需的能量和路径。然而,TS的寿命仅有飞秒级(10⁻¹⁵秒),实验观测如同捕捉闪电一瞬——目前只能依赖量子化学计算来寻找。

传统的密度泛函理论(DFT)虽能提供高精度结果,但单次TS搜索可能消耗数十至数千CPU时,面对成百上千反应节点的复杂网络,计算成本高得难以承受。近年来,机器学习(ML)为TS搜索开辟了两条新路径:

机器学习原子间势(MLIPs)——通过神经网络学习势能面,将单点能量计算速度提升千倍,但依赖传统TS搜索框架;

生成模型——直接「脑补」TS的3D结构,跳过路径搜索步骤,类似AlphaFold颠覆蛋白质结构预测。

尽管MLIPs在常见的能量与力误差等评价指标上不断刷新排名,这些模型在端到端TS搜索任务上的真实表现仍缺乏系统评估

为了解各类ML模型在TS搜索中的实际表现,深度原理(Deep Principle)联合深势科技清华大学加州大学伯克利分校等机构开发了基于过渡态搜索框架Yet Another Reaction Program(YARP),为两种不同策略的ML模型搭建了公平的「考场」,系统性地考察了7种MLIPs(ANI-1x, CHGNet, DPA-2, LEFTNet, MACE, MatterSim和Orb)和SOTA生成式模型React-OT在过渡态搜索中的表现。

相关研究以《Harnessing Machine Learning to Enhance Transition State Search with Interatomic Potentials and Generative Models》发布在预印平台Chemrxiv上。

论文链接:https://doi.org/10.26434/chemrxiv-2025-mt6hc

端到端的过渡态搜索框架

图 1:基于MLIPs或React-OT的两种不同的端到端过渡态搜索方法。两种方法的主要区别在于TS优化的初猜结构构建方式不同,MLIP通过最小能量路径构建,React-OT则直接生成结构。

研究团队基于自动化过渡态搜索框架YARP,为两类机器学习模型(MLIPs和生成式模型)搭建了一套标准化测试流程(图 1),通过三个核心模块实现「算法剥离、能力聚焦」:

初猜生成:最小能量反应路径构建(MLIP,图 1ab)v.s.最优输运生成(React-OT,a'b')

TS优化:结合Hessian矩阵的过渡态优化

TS验证:通过内禀反应坐标(IRC)计算确认「反应物-TS-产物」精确连通

这一化学反应AI 「考场」具有如下三个亮点:

统一基准:首次在同一测试框架内集成多种MLIP(DPA-2、MACE、CHGNet、LEFTNet等)和生成模型,消除算法差异对结果的影响;
性能透明化:通过标准化流程,直接对比模型在结构优化、路径搜索、TS精度、计算效率等关键维度的表现;
应用导向:为反应性MLIP的开发提供系统全面的评测依据,助力下一代AI驱动的TS搜索方法。

MLIP的系统性评估,谁在「高考」中拔得头筹?

图 2:基于Transition1x数据集,对比七种MLIPs(ANI-1x, CHGNet, DPA-2, LEFTNet, MACE, MatterSim,和Orb)与GFN2-xTB的端到端过渡态搜索表现。分别从微调前后GSM成功率与Intended率、微调后能量与力的MAE、TS RMSD与能量误差方面进行对比,并探索显式指标与隐式指标的关系。

1.考题设计:Transition1x数据集

•Transition1x作为「高考题库」,通过Nudged Elastic Band (NEB)方法采样了约10,000个反应,总共生成了1000万个结构数据点。这些反应包含高能反应(能垒>50 kcal/mol)、多键变化反应等传统ML反应预测模型的「盲区」,适合作为TS搜索任务的「官方备考指南」和「考试真题」。

•研究者按照反应对结构数据集进行划分,训练集与测试集的几何结构零重叠,杜绝「考前泄题」。

2.评分标准:四大指标定义「优等生」

•GSM成功率:能否用Growing String Method构建连通反应物与产物的反应路径。

•Intended率:验证IRC的计算结果正确匹配目标TS的比例。

•TS质量(RMSD):优化后的TS与DFT参考结构的几何偏差。

•能垒预测精度:根据优化后TS计算得到的活化能的误差,优质模型需要达到1∼2 kcal/mol(接近DFT理论极限)。

3.成绩单曝光:MLIP的「学霸」与「黑马」

预训练模型的「集体翻车」

•尽管预训练模型在GSM成功率方面表现很好,Orb(93%)的表现甚至超过xTB(86%)。但所有模型的Intended率较低,MatterSim在所有预训练模型中表现最好(27%),DPA-2紧随其后(19%),但离xTB(62%)仍有明显差距。这主要因为模型预训练数据缺乏反应数据,因而势能面预测严重失真。

微调后的逆袭者:LEFTNet

•从头训练的LEFTNet以88%的GSM成功率和69%的Intended率登顶,TS RMSD仅0.10Å,能垒误差仅1.83kcal/mol。CHGNet和MACE-OFF23的表现紧随其后。

4.指标关联:揭开模型能力的「冰山之下」

显式与隐式指标的普适性关联

•相同架构不同训练轮次或不同架构的模型,能量和力的MAE(显式指标)均与TS搜索的隐式指标(如TS RMSD、势垒误差)对应。MAE越低,TS结构优化精度与能垒预测精度越高。

性能饱和与阈值效应

•当MAE降低至特定阈值后,GSM成功率与Intended率趋于饱和。

力预测的不同策略大比拼

图 3:对比能量求导(autograd)、直接预测(direct-force)与对以直接预测的方式训练的能量进行求导(autograd*)的表现。

在机器学习势函数(MLIP)领域,力的预测存在两大技术路线:

Autograd派:通过对势能面能量求导获取力,严格遵循物理规律

Direct-force派:直接预测原子受力(N×3矩阵),追求更高的计算效率和更精准的力的预测

策略性能对比:direct-force策略在GSM任务中的成功率较高(93%),但由于其预测的力不满足物理约束,进一步求导得到的Hessian矩阵误差较大,并且丢失了对称性。因此,该策略最终仅找到122个TS,远低于autograd策略的786个TS,且TS质量也显著逊色。

然而,direct-force策略仍具有独特优势,包括计算速度快、力预测精度更高,以及生成的GSM路径更多。因此,研究者指出,如果能在训练过程中直接预测Hessian,或利用Hessian进一步优化direct-force模型的训练,或许能获得更优的模型。

生成式模型的「弯道超车」

图 4:以LEFTNet为例对比MLIP与React-OT的表现。示例(c-e)展示不同策略下可能搜索到的TS差异。

React-OT三大颠覆性优势

•TS初猜成功率100%

•DFT优化后匹配率95%(显著高于MLIP+DFT的84%)

•结构偏差仅0.067Å(优于LEFTNet的0.077Å)

MLIP的不可替代性

•MLIP提供了更精准的TS能量预测(MAE=0.77 kcal/mol,优于React-OT的1.03 kcal/mol)

•相比专注于过渡态预测的生成式模型,MLIP可在无需DFT的情况下验证TS并探索完整的反应机理

协同作战新范式:React-OT生成初猜→ MLIPs优化验证→效率精度双提升

•更少的计算耗时

•更高的 intended 率

更好的数据库,更深入的模型交融

数据基建:突破CHNO元素限制,覆盖更完善的反应空间的数据库将是ML更好的「老师」;

模型共生:擅长结构预测的React-OT与擅长能量预测的MLIPs可相结合,实现更高效准确的TS搜索;

技术突破:攻克Hessian矩阵预测难题,解决direct-force策略的「非保守场陷阱」。

当AI考场从能量预测这一「单一试卷」升级为能量、结构、路径的三维评价体系,传统量子化学驱动的过渡态搜索正式迈入「智能评测驱动迭代」的新纪元。

这场考试不仅暴露了目前模型的短板,更指明了数据-算法-理论联合作战的突围路径,而深度原理也将继续沿着这条路径持续打造更强大的化学反应生成式大模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贪财又好色,德不配位的几位老艺术家,晚节不保一点都不冤

贪财又好色,德不配位的几位老艺术家,晚节不保一点都不冤

素衣读史
2026-01-19 12:01:39
特朗普始料未及!中国换了种方式抛售美债,美专家承认:完全没招

特朗普始料未及!中国换了种方式抛售美债,美专家承认:完全没招

晓焎科普
2026-01-29 21:11:42
一个人情商能低到什么程度?网友:我故意找茬都说不出这话

一个人情商能低到什么程度?网友:我故意找茬都说不出这话

夜深爱杂谈
2026-01-28 18:14:00
申花被足协官宣扣分第二天!马纳法就发声做出重要决定,赢得点赞

申花被足协官宣扣分第二天!马纳法就发声做出重要决定,赢得点赞

张丽说足球
2026-01-30 16:11:04
广东男篮徐杰即将复出,多支球队接触杨鸣,北京男篮欲换贝利!

广东男篮徐杰即将复出,多支球队接触杨鸣,北京男篮欲换贝利!

中国篮坛快讯
2026-01-30 14:15:53
搞笑!张皓嘉发生了失误,杜锋将观众席的徐杰、焦泊乔骂了一顿

搞笑!张皓嘉发生了失误,杜锋将观众席的徐杰、焦泊乔骂了一顿

体育哲人
2026-01-30 14:10:38
丝滑!电动车遇宝马无接触摔倒被判全责

丝滑!电动车遇宝马无接触摔倒被判全责

观威海
2026-01-30 16:10:16
特朗普无退路!中俄重大协议落实,犹太财团出头,伊朗不打也得打

特朗普无退路!中俄重大协议落实,犹太财团出头,伊朗不打也得打

纪中百大事
2026-01-30 16:18:16
人神共愤!最新数据曝光,伊朗神权政府血债累累

人神共愤!最新数据曝光,伊朗神权政府血债累累

山间听雨
2026-01-27 20:05:08
陕西省委常委李明远,有新职

陕西省委常委李明远,有新职

极目新闻
2026-01-30 11:22:17
全红婵灰色西装亮相,又甜又飒,颜值气质双开挂

全红婵灰色西装亮相,又甜又飒,颜值气质双开挂

仙味少女心
2026-01-27 16:03:07
黄金白银深夜大跳水背后,特朗普不打了?第一批受害者已出现

黄金白银深夜大跳水背后,特朗普不打了?第一批受害者已出现

三农老历
2026-01-30 16:50:22
吃他汀一颗花生不能碰?医生提醒:不止花生,这5样食物也要小心

吃他汀一颗花生不能碰?医生提醒:不止花生,这5样食物也要小心

路医生健康科普
2026-01-26 10:09:49
现货黄金失守5000美元/盎司

现货黄金失守5000美元/盎司

每日经济新闻
2026-01-30 17:51:22
贵州省委常委、贵阳市委书记胡忠雄,补选为贵州省政协副主席

贵州省委常委、贵阳市委书记胡忠雄,补选为贵州省政协副主席

新京报
2026-01-30 13:06:07
八路军成立,毛泽东看过任职名单后,暴怒:这不是欺负老实人吗?

八路军成立,毛泽东看过任职名单后,暴怒:这不是欺负老实人吗?

鹤羽说个事
2026-01-30 11:04:33
发现小猫的头被自己踢掉,女子被吓到疯狂尖叫,没想到仔细一看却瞬间无语,猫猫:基操,不要大惊小怪

发现小猫的头被自己踢掉,女子被吓到疯狂尖叫,没想到仔细一看却瞬间无语,猫猫:基操,不要大惊小怪

美芽
2026-01-30 18:34:59
长沙至广州8小时硬座仅18元?记者查询12306:属实,系反向春运优惠激活闲置运力

长沙至广州8小时硬座仅18元?记者查询12306:属实,系反向春运优惠激活闲置运力

环球网资讯
2026-01-29 16:24:38
1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

叹为观止易
2026-01-20 10:14:29
1983年严打后,重刑犯都被遣送大西北,最终是什么结局?

1983年严打后,重刑犯都被遣送大西北,最终是什么结局?

观史搜寻着
2025-12-03 22:30:28
2026-01-30 21:47:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1222文章数 223关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

一先进芯片制造工程师回国 曾在美芯片设计公司挑大梁

头条要闻

一先进芯片制造工程师回国 曾在美芯片设计公司挑大梁

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

金银闪崩,是调整还是趋势反转的开始?

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

艺术
教育
本地
公开课
军事航空

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

教育要闻

TTS新传名词解释:AIGC|网络传播学

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版