网易首页 > 网易号 > 正文 申请入驻

Nat. Commun. | 加速有机合成过渡态搜索的反应机器学习势函数

0
分享至

来源:市场资讯

(来源:DrugAI)

近日,大连理工大学刘奇磊副教授在《Nature Communications》发表了题为“Reactive machine learning potential for accelerating transition state search in organic synthesis”的研究论文。该论文围绕有机合成反应动力学中的过渡态搜索难题,构建了覆盖十类主族元素的大规模有机反应过渡态数据库DORTS,基于该数据库开发了适用于有机合成的机器学习势函数DeePEST-OS,并系统展示了其在有机反应过渡态搜索、能垒预测和复杂合成路线评估中的应用潜力。


在有机合成研究中,过渡态结构与反应能垒是理解反应速率、选择性和反应路径的关键。然而,传统密度泛函理论(DFT)虽然精度较高,却需要昂贵的能量、梯度和Hessian计算,难以支撑大规模反应网络探索。半经验量子化学方法如GFN2-xTB速度更快,但在精确结构与能量预测上仍存在明显局限。如何兼顾DFT级别的可靠性与高通量筛选所需的效率,正是当前计算化学与机器学习交叉领域的重要问题。

针对这一瓶颈,研究团队提出DeePEST-OS(Deep learning-based molecular Potential Energy Surface prediction Tool for Organic Synthesis)。该模型将GFN2-xTB的物理先验与高阶等变消息传递网络MACE结合,通过Δ-learning策略学习半经验方法与高精度DFT之间的系统差异,从而实现对反应势能面、过渡态几何结构和反应能垒的快速预测。

DORTS:面向有机反应动力学的大规模数据库

机器学习势函数能否真正实现过渡态精准搜索,首先取决于训练数据的覆盖程度。现有常用反应数据库往往集中于C、H、O、N四类元素,难以覆盖药物分子和复杂有机合成中常见的硫、磷及卤素元素。

为解决这一问题,研究团队开发了一种混合数据构建策略(图1),从有机化学教材中收集了含C、H、O、N、P、S、F、Cl、Br、I十类主族元素的有机合成领域常见反应,涵盖取代、加成、开环/关环和分子重排等反应类型。采用基于骨架的计算机辅助分子设计方法(CAMD)与GENiniTS-RS过渡态初猜生成算法,生成数万个反应及其对应的过渡态初猜结构。为了降低数据构建成本,研究团队设计了GFN2-xTB驱动的准IRC采样策略。具体而言,首先使用GFN2-xTB对过渡态初猜进行优化并开展IRC路径分析,筛除无法通过IRC验证的结构;随后在每条反应路径上选取反应物、产物、过渡态以及正反两个方向力最大点共五类关键构象,并在这些构象附近进行简正模采样(NMS)。这一流程最终得到74,837条通过验证的有机反应路径和约750万个反应路径附近分子构象,并使用ωB97M-V/def2-TZVP水平的DFT计算获得部分构象的能量与原子力,最终构成DORTS(Database of Organic Reaction Transition States)数据库。与全DFT流程相比,这一混合数据构建策略大幅压缩了构象采样成本。以苯酚醚化反应为例,使用混合策略完成过渡态搜索、IRC搜索和NMS采样仅需18.1(核秒),而对应的全DFT流程需要182,033(核秒),前者约为后者的0.01%。


图1: DORTS构建策略。

与目前主流的Transition1x反应数据库相比,DORTS数据库在化学元素种类、反应类型、反应数量和DFT计算水平上都实现了突破,如表1所示。

表1: DORTS数据库对比Transition1x数据库。


DeePEST-OS:物理先验与等变网络协同

在模型层面,研究团队比较了PaiNN、MACE以及引入Δ-learning的MACE_deltaL架构,如图2所示。MACE作为高阶等变消息传递神经网络模型,能通过可微的四体原子簇展开框架捕捉复杂高阶相互作用,而Δ-learning则进一步引入GFN2-xTB的半经验物理先验,使模型不只依赖局部数据拟合,也能在数据稀疏区域获得更稳健的势能面约束。


图2: DeePEST-OS模型预测精度与效率。

结果显示,MACE_deltaL的能量预测平均绝对误差降至0.266 kcal/mol,原子力预测平均绝对误差降至0.380 kcal/mol/Å,明显优于纯MACE架构(能量平均绝对误差1.112 kcal/mol,原子力平均绝对误差0.819 kcal/mol/Å)和PaiNN架构(能量平均绝对误差2.948 kcal/mol,力平均绝对误差3.485 kcal/mol/Å)。基于这一结果,研究团队将表现最优的MACE_deltaL选定为最终模型。随后,在苯与亚硝酸反应的代表性测试中,MACE_deltaL在过渡态优化中达到0.17(核秒/步)的计算效率,相比DFT的1,568.8(核秒/步)提速近10,000倍;在IRC路径计算中,DeePEST-OS为0.11(核秒/步),而DFT为2,577.2(核秒/步),实现约四个数量级加速。更重要的是,DeePEST-OS对于N-O键长和N-C-H键角刚性扫描路径与DFT基准高度一致,明显优于GFN2-xTB。

精度、效率与外推能力验证

为了评估模型在未知反应上的表现,研究团队使用DORTS-1K(含1,000条未进入DORTS-9K训练集的反应)作为外部测试集。对于DFT成功优化的880个过渡态,DeePEST-OS的平均几何均方根误差为0.12 Å,优于纯MACE的0.19 Å、GFN2-xTB的0.31 Å和PaiNN的0.50 Å。在反应能垒预测上,DeePEST-OS的平均绝对误差为0.60 kcal/mol,低于1 kcal/mol的化学精度阈值,也优于纯MACE的0.93 kcal/mol和PaiNN的5.28 kcal/mol(图3a-b)。


图3: 基于测试集的精度与计算成本评估。

研究团队还构建了适用域分析方法,利用DeePEST-OS推理过程中的512维Embedding表征,计算测试样本到训练集最近邻的欧氏距离。结果显示,当最近邻距离超过0.7时,反应能垒预测平均绝对误差会超过1 kcal/mol,因此团队将0.7设定为DeePEST-OS可靠预测范围的适用域阈值(图3e)。这个设计使模型不只是给出预测结果,也能对潜在不可靠的外推样本进行提示。

在更严格的跨数据集测试中,研究团队将DeePEST-OS应用于与DORTS化学空间差异明显的Transition1x数据集。结果显示,尽管Transition1x中约97%的反应位于DORTS-9K适用域之外,DeePEST-OS仍取得了0.11 Å的平均过渡态几何均方根误差和3.80 kcal/mol的反应能垒平均绝对误差,表现出较强的外推能力(图3f)。

为了与同期端到端过渡态生成模型(React-OT)直接比较,团队还基于Transition1x数据训练了DeePEST-OS-T1x。如表2所示,在995个DeePEST-OS-T1x、React-OT和DFT均成功优化的反应上,DeePEST-OS-T1x的平均几何均方根误差为0.050 Å,优于React-OT的0.077 Å;反应能垒的平均绝对误差为0.692 kcal/mol,优于React-OT的1.038 kcal/mol;单个过渡态优化平均耗时1.4 s,也快于React-OT的1.8 s。与只输出几何结构的端到端模型相比,DeePEST-OS-T1x还能在优化过程中同步给出接近DFT水平的能量及原子力信息。

表2: DeePEST-OS对比React-OT。


面向真实有机合成应用

过渡态构象异构体常常直接影响反应能垒和选择性。传统DFT构象搜索成本高,尤其在多取代或柔性反应体系中更难高通量展开。研究团队将DeePEST-OS与此前开发的GENConf-TS过渡态构象搜索算法结合,用于筛选能量最低的过渡态构象异构体。如图4所示,在10个复杂反应的测试中,DeePEST-OS与DFT对最稳定过渡态构象的判断保持一致。以一个含C、H、O、F元素的代表性反应为例,DeePEST-OS预测的前五个过渡态构象能量排序与DFT结果一致,最稳定构象的能量误差仅为0.06 kcal/mol。这表明DeePEST-OS可以在保持DFT级精度的同时,大幅提高复杂过渡态构象空间的探索效率。


图4: 能量最小过渡态构象搜索。

随后,团队将DeePEST-OS进一步应用于药物扎托司琼的多步合成路线动力学预测。该流程首先使用RetroSynX进行逆合成路径推断,再通过GENiniTS-RS生成过渡态初猜,并由GENConf-TS产生构象异构体,最终使用DeePEST-OS筛选最稳定中间体和过渡态构象并计算吉布斯自由能垒。如图5所示,在扎托司琼多步反应路径中,DeePEST-OS预测的能垒与DFT基准高度一致。其过渡态/中间体平均几何均方根误差为0.16 Å,吉布斯自由能垒平均绝对误差为1.18 kcal/mol;相比之下,GFN2-xTB对应的平均几何均方根误差为0.43 Å,能垒平均绝对误差高达10.00 kcal/mol。值得注意的是,其中TS_3rd_2和TS_4th涉及51原子体系,已经超过DORTS数据库中单反应体系的最大原子数范围,仍能被DeePEST-OS准确预测,一定程度说明DeePEST-OS并非简单记忆训练数据,而是在一定程度上学习了可迁移的原子相互作用模式。


图5: DeePEST-OS应用于扎托司琼药物逆合成路线反应势能面预测。

研究还使用Diels-Alder反应的endo/exo非对映选择性开展实验相关验证。理论上,endo与exo插入路径的吉布斯自由能垒差ΔΔG与实验de值相关。团队对11个不同反应物开展分析后发现,DFT计算ΔΔG与实验de的线性拟合R2为0.82(图6b),而DeePEST-OS预测ΔΔG与实验de的R2为0.76(图6c)。虽然略低于DFT,但已经显示出较强的趋势预测能力,这表明DeePEST-OS有足够潜力辅助实验探索和选择性预测。


图6: Diels-Alder反应中DeePEST-OS与DFT预测的反应吉布斯自由能垒差(ΔΔG)与实验非对映体过量值(de)的线性拟合。

研究意义与展望

总体来看,DeePEST-OS的核心价值在于同时回应了有机反应动力学研究中的两个长期矛盾:一是DFT精度与计算效率之间的矛盾,二是机器学习势函数的更新迭代与反应数据稀缺之间的矛盾。DORTS通过十类元素、七万余条反应路径和高精度能量/力标注,为有机反应机器学习势模型提供了更接近真实应用场景的数据基础;DeePEST-OS则通过Δ-learning将半经验物理先验与高阶等变消息传递神经网络融合,在过渡态搜索、反应能垒预测和复杂合成路径评估中实现了“快”与“准”的平衡。

从有机合成设计角度看,DeePEST-OS不只是一个更快的计算工具,更是将反应机理、构象搜索、逆合成路径评估和选择性预测连接起来的动力学基础模块。随着数据库、模型架构和自动化反应探索工具的继续发展,类似DeePEST-OS的反应机器学习势函数有望推动有机合成从“经验驱动”进一步走向“量子精度-高通量筛选”协同的新阶段。

该论文第一作者为大连理工大学化工学院,任凯派博士生和唐坤博士生。

参考资料

Ren, K., Tang, K., Zhao, Y. et al. Reactive machine learning potential for accelerating transition state search in organic synthesis. Nat Commun (2026).

https://doi.org/10.1038/s41467-026-72945-0

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被誉为“全球最好的降压药”,降压效果显著、作用平稳,保护心肾

被誉为“全球最好的降压药”,降压效果显著、作用平稳,保护心肾

新时代的两性情感
2026-05-09 17:15:22
人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

黯泉
2026-04-14 12:13:04
续航一夜蒸发200公里,8家新能源车企远程“锁电”被约谈,3家被立案调查

续航一夜蒸发200公里,8家新能源车企远程“锁电”被约谈,3家被立案调查

金融界
2026-05-07 18:29:15
心理学有个残忍发现:让一个人终身困在焦虑里、无法自拔,从不是缺爱缺安全感,而是这两道“埋在意识底层的心理门槛”

心理学有个残忍发现:让一个人终身困在焦虑里、无法自拔,从不是缺爱缺安全感,而是这两道“埋在意识底层的心理门槛”

心理观察局
2026-05-09 09:10:05
沈春阳大变样!瘦身后脸小一圈,下颌线清晰撞脸孔孝真

沈春阳大变样!瘦身后脸小一圈,下颌线清晰撞脸孔孝真

人间烟火记事本
2026-05-09 02:04:28
开国十位大将代表的“山头”

开国十位大将代表的“山头”

祁州校尉
2026-05-09 17:00:15
惨败收场!伊朗导弹扑向美军舰,阿帕奇疯狂扫射:仅带出2艘油轮

惨败收场!伊朗导弹扑向美军舰,阿帕奇疯狂扫射:仅带出2艘油轮

怎挽怎挽
2026-05-05 18:26:09
一条传了近30年的谣言,澄清为何那么难?

一条传了近30年的谣言,澄清为何那么难?

网络辟谣
2026-04-27 08:11:30
直到同事离职,才知道在国企:领导中,有1个很脏但真实的潜规则

直到同事离职,才知道在国企:领导中,有1个很脏但真实的潜规则

细说职场
2026-05-08 21:52:58
淘汰浙江广厦!山西男篮拒绝输球,潘江调整阵容,央视直播

淘汰浙江广厦!山西男篮拒绝输球,潘江调整阵容,央视直播

体坛瞎白话
2026-05-09 08:55:58
拒绝再被消费!梅西首次公开评价C罗,真相让无数老球迷泪目了

拒绝再被消费!梅西首次公开评价C罗,真相让无数老球迷泪目了

无人倾听无人倾听
2026-05-09 16:28:35
我工资上交妈15年,父亲住院要50万,老公却说:找你妈要去

我工资上交妈15年,父亲住院要50万,老公却说:找你妈要去

晓艾故事汇
2026-05-06 10:27:07
邱彪队内总结怒了!明确动员无效,对不起球迷,面对镜头罕见爆粗

邱彪队内总结怒了!明确动员无效,对不起球迷,面对镜头罕见爆粗

篮球资讯达人
2026-05-10 00:28:17
发现了1个残酷真相:被美军抓走的马杜罗,如今已经被彻底遗忘

发现了1个残酷真相:被美军抓走的马杜罗,如今已经被彻底遗忘

爱竞彩的小周
2026-05-08 19:53:26
国乒3转变,王皓变换新阵容,王楚钦带队起飞,女队3人也崛起了

国乒3转变,王皓变换新阵容,王楚钦带队起飞,女队3人也崛起了

阿信点评
2026-05-09 21:04:25
浙江高速上,男子开着“辅助驾驶”直接睡着,因长时间无操作,系统自动退出,停在第一车道,后方车辆紧急避让,最终被罚款400元记 9分

浙江高速上,男子开着“辅助驾驶”直接睡着,因长时间无操作,系统自动退出,停在第一车道,后方车辆紧急避让,最终被罚款400元记 9分

台州交通广播
2026-05-09 14:20:34
两性关系:人到晚年,若有异性靠近,不是桃花,是心底有了光

两性关系:人到晚年,若有异性靠近,不是桃花,是心底有了光

荷兰豆爱健康
2026-05-09 11:49:51
章子怡没想到,清空账号、划清界限的森林北,揭开汪峰仅剩的体面

章子怡没想到,清空账号、划清界限的森林北,揭开汪峰仅剩的体面

好贤观史记
2026-05-08 15:53:17
弟弟生意失败找我借150万,我正准备转账,7岁的儿子突然说:爸爸,婶婶刚在朋友圈说她们全家明天要去环球旅行

弟弟生意失败找我借150万,我正准备转账,7岁的儿子突然说:爸爸,婶婶刚在朋友圈说她们全家明天要去环球旅行

大爱三湘
2026-05-09 19:57:43
皇马的内鬼就是他!高层怀疑索拉里泄密,他的处境变得尴尬

皇马的内鬼就是他!高层怀疑索拉里泄密,他的处境变得尴尬

懂个球
2026-05-09 15:31:10
2026-05-10 05:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3160176文章数 7276关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
时尚
教育
健康
公开课

本地新闻

用苏绣的方式,打开江西婺源

伊姐周六热推:电视剧《喀什恋歌》;电视剧《低智商犯罪》......

教育要闻

“我女儿一周不换裤子”,家长吐槽反被骂:同为女人,你清楚为啥

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版