Nat. Commun. | 加速有机合成过渡态搜索的反应机器学习势函数|算法|构象|高通量|吉布斯|神经网络

Nat. Commun. | 加速有机合成过渡态搜索的反应机器学习势函数

2026-05-10 00:43:24　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：DrugAI）

近日，大连理工大学刘奇磊副教授在《Nature Communications》发表了题为“Reactive machine learning potential for accelerating transition state search in organic synthesis”的研究论文。该论文围绕有机合成反应动力学中的过渡态搜索难题，构建了覆盖十类主族元素的大规模有机反应过渡态数据库DORTS，基于该数据库开发了适用于有机合成的机器学习势函数DeePEST-OS，并系统展示了其在有机反应过渡态搜索、能垒预测和复杂合成路线评估中的应用潜力。

在有机合成研究中，过渡态结构与反应能垒是理解反应速率、选择性和反应路径的关键。然而，传统密度泛函理论（DFT）虽然精度较高，却需要昂贵的能量、梯度和Hessian计算，难以支撑大规模反应网络探索。半经验量子化学方法如GFN2-xTB速度更快，但在精确结构与能量预测上仍存在明显局限。如何兼顾DFT级别的可靠性与高通量筛选所需的效率，正是当前计算化学与机器学习交叉领域的重要问题。

针对这一瓶颈，研究团队提出DeePEST-OS（Deep learning-based molecular Potential Energy Surface prediction Tool for Organic Synthesis）。该模型将GFN2-xTB的物理先验与高阶等变消息传递网络MACE结合，通过Δ-learning策略学习半经验方法与高精度DFT之间的系统差异，从而实现对反应势能面、过渡态几何结构和反应能垒的快速预测。

DORTS：面向有机反应动力学的大规模数据库

机器学习势函数能否真正实现过渡态精准搜索，首先取决于训练数据的覆盖程度。现有常用反应数据库往往集中于C、H、O、N四类元素，难以覆盖药物分子和复杂有机合成中常见的硫、磷及卤素元素。

为解决这一问题，研究团队开发了一种混合数据构建策略（图1），从有机化学教材中收集了含C、H、O、N、P、S、F、Cl、Br、I十类主族元素的有机合成领域常见反应，涵盖取代、加成、开环/关环和分子重排等反应类型。采用基于骨架的计算机辅助分子设计方法（CAMD）与GENiniTS-RS过渡态初猜生成算法，生成数万个反应及其对应的过渡态初猜结构。为了降低数据构建成本，研究团队设计了GFN2-xTB驱动的准IRC采样策略。具体而言，首先使用GFN2-xTB对过渡态初猜进行优化并开展IRC路径分析，筛除无法通过IRC验证的结构；随后在每条反应路径上选取反应物、产物、过渡态以及正反两个方向力最大点共五类关键构象，并在这些构象附近进行简正模采样（NMS）。这一流程最终得到74,837条通过验证的有机反应路径和约750万个反应路径附近分子构象，并使用ωB97M-V/def2-TZVP水平的DFT计算获得部分构象的能量与原子力，最终构成DORTS（Database of Organic Reaction Transition States）数据库。与全DFT流程相比，这一混合数据构建策略大幅压缩了构象采样成本。以苯酚醚化反应为例，使用混合策略完成过渡态搜索、IRC搜索和NMS采样仅需18.1（核秒），而对应的全DFT流程需要182,033（核秒），前者约为后者的0.01%。

图1: DORTS构建策略。

与目前主流的Transition1x反应数据库相比，DORTS数据库在化学元素种类、反应类型、反应数量和DFT计算水平上都实现了突破，如表1所示。

表1: DORTS数据库对比Transition1x数据库。

DeePEST-OS：物理先验与等变网络协同

在模型层面，研究团队比较了PaiNN、MACE以及引入Δ-learning的MACE_deltaL架构，如图2所示。MACE作为高阶等变消息传递神经网络模型，能通过可微的四体原子簇展开框架捕捉复杂高阶相互作用，而Δ-learning则进一步引入GFN2-xTB的半经验物理先验，使模型不只依赖局部数据拟合，也能在数据稀疏区域获得更稳健的势能面约束。

图2: DeePEST-OS模型预测精度与效率。

结果显示，MACE_deltaL的能量预测平均绝对误差降至0.266 kcal/mol，原子力预测平均绝对误差降至0.380 kcal/mol/Å，明显优于纯MACE架构（能量平均绝对误差1.112 kcal/mol，原子力平均绝对误差0.819 kcal/mol/Å）和PaiNN架构（能量平均绝对误差2.948 kcal/mol，力平均绝对误差3.485 kcal/mol/Å）。基于这一结果，研究团队将表现最优的MACE_deltaL选定为最终模型。随后，在苯与亚硝酸反应的代表性测试中，MACE_deltaL在过渡态优化中达到0.17（核秒/步）的计算效率，相比DFT的1,568.8（核秒/步）提速近10,000倍；在IRC路径计算中，DeePEST-OS为0.11（核秒/步），而DFT为2,577.2（核秒/步），实现约四个数量级加速。更重要的是，DeePEST-OS对于N-O键长和N-C-H键角刚性扫描路径与DFT基准高度一致，明显优于GFN2-xTB。

精度、效率与外推能力验证

为了评估模型在未知反应上的表现，研究团队使用DORTS-1K（含1,000条未进入DORTS-9K训练集的反应）作为外部测试集。对于DFT成功优化的880个过渡态，DeePEST-OS的平均几何均方根误差为0.12 Å，优于纯MACE的0.19 Å、GFN2-xTB的0.31 Å和PaiNN的0.50 Å。在反应能垒预测上，DeePEST-OS的平均绝对误差为0.60 kcal/mol，低于1 kcal/mol的化学精度阈值，也优于纯MACE的0.93 kcal/mol和PaiNN的5.28 kcal/mol（图3a-b）。

图3: 基于测试集的精度与计算成本评估。

研究团队还构建了适用域分析方法，利用DeePEST-OS推理过程中的512维Embedding表征，计算测试样本到训练集最近邻的欧氏距离。结果显示，当最近邻距离超过0.7时，反应能垒预测平均绝对误差会超过1 kcal/mol，因此团队将0.7设定为DeePEST-OS可靠预测范围的适用域阈值（图3e）。这个设计使模型不只是给出预测结果，也能对潜在不可靠的外推样本进行提示。

在更严格的跨数据集测试中，研究团队将DeePEST-OS应用于与DORTS化学空间差异明显的Transition1x数据集。结果显示，尽管Transition1x中约97%的反应位于DORTS-9K适用域之外，DeePEST-OS仍取得了0.11 Å的平均过渡态几何均方根误差和3.80 kcal/mol的反应能垒平均绝对误差，表现出较强的外推能力（图3f）。

为了与同期端到端过渡态生成模型（React-OT）直接比较，团队还基于Transition1x数据训练了DeePEST-OS-T1x。如表2所示，在995个DeePEST-OS-T1x、React-OT和DFT均成功优化的反应上，DeePEST-OS-T1x的平均几何均方根误差为0.050 Å，优于React-OT的0.077 Å；反应能垒的平均绝对误差为0.692 kcal/mol，优于React-OT的1.038 kcal/mol；单个过渡态优化平均耗时1.4 s，也快于React-OT的1.8 s。与只输出几何结构的端到端模型相比，DeePEST-OS-T1x还能在优化过程中同步给出接近DFT水平的能量及原子力信息。

表2: DeePEST-OS对比React-OT。

面向真实有机合成应用

过渡态构象异构体常常直接影响反应能垒和选择性。传统DFT构象搜索成本高，尤其在多取代或柔性反应体系中更难高通量展开。研究团队将DeePEST-OS与此前开发的GENConf-TS过渡态构象搜索算法结合，用于筛选能量最低的过渡态构象异构体。如图4所示，在10个复杂反应的测试中，DeePEST-OS与DFT对最稳定过渡态构象的判断保持一致。以一个含C、H、O、F元素的代表性反应为例，DeePEST-OS预测的前五个过渡态构象能量排序与DFT结果一致，最稳定构象的能量误差仅为0.06 kcal/mol。这表明DeePEST-OS可以在保持DFT级精度的同时，大幅提高复杂过渡态构象空间的探索效率。

图4: 能量最小过渡态构象搜索。

随后，团队将DeePEST-OS进一步应用于药物扎托司琼的多步合成路线动力学预测。该流程首先使用RetroSynX进行逆合成路径推断，再通过GENiniTS-RS生成过渡态初猜，并由GENConf-TS产生构象异构体，最终使用DeePEST-OS筛选最稳定中间体和过渡态构象并计算吉布斯自由能垒。如图5所示，在扎托司琼多步反应路径中，DeePEST-OS预测的能垒与DFT基准高度一致。其过渡态/中间体平均几何均方根误差为0.16 Å，吉布斯自由能垒平均绝对误差为1.18 kcal/mol；相比之下，GFN2-xTB对应的平均几何均方根误差为0.43 Å，能垒平均绝对误差高达10.00 kcal/mol。值得注意的是，其中TS_3rd_2和TS_4th涉及51原子体系，已经超过DORTS数据库中单反应体系的最大原子数范围，仍能被DeePEST-OS准确预测，一定程度说明DeePEST-OS并非简单记忆训练数据，而是在一定程度上学习了可迁移的原子相互作用模式。

图5: DeePEST-OS应用于扎托司琼药物逆合成路线反应势能面预测。

研究还使用Diels-Alder反应的endo/exo非对映选择性开展实验相关验证。理论上，endo与exo插入路径的吉布斯自由能垒差ΔΔG与实验de值相关。团队对11个不同反应物开展分析后发现，DFT计算ΔΔG与实验de的线性拟合R2为0.82（图6b），而DeePEST-OS预测ΔΔG与实验de的R2为0.76（图6c）。虽然略低于DFT，但已经显示出较强的趋势预测能力，这表明DeePEST-OS有足够潜力辅助实验探索和选择性预测。

图6: Diels-Alder反应中DeePEST-OS与DFT预测的反应吉布斯自由能垒差（ΔΔG）与实验非对映体过量值（de）的线性拟合。

研究意义与展望

总体来看，DeePEST-OS的核心价值在于同时回应了有机反应动力学研究中的两个长期矛盾：一是DFT精度与计算效率之间的矛盾，二是机器学习势函数的更新迭代与反应数据稀缺之间的矛盾。DORTS通过十类元素、七万余条反应路径和高精度能量/力标注，为有机反应机器学习势模型提供了更接近真实应用场景的数据基础；DeePEST-OS则通过Δ-learning将半经验物理先验与高阶等变消息传递神经网络融合，在过渡态搜索、反应能垒预测和复杂合成路径评估中实现了“快”与“准”的平衡。

从有机合成设计角度看，DeePEST-OS不只是一个更快的计算工具，更是将反应机理、构象搜索、逆合成路径评估和选择性预测连接起来的动力学基础模块。随着数据库、模型架构和自动化反应探索工具的继续发展，类似DeePEST-OS的反应机器学习势函数有望推动有机合成从“经验驱动”进一步走向“量子精度-高通量筛选”协同的新阶段。

该论文第一作者为大连理工大学化工学院，任凯派博士生和唐坤博士生。

参考资料

Ren, K., Tang, K., Zhao, Y. et al. Reactive machine learning potential for accelerating transition state search in organic synthesis. Nat Commun (2026).

https://doi.org/10.1038/s41467-026-72945-0

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.