来源:市场资讯
(来源:DrugAI)
近日,大连理工大学刘奇磊副教授在《Nature Communications》发表了题为“Reactive machine learning potential for accelerating transition state search in organic synthesis”的研究论文。该论文围绕有机合成反应动力学中的过渡态搜索难题,构建了覆盖十类主族元素的大规模有机反应过渡态数据库DORTS,基于该数据库开发了适用于有机合成的机器学习势函数DeePEST-OS,并系统展示了其在有机反应过渡态搜索、能垒预测和复杂合成路线评估中的应用潜力。
![]()
在有机合成研究中,过渡态结构与反应能垒是理解反应速率、选择性和反应路径的关键。然而,传统密度泛函理论(DFT)虽然精度较高,却需要昂贵的能量、梯度和Hessian计算,难以支撑大规模反应网络探索。半经验量子化学方法如GFN2-xTB速度更快,但在精确结构与能量预测上仍存在明显局限。如何兼顾DFT级别的可靠性与高通量筛选所需的效率,正是当前计算化学与机器学习交叉领域的重要问题。
针对这一瓶颈,研究团队提出DeePEST-OS(Deep learning-based molecular Potential Energy Surface prediction Tool for Organic Synthesis)。该模型将GFN2-xTB的物理先验与高阶等变消息传递网络MACE结合,通过Δ-learning策略学习半经验方法与高精度DFT之间的系统差异,从而实现对反应势能面、过渡态几何结构和反应能垒的快速预测。
DORTS:面向有机反应动力学的大规模数据库
机器学习势函数能否真正实现过渡态精准搜索,首先取决于训练数据的覆盖程度。现有常用反应数据库往往集中于C、H、O、N四类元素,难以覆盖药物分子和复杂有机合成中常见的硫、磷及卤素元素。
为解决这一问题,研究团队开发了一种混合数据构建策略(图1),从有机化学教材中收集了含C、H、O、N、P、S、F、Cl、Br、I十类主族元素的有机合成领域常见反应,涵盖取代、加成、开环/关环和分子重排等反应类型。采用基于骨架的计算机辅助分子设计方法(CAMD)与GENiniTS-RS过渡态初猜生成算法,生成数万个反应及其对应的过渡态初猜结构。为了降低数据构建成本,研究团队设计了GFN2-xTB驱动的准IRC采样策略。具体而言,首先使用GFN2-xTB对过渡态初猜进行优化并开展IRC路径分析,筛除无法通过IRC验证的结构;随后在每条反应路径上选取反应物、产物、过渡态以及正反两个方向力最大点共五类关键构象,并在这些构象附近进行简正模采样(NMS)。这一流程最终得到74,837条通过验证的有机反应路径和约750万个反应路径附近分子构象,并使用ωB97M-V/def2-TZVP水平的DFT计算获得部分构象的能量与原子力,最终构成DORTS(Database of Organic Reaction Transition States)数据库。与全DFT流程相比,这一混合数据构建策略大幅压缩了构象采样成本。以苯酚醚化反应为例,使用混合策略完成过渡态搜索、IRC搜索和NMS采样仅需18.1(核秒),而对应的全DFT流程需要182,033(核秒),前者约为后者的0.01%。
![]()
图1: DORTS构建策略。
与目前主流的Transition1x反应数据库相比,DORTS数据库在化学元素种类、反应类型、反应数量和DFT计算水平上都实现了突破,如表1所示。
表1: DORTS数据库对比Transition1x数据库。
![]()
DeePEST-OS:物理先验与等变网络协同
在模型层面,研究团队比较了PaiNN、MACE以及引入Δ-learning的MACE_deltaL架构,如图2所示。MACE作为高阶等变消息传递神经网络模型,能通过可微的四体原子簇展开框架捕捉复杂高阶相互作用,而Δ-learning则进一步引入GFN2-xTB的半经验物理先验,使模型不只依赖局部数据拟合,也能在数据稀疏区域获得更稳健的势能面约束。
![]()
图2: DeePEST-OS模型预测精度与效率。
结果显示,MACE_deltaL的能量预测平均绝对误差降至0.266 kcal/mol,原子力预测平均绝对误差降至0.380 kcal/mol/Å,明显优于纯MACE架构(能量平均绝对误差1.112 kcal/mol,原子力平均绝对误差0.819 kcal/mol/Å)和PaiNN架构(能量平均绝对误差2.948 kcal/mol,力平均绝对误差3.485 kcal/mol/Å)。基于这一结果,研究团队将表现最优的MACE_deltaL选定为最终模型。随后,在苯与亚硝酸反应的代表性测试中,MACE_deltaL在过渡态优化中达到0.17(核秒/步)的计算效率,相比DFT的1,568.8(核秒/步)提速近10,000倍;在IRC路径计算中,DeePEST-OS为0.11(核秒/步),而DFT为2,577.2(核秒/步),实现约四个数量级加速。更重要的是,DeePEST-OS对于N-O键长和N-C-H键角刚性扫描路径与DFT基准高度一致,明显优于GFN2-xTB。
精度、效率与外推能力验证
为了评估模型在未知反应上的表现,研究团队使用DORTS-1K(含1,000条未进入DORTS-9K训练集的反应)作为外部测试集。对于DFT成功优化的880个过渡态,DeePEST-OS的平均几何均方根误差为0.12 Å,优于纯MACE的0.19 Å、GFN2-xTB的0.31 Å和PaiNN的0.50 Å。在反应能垒预测上,DeePEST-OS的平均绝对误差为0.60 kcal/mol,低于1 kcal/mol的化学精度阈值,也优于纯MACE的0.93 kcal/mol和PaiNN的5.28 kcal/mol(图3a-b)。
![]()
图3: 基于测试集的精度与计算成本评估。
研究团队还构建了适用域分析方法,利用DeePEST-OS推理过程中的512维Embedding表征,计算测试样本到训练集最近邻的欧氏距离。结果显示,当最近邻距离超过0.7时,反应能垒预测平均绝对误差会超过1 kcal/mol,因此团队将0.7设定为DeePEST-OS可靠预测范围的适用域阈值(图3e)。这个设计使模型不只是给出预测结果,也能对潜在不可靠的外推样本进行提示。
在更严格的跨数据集测试中,研究团队将DeePEST-OS应用于与DORTS化学空间差异明显的Transition1x数据集。结果显示,尽管Transition1x中约97%的反应位于DORTS-9K适用域之外,DeePEST-OS仍取得了0.11 Å的平均过渡态几何均方根误差和3.80 kcal/mol的反应能垒平均绝对误差,表现出较强的外推能力(图3f)。
为了与同期端到端过渡态生成模型(React-OT)直接比较,团队还基于Transition1x数据训练了DeePEST-OS-T1x。如表2所示,在995个DeePEST-OS-T1x、React-OT和DFT均成功优化的反应上,DeePEST-OS-T1x的平均几何均方根误差为0.050 Å,优于React-OT的0.077 Å;反应能垒的平均绝对误差为0.692 kcal/mol,优于React-OT的1.038 kcal/mol;单个过渡态优化平均耗时1.4 s,也快于React-OT的1.8 s。与只输出几何结构的端到端模型相比,DeePEST-OS-T1x还能在优化过程中同步给出接近DFT水平的能量及原子力信息。
表2: DeePEST-OS对比React-OT。
![]()
面向真实有机合成应用
过渡态构象异构体常常直接影响反应能垒和选择性。传统DFT构象搜索成本高,尤其在多取代或柔性反应体系中更难高通量展开。研究团队将DeePEST-OS与此前开发的GENConf-TS过渡态构象搜索算法结合,用于筛选能量最低的过渡态构象异构体。如图4所示,在10个复杂反应的测试中,DeePEST-OS与DFT对最稳定过渡态构象的判断保持一致。以一个含C、H、O、F元素的代表性反应为例,DeePEST-OS预测的前五个过渡态构象能量排序与DFT结果一致,最稳定构象的能量误差仅为0.06 kcal/mol。这表明DeePEST-OS可以在保持DFT级精度的同时,大幅提高复杂过渡态构象空间的探索效率。
![]()
图4: 能量最小过渡态构象搜索。
随后,团队将DeePEST-OS进一步应用于药物扎托司琼的多步合成路线动力学预测。该流程首先使用RetroSynX进行逆合成路径推断,再通过GENiniTS-RS生成过渡态初猜,并由GENConf-TS产生构象异构体,最终使用DeePEST-OS筛选最稳定中间体和过渡态构象并计算吉布斯自由能垒。如图5所示,在扎托司琼多步反应路径中,DeePEST-OS预测的能垒与DFT基准高度一致。其过渡态/中间体平均几何均方根误差为0.16 Å,吉布斯自由能垒平均绝对误差为1.18 kcal/mol;相比之下,GFN2-xTB对应的平均几何均方根误差为0.43 Å,能垒平均绝对误差高达10.00 kcal/mol。值得注意的是,其中TS_3rd_2和TS_4th涉及51原子体系,已经超过DORTS数据库中单反应体系的最大原子数范围,仍能被DeePEST-OS准确预测,一定程度说明DeePEST-OS并非简单记忆训练数据,而是在一定程度上学习了可迁移的原子相互作用模式。
![]()
图5: DeePEST-OS应用于扎托司琼药物逆合成路线反应势能面预测。
研究还使用Diels-Alder反应的endo/exo非对映选择性开展实验相关验证。理论上,endo与exo插入路径的吉布斯自由能垒差ΔΔG与实验de值相关。团队对11个不同反应物开展分析后发现,DFT计算ΔΔG与实验de的线性拟合R2为0.82(图6b),而DeePEST-OS预测ΔΔG与实验de的R2为0.76(图6c)。虽然略低于DFT,但已经显示出较强的趋势预测能力,这表明DeePEST-OS有足够潜力辅助实验探索和选择性预测。
![]()
图6: Diels-Alder反应中DeePEST-OS与DFT预测的反应吉布斯自由能垒差(ΔΔG)与实验非对映体过量值(de)的线性拟合。
研究意义与展望
总体来看,DeePEST-OS的核心价值在于同时回应了有机反应动力学研究中的两个长期矛盾:一是DFT精度与计算效率之间的矛盾,二是机器学习势函数的更新迭代与反应数据稀缺之间的矛盾。DORTS通过十类元素、七万余条反应路径和高精度能量/力标注,为有机反应机器学习势模型提供了更接近真实应用场景的数据基础;DeePEST-OS则通过Δ-learning将半经验物理先验与高阶等变消息传递神经网络融合,在过渡态搜索、反应能垒预测和复杂合成路径评估中实现了“快”与“准”的平衡。
从有机合成设计角度看,DeePEST-OS不只是一个更快的计算工具,更是将反应机理、构象搜索、逆合成路径评估和选择性预测连接起来的动力学基础模块。随着数据库、模型架构和自动化反应探索工具的继续发展,类似DeePEST-OS的反应机器学习势函数有望推动有机合成从“经验驱动”进一步走向“量子精度-高通量筛选”协同的新阶段。
该论文第一作者为大连理工大学化工学院,任凯派博士生和唐坤博士生。
参考资料
Ren, K., Tang, K., Zhao, Y. et al. Reactive machine learning potential for accelerating transition state search in organic synthesis. Nat Commun (2026).
https://doi.org/10.1038/s41467-026-72945-0
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.