【AI+化学】利用强化学习增强多步逆合成|算法|单步|神经网络|ai+化学

【AI+化学】利用强化学习增强多步逆合成

2023-08-10 07:36:29　来源: 化学加网

广东举报

分享至

前言

逆合成路线设计是有机合成中的一项经典任务，也和药物设计等应用领域息息相关。自从深度学习兴起以来，许多基于神经网络的方法也被用于逆合成这一领域，至今已经有了相当规模。一般来说，一个完整的逆合成程序由两部分组成，分别为用于预测每一步产物的单步逆合成模型（Single-step prediction model），以及用于在多个步骤之间搜索可用路径的多步逆合成规划算法（Multi-step planning algorithm）。然而，时至今日，大多数逆合成模型将两部分内容分开处理，并没有考虑到二者之间的相互适应。

近日，微软研究院AI4Science团队开发了一种新的多步逆合成规划算法PDVN（Planning with Dual Value Network），利用强化学习的方式提升了单步与多步之间的配合能力，取得了更好的逆合成效果，该文章在ICML 2023上作为会议文章被接受。

■主要方法

逆合成的目的在于用尽量高效的步骤和尽量易得的原料合成目标分子，换言之，我们希望每一步逆合成的反应都能用可靠的办法把目标分子简化成更易合成、更廉价的分子。然而，目前的逆合成搜索算法似乎很少考虑这一点，人们默认每一步所预测的反应都可以发生，并且不会精确考虑不同分子的合成难度。

针对这种不合理的现状，作者做出了以下几点改进：

1.在常规的单步逆合成模型之外额外训练一个神经网络，从而对原先单步模型的结果进行排序，导向更能帮助目标分子拆解为简单分子的方向。在大多数逆合成算法中，单步逆合成模型是固定的，其所预测最高频的反应并不意味着反应的简化，而对反应结果的重新排序可以实现这一目的。
图1. 作者所采用的单步逆合成网络，灰色为原模型，蓝色为可训练的单步模型。

2.训练一个用于预测分子可合成性的网络，对每一个分子节点的可合成性进行度量，采用半径为2的Morgan分子指纹作为输入。

3.训练一个用于预测分子合成代价的网络，对每一个分子节点预测合成这个分子所需的代价（讨论合成代价的前提是分子可合成），同样采用半径为2的Morgan分子指纹输入。

当然，以上这些信息不可能从静态的已知数据当中获得，不断地模拟与自我提升是每一种强化学习算法都需要具有的模块。在这份工作中，作者将逆合成分解为两个部分，即规划环节（Planning Phase）和更新环节（Updating Phase），两个环节相互迭代。

在规划环节中，模型会基于已有的参数给出逆合成的路线设计，在单步逆合成方面，原先的单步逆合成模型给出预测的反应物序列，作者新设计的单步模型给出排序；在多步逆合成方面，作者设计的两个打分网络会给每个分子节点的可合成性与合成代价进行打分，从而引导分子被拆解为更易合成的方向。在更新环节中，以上所提到的三个网络的参数会根据已有的合成路线进行更新，从而让三个网络分别给出更精确的预测。

值得一提的是，本文的做法仅仅是一种锦上添花的强化学习思路，并没有改动单步模型或多步搜索算法本身的架构，因此PDVN可以被用于任何单步模型与多步搜索算法的组合当中。

■结果与讨论

在本文中，作者与Retro*保持一致，采用了NeuralSym作为单步模型，并测试了经典的Retro*和该组之前开发的RetroGraph两种多步搜索算法。作者所采用的数据集依然为USPTO数据集，用于训练的路径也与Retro*保持一致，首先测试的结果是Retro*上的190个测试分子（Retro*-190）。

从表中可以看出，利用PDVN增强后，Retro*和RetroGraph的搜索成功率都有了显著的提升，同时单步模型的运行次数也得到了极大的下降，这是因为强化学习促进了模型对分子的拆解，使得分子更易被合成。进一步的分析也表明，在PDVN框架下，Retro*和RetroGraph搜索得到的路径长度均有所下降，这也倒导向了更高效的合成路径。

除此之外，作者还在两个更有挑战性的目标分子数据集ChEMBL-1000和GDB17-1000上进行了测试，同样提升了原有算法的搜索成功率。相关的消融实验说明，作者设计的打分网络对于提高搜索路线的成功率有着重要的作用。

■讨论与展望

PDVN正视了单步逆合成模型与多步搜索算法之间的gap，这是现有此类型工作中最为系统的一篇。此前Hassen et al.在工作中也提到了这一问题，但之前的工作仅限于讨论，而PDVN做到了用强化学习的方法予以解决。除此以外，PDVN还用更精细的方式对不同分子的合成难度进行了打分，比Retro*本身的打分函数也有所增强，这同样让人们离有实际意义的逆合成更进了一步。

当然要做好逆合成，仅在模型规划的路线上进行提升还是不够的。作为一个应用导向的问题，逆合成路线设计还应该考虑把更多的内容也融入算法之中，例如并非所有市售分子都能一视同仁，即使标明了“in stock”，其价格可能也会有数个数量级的差别；再比如，不同反应的反应成本（所谓cost）也不可一概而论，对于反应条件剧烈，反应过程复杂，或是后处理难以分离的反应，完成一步所需的成本可能会超过简单反应数倍。对于这些更“化学”的合成考量，可能我们也可以用类似PDVN的办法将其融入到逆合成的设计当中，从而让逆合成算法更加面向实际。

参考文献：

1.Liu, G. et al., “Retrosynthetic Planning with Dual Value Networks”, ICML 2023. doi:10.48550/arXiv.2301.13755.

2.Hassen, A. K. et al., “Mind the Retrosynthesis Gap: Bridging the divide between Single-step and Multi-step Retrosynthesis Prediction”, NeuralIPS 2022 AI for Science Workshop. doi:10.48550/arXiv.2212.11809..

作者：李隽仁

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.