分子优化是在改善化学分子(如药物或材料)的性质时必不可少的过程,例如降低毒性、提高生物利用度和增强韧性等。通过调整分子结构可以实现这些目标,然而这个过程耗时且成本高昂,需要经过多次试错。为了优化分子,目前人们已经开发了许多机器学习模型,其中包括条件变分自编码器(conditional VAE)、JT-VAE 和 GCPN 等,它们代表了不同的优化算法,例如条件生成、贝叶斯优化和强化学习。尽管这些方法已经取得了一些进展,但仍然面临许多挑战,例如花费过多的时间和陷入局部最小值,这对优化结果产生了负面影响。此外,先前的分子优化方法主要集中在连续域的优化上,可能无法适当地处理分子活性悬崖等问题。在活性悬崖出现时,微小的分子结构变化可能导致巨大的效能差异,因此需要更加细致地处理这些问题。
针对这些问题,华为与复旦大学的联合研究团队提出了一个名为 Q-Drug(Quantum-inspired optimization algorithm for Drugs)的分子优化框架,利用量子启发式算法在离散二进制域变量上优化分子。该框架首先使用离散 VAE 将分子编码为二进制嵌入向量。然后,利用二进制嵌入向量构建类似于伊辛能量的目标函数,并采用最先进的量子启发式优化算法在该函数上寻找最优解。最后,将最优解对应的二进制嵌入向量解码以获取优化后的分子。他们已经将该框架用于优化药物分子性质,并发现它的性能优于其他分子优化方法,并且耗时仅为之前的 1/20 到 1/10。
相关研究日前以“Q-Drug: a Framework to bring Drug Design into Quantum Space using Deep Learning”为题,被发布在 arXiv 平台上。
量子启发的变分自编码器
量子启发优化算法模拟了量子效应在经典计算机上的运行方式,并提供了一种新型的量子解决方案。这些算法利用了经典硬件上的量子计算优势,以超越传统方法。它们融合了量子力学原理,如量子涨落、量子隧穿效应和绝热量子演化,以避免陷入局部最优解。典型的量子启发式优化算法将绝热量子过程转化为经典动力学过程,以保留绝热量子演化的特性。通过模拟这个经典动力学过程,算法可以找到复杂哈密顿量的基态配置,对应于复杂目标函数的全局最优解。模拟分叉(Simulated Bifurcation,SB)是对具有分叉现象的经典非线性哈密顿系统进行数值模拟的方法,其中每个非线性振荡器的分叉分支与每个伊辛自旋的两个状态相对应。由于其并行更新的特性,SB 非常适合并行计算,并且在全互联的 2000 节点 MAX-CUT 问题上的性能比基于激光的相干伊辛机器(CIM)快 10 倍。
为了探索基于量子的离散优化算法在分子优化中的可行性,可以将分子编码为二进制嵌入向量,对这些嵌入进行优化,然后将其解码回分子形式。变分自编码器(Variational AutoEncoders,VAEs)是实现这一目标的理想候选模型。VAEs 是一类深度生成模型,可以对数据样本进行编码,并基于新的编码生成(解码)样本。它们由两部分组成,分别被称为重构项和正则化项。重构项确保编码的准确性,而正则化项确保从分布中进行采样可以生成(解码)有效的数据样本。重参数化技巧使得 VAEs 颇受青睐。这种技术确保从特定分布中进行采样,并且神经网络能够正确地进行反向传播。与使用正态分布作为先验分布的 VAEs 不同,该研究中的 VAEs 需要使用离散伯努利分布作为先验分布。
基于二进制嵌入的分子优化
这项研究面临着两个主要挑战。首先,使用离散潜在变量的变分自编码器(VAEs)很难进行高效训练,因为通常无法通过离散变量进行反向传播。为了解决这个问题,主要的方法是使用连续松弛技术。其基本思想是在连续域上找到一个近似于所需离散分布的分布。其次,从一个阶乘伯努利分布中进行采样,其中取值为 0 或 1 的概率等于 0.5,这样的采样会产生过多的噪声,无法恢复有效的数据样本。因此,研究团队引入了受限玻尔兹曼机(RBM)作为生成模型,学习编码器输出的分布并减少采样代码中的噪声。
通过改进使用连续松弛和受限玻尔兹曼机(RBM)的方法,可以将分子有效地编码为二进制形式(二进制嵌入)。而从伯努利分布中进行采样则可以解码出有效的分子结构。通过收集一批分子的属性信息,研究团队可以利用这些分子的二进制嵌入构建一个预想中的矩阵分解模型。矩阵分解自然地采用了伊辛问题的形式,可以通过量子退火高效地求解。然而,本研究使用了一种量子启发式优化算法,称为模拟分叉(SB),以加速这个组合优化问题的求解。模拟分叉算法的基础是伊辛问题,其中涉及寻找能量最小化的自旋配置(伊辛哈密顿量)。通过使用模拟分叉算法解决伊辛问题,可以得到最优值和最优自旋配置(二进制嵌入)。解码二进制嵌入即可得到对应属性的最优分子结构。
如下图所示,该方法包括首先在名为 ZINC-250k24 的大型药物样本数据集上对离散 VAE 进行预训练,这一步骤有助于将分子编码为二进制编码,并解码为有效和具有药物特性的分子结构。然后,通过使用量子启发式优化算法对二进制编码进行操作,以最小化或最大化目标函数,从而在二进制域中优化分子结构。
使用连续松弛和受限玻尔兹曼机生成分子结构
该研究旨在设计一种更好的分子编码方案,能够将分子转换为二进制嵌入,并能从随机的二进制嵌入中重构出有效的分子结构。为了建立基准,作者使用了广泛应用的变分自编码器(VAE)将分子编码为连续嵌入。他们采用了 ZINC-250k 数据集,其中包含约 250,000 个药物样本。为了进一步改进,他们引入了伯努利 VAE 作为 VAE 的扩展,将先验潜在空间中的高斯分布改为伯努利分布。然而,离散 VAE 是一个更复杂的模型,它使用连续松弛和受限玻尔兹曼机(RBM)生成分子结构。实验结果表明,在解码有效性方面,由于这个模型采用了 SELFIES 分子字符串作为输入,几乎每个字符串都对应着有效的分子结构,因此实现了较高的解码成功率。
然而,对于伯努利 VAE 来说,即使将潜在维度 z 从 128 增加到 2048,也很难通过二进制嵌入成功重构出相同的分子结构。这表明二进制嵌入并没有很好地捕捉到分子结构的特征,因此伯努利 VAE 并不适用于当前的情况。相比之下,离散 VAE 在几乎所有的评估指标上与连续 VAE 表现相当,并且在扩大潜在维度 z 时略微优于连续 VAE。这说明离散 VAE 是一种有效的方法,能够在编码和解码分子方面取得与之相当的性能,为分子优化任务提供了有力支持。
Q-drug的独特优势
研究团队对三种分子优化模型进行了比较:条件 VAE、JT-VAE 和 GCPN。在 QED 药物样式优化任务中,Q-drug 和 GCPN 能够达到 0.948 的 QED 值,这已经接近 QED 值上限。但是 GCPN 可能只是利用 QED 的缺陷来获得高分,这对于有药物化学背景的研究人员来说并不理想。相较而言,CVAE、JT-VAE 和 Q-drug 生成的结构更合理,其中 Q-drug 的优化效果最突出。
在比较这些模型的推理时间成本时,作者观察到条件 VAE 的速度很快,但其优化效果较差。另一方面,Q-drug 仅需要贝叶斯优化和强化学习所需时间的约 1/20 到 1/10,就能实现最佳的优化效果。对于同时优化生物活性和 QED 药物样式的多目标优化任务,通过将 QED 值乘以 10 加到 pIC50 值上,可以将两个指标缩放到相同的范围。作者发现采用量子启发式优化方法的 Q-drug 在 FGFR3 和 FGFR4 任务的两个药物靶点上均优于其他方法。
使用四种不同方法进行的 FGFR3 生物活性和 QED 优化的生成分子样本:
使用四种不同方法进行的 FGFR4 生物活性和 QED 优化的生成分子样本:
量子空间中的分子优化: Q-drug 的潜力
现实世界中的事物具有明确的量子化单位, 而传统分子优化方法却多局限在连续域。本研究试图突破这一局限, 在离散量子位上对分子进行编码与优化。作者采用了离散变分自动编码器, 将分子映射到二进制向量,作为量子计算的输入编码。然后,通过量子启发优化算法对编码进行操作,寻找目标函数极值点,实现对分子的优化。这一策略验证了在离散域内进行分子设计的可行性, 为量子计算应用于药物设计等领域开辟了新的可能。
为了解决类似于伊辛能量的目标函数,作者提出利用基于量子计算的设备以及量子启发式优化算法。这包括超导量子计算机、基于激光脉冲的 CIM(相干伊辛机器)和基于 FPGA(现场可编程门阵列)的伊辛机器。另外,也可以构建具有 HOFM(高阶分解机)或 BOX-QUBO(使用交叉熵方法和 QUBO 的黑盒优化)的目标函数,这也适用于通过量子启发式算法进行优化。
这个研究提供了一个实际的框架,称为 Q-drug,它将药物设计引入到量子空间,并利用人工智能为基于量子计算理念的分子设计技术提供了新的可能性。此外,其他应用领域,如分子构象生成和分子对接,也有望通过采用量子启发式算法进行优化。
声明:本文仅供科研分享,助力科学传播,不做盈利使用,如有侵权,请联系后台删除。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.