知识引导的分子图像自监督学习框架，破解活性悬崖识别难题|原子|化学|苯环|化合物

知识引导的分子图像自监督学习框架，破解活性悬崖识别难题

2025-10-20 17:24:44　来源: ScienceAI

北京举报

分享至

作者丨论文团队

编辑丨ScienceAI

在药物发现领域，一个长期存在的挑战是活性悬崖（Activity Cliffs）现象，即两个分子结构高度相似但生物活性却存在显著差异，然而，由于传统方法在识别活性悬崖时，会出现表征坍塌的问题，因此仍然难以准确捕捉悬崖分子的细微差别。

近日，湖南大学等团队在《BMC Biology》上发表了一项研究《MaskMol: knowledge-guided molecular image pre-training framework for activity cliffs with pixel masking》，这项研究开发了名为 MaskMol 的知识引导分子图像自监督预训练框架，该框架能通过细粒度知识引导的像素掩码策略进行准确的活性悬崖估计。

活性悬崖与传统模型的局限

分子性质预测是药物研发的核心环节，其核心假设是结构相似则性质相似（图 1 左）。然而活性悬崖的存在恰恰是这一理念的例外，这类分子对结构差异微小，生物活性却相差显著。

图 1 右侧可见，仅一个原子不同的分子，高活性（红色标注）与低活性（绿色标注）形成鲜明对比，这种结构近、活性远的现象，正是活性悬崖的典型特征，而传统模型难以应对这一挑战的根源在于表征坍缩问题。

图 1：特征空间中 SAR（左）和活性悬崖（右）的示意图。

图 2：特征空间中 Graph 和 Image 表征的比较。

如图 2 所示，研究通过对比分子相似度与特征空间距离，发现随着分子相似度（横轴，Tanimoto 系数）升高，图模型（如 GCN、MPNN）的特征欧氏距离（纵轴）快速下降，这意味着结构相似的分子在特征空间中几乎重叠，导致表征坍塌，无法区分；而分子图像的特征距离下降更平缓，保留了更多差异信息。

MaskMol框架：知识引导的分子图像学习

更进一步，活性悬崖通常由不同分子层次上的细微变化引起，例如特定原子取代、键修饰或官能团取代。例如，在原子层面，将苯环上的氢原子替换为氯原子，会导致分子与受体的结合相互作用发生显著变化，从而影响其生物活性。

因此，团队的目标是将已有化学知识融入模型，利用这种与活性悬崖相关的知识指导模型学习分子。从而，文章中提出 MaskMol，以分子图像为核心表征，通过知识引导的像素掩码与细粒度知识引导的像素掩码预测任务构建从分子图像到化学知识的映射，其完整流程如图 3 所示。

MaskMol 框架包含两大核心模块：

(1)三种知识引导的像素掩蔽策略：具体而言，研究团队首先将分子 SMILES 转换为二维图像，然后利用 RDKit 分别对原子、化学键和子结构进行高亮标记，利用 HSV 检测生成掩码集，并与原始图像结合，生成三张不同知识层次的分子掩码图像。

(2)三个用于预训练的知识引导像素掩码预测任务。训练一个 Vision Transformer（ViT）模型来预测被掩码部分所代表的不同层级（原子级，化学键级，子结构级）的化学知识，这种设计迫使模型从图像的剩余上下文中学习分子结构的深层化学语义。

图 3：MaskMol 框架。

下游任务性能

研究团队在活性悬崖估计（ACE）和化合物效能预测（CPP）两个关键下游任务上对 MaskMol 进行了全面评估。在活性悬崖估计任务上，MaskMol 与 25 种先进的深度学习和机器学习方法进行了比较，涵盖了基于序列、图（2D 和 3D）、图像及多模态的模型。如图 4 所示，MaskMol 在 10 个不同的 ACE 数据集上取得了最低的 RMSE。

特别是在骨架划分设置下（图 5），MaskMol 相比图像模型（ImageMol）均有显著提升，平均 RMSE 提升超过了 17.0%，这证明了其优秀的泛化能力。同时，MaskMol 在化合物效能预测任务上也表现出色，即使在预训练数据量（200 万）远少于某些基线模型（1000 万）的情况下，其预测精度仍优于对比模型，显示了框架的数据效率。

图 4：活性悬崖估计实验结果。

图 5：骨架划分实验结果。

消融实验

为了深入验证 MaskMol 中各个组件的有效性，合理性，研究团队还进行了系统的消融实验，结果如上图所示：图 6c 的消融研究揭示了三个预训练任务的重要性，移除任何预训练任务都会导致性能下降，其中 Motif 级任务（MMPP）的影响最大，凸显了子结构知识对于捕捉活性悬崖关键细微差异的核心作用。

在图中可以看到，与未预训练的模型相比，完整的预训练带来了平均超过 34% 的性能增益。图 6d 探讨了像素掩码比例的影响，与 BERT（15%）或 MAE（75%）不同，MaskMol 在分子图像上的最佳掩码比例为 50%，这很可能与分子图像本身信息稀疏、有效像素占比较低的特性有关。

图 6e 进一步分析了图像大小影响，结果表明分子图像的大小对性能无显著影响（p>0.05）。

图 6：消融实验。

可解释性分析

为了理解 MaskMol 的成功机理，研究团队进行了特征空间探索，注意力可视化，化学知识解释等三方面的可解释性分析。

特征空间探索：图 7a-b 显示，基于 MaskMol 学习到的分子表征，高活性和低活性分子在二维空间中形成了更清晰的边界，而基于 ECFP 指纹的表示则混杂在一起。定量分析（图 7c）进一步证实，活性悬崖分子对在 MaskMol 特征空间中的距离远大于在 ECFP 空间中的距离，进一步说明 MaskMol 有效缓解了表征坍塌。

注意力可视化：上图 7d-e 表明，经过知识引导预训练后，MaskMol 能够精准地将注意力集中在与任务相关的原子、键或子结构上。相比之下，GNN 模型往往将注意力分散在分子的不重要区域或相同的结构上，而未经预训练的图像模型则关注整个分子而忽略了关键细节，这证明 MaskMol 确实学会了利用细微的结构差异进行活性悬崖预测。

化学知识解释：研究采用子结构掩码解释（SME）进一步量化子结构对 MaskMol 预测的贡献。通过计算子结构贡献度，能深入理解其对分子活性的影响。如图8a所示，添加苯环（归因值=−1.93，Ki = 5370 nM)和乙醇（归因值=−0.95，Ki = 758 nM)等子结构时，归因值均低于零，且苯环的影响显著大于乙醇，这与分子活性值高度吻合。除生物活性外，文章中还展示了不同子结构对毒性的分析，如图 8c 和 d。

图 7：特征空间和注意力可视化。

图 8：化学知识解释。

应用前景：从虚拟筛选到肿瘤治疗

为了验证 MaskMol 的实际应用潜力，研究团队将其应用于前列腺癌免疫治疗潜在靶点 EP4 受体的抑制剂虚拟筛选。如图 9e-f 所示，MaskMol 不仅在内部测试集上表现优异（R² = 0.789），在来自专利文献的外部验证集上也保持了高预测精度（R² = 0.755），并且能识别抑制剂和非抑制剂。

更重要的是，MaskMol 成功地从专利集中识别出了 9 个已知的 EP4 抑制剂候选化合物，如 Grapiprant、CJ-042794 等，这些分子均经过细胞实验或临床试验的验证，这充分证明了 MaskMol 在真实药物发现场景下作为高效虚拟筛选工具的可靠性。

图 9：EP4 虚拟筛选。

总结与展望

MaskMol 研究的意义在于，它首次明确指出了活性悬崖任务中深度学习模型表征坍塌的瓶颈，并开创性地通过知识引导的分子图像自监督学习来突破这一瓶颈。该框架不仅显著提升了预测性能，还具备良好的可解释性，能为药物化学家提供有价值的结构-活性关系见解。

未来，在多模态知识融合、3D 构象图像建模以及跨模态知识蒸馏等方向还能进一步拓展 MaskMol 的能力，这也将持续推动人工智能在药物发现领域的深入应用。

论文地址：https://doi.org/10.1186/s12915-025-02389-3

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.