网易首页 > 网易号 > 正文 申请入驻

知识引导的分子图像自监督学习框架,破解活性悬崖识别难题

0
分享至

作者丨论文团队

编辑丨ScienceAI

在药物发现领域,一个长期存在的挑战是活性悬崖(Activity Cliffs)现象,即两个分子结构高度相似但生物活性却存在显著差异,然而,由于传统方法在识别活性悬崖时,会出现表征坍塌的问题,因此仍然难以准确捕捉悬崖分子的细微差别。

近日,湖南大学等团队在《BMC Biology》上发表了一项研究《MaskMol: knowledge-guided molecular image pre-training framework for activity cliffs with pixel masking》,这项研究开发了名为 MaskMol 的知识引导分子图像自监督预训练框架,该框架能通过细粒度知识引导的像素掩码策略进行准确的活性悬崖估计。

活性悬崖与传统模型的局限

分子性质预测是药物研发的核心环节,其核心假设是结构相似则性质相似(图 1 左)。然而活性悬崖的存在恰恰是这一理念的例外,这类分子对结构差异微小,生物活性却相差显著。

图 1 右侧可见,仅一个原子不同的分子,高活性(红色标注)与低活性(绿色标注)形成鲜明对比,这种结构近、活性远的现象,正是活性悬崖的典型特征,而传统模型难以应对这一挑战的根源在于表征坍缩问题。

图 1:特征空间中 SAR(左)和活性悬崖(右)的示意图。

图 2:特征空间中 Graph 和 Image 表征的比较。

如图 2 所示,研究通过对比分子相似度与特征空间距离,发现随着分子相似度(横轴,Tanimoto 系数)升高,图模型(如 GCN、MPNN)的特征欧氏距离(纵轴)快速下降,这意味着结构相似的分子在特征空间中几乎重叠,导致表征坍塌,无法区分;而分子图像的特征距离下降更平缓,保留了更多差异信息。

MaskMol框架:知识引导的分子图像学习

更进一步,活性悬崖通常由不同分子层次上的细微变化引起,例如特定原子取代、键修饰或官能团取代。例如,在原子层面,将苯环上的氢原子替换为氯原子,会导致分子与受体的结合相互作用发生显著变化,从而影响其生物活性。

因此,团队的目标是将已有化学知识融入模型,利用这种与活性悬崖相关的知识指导模型学习分子。从而,文章中提出 MaskMol,以分子图像为核心表征,通过知识引导的像素掩码与细粒度知识引导的像素掩码预测任务构建从分子图像到化学知识的映射,其完整流程如图 3 所示。

MaskMol 框架包含两大核心模块:

(1)三种知识引导的像素掩蔽策略:具体而言,研究团队首先将分子 SMILES 转换为二维图像,然后利用 RDKit 分别对原子、化学键和子结构进行高亮标记,利用 HSV 检测生成掩码集,并与原始图像结合,生成三张不同知识层次的分子掩码图像。

(2)三个用于预训练的知识引导像素掩码预测任务。训练一个 Vision Transformer(ViT)模型来预测被掩码部分所代表的不同层级(原子级,化学键级,子结构级)的化学知识,这种设计迫使模型从图像的剩余上下文中学习分子结构的深层化学语义。

图 3:MaskMol 框架。

下游任务性能

研究团队在活性悬崖估计(ACE)和化合物效能预测(CPP)两个关键下游任务上对 MaskMol 进行了全面评估。在活性悬崖估计任务上,MaskMol 与 25 种先进的深度学习和机器学习方法进行了比较,涵盖了基于序列、图(2D 和 3D)、图像及多模态的模型。如图 4 所示,MaskMol 在 10 个不同的 ACE 数据集上取得了最低的 RMSE。

特别是在骨架划分设置下(图 5),MaskMol 相比图像模型(ImageMol)均有显著提升,平均 RMSE 提升超过了 17.0%,这证明了其优秀的泛化能力。同时,MaskMol 在化合物效能预测任务上也表现出色,即使在预训练数据量(200 万)远少于某些基线模型(1000 万)的情况下,其预测精度仍优于对比模型,显示了框架的数据效率。

图 4:活性悬崖估计实验结果。

图 5:骨架划分实验结果。

消融实验

为了深入验证 MaskMol 中各个组件的有效性,合理性,研究团队还进行了系统的消融实验,结果如上图所示:图 6c 的消融研究揭示了三个预训练任务的重要性,移除任何预训练任务都会导致性能下降,其中 Motif 级任务(MMPP)的影响最大,凸显了子结构知识对于捕捉活性悬崖关键细微差异的核心作用。

在图中可以看到,与未预训练的模型相比,完整的预训练带来了平均超过 34% 的性能增益。图 6d 探讨了像素掩码比例的影响,与 BERT(15%)或 MAE(75%)不同,MaskMol 在分子图像上的最佳掩码比例为 50%,这很可能与分子图像本身信息稀疏、有效像素占比较低的特性有关。

图 6e 进一步分析了图像大小影响,结果表明分子图像的大小对性能无显著影响(p>0.05)。

图 6:消融实验。

可解释性分析

为了理解 MaskMol 的成功机理,研究团队进行了特征空间探索,注意力可视化,化学知识解释等三方面的可解释性分析。

特征空间探索:图 7a-b 显示,基于 MaskMol 学习到的分子表征,高活性和低活性分子在二维空间中形成了更清晰的边界,而基于 ECFP 指纹的表示则混杂在一起。定量分析(图 7c)进一步证实,活性悬崖分子对在 MaskMol 特征空间中的距离远大于在 ECFP 空间中的距离,进一步说明 MaskMol 有效缓解了表征坍塌。

注意力可视化:上图 7d-e 表明,经过知识引导预训练后,MaskMol 能够精准地将注意力集中在与任务相关的原子、键或子结构上。相比之下,GNN 模型往往将注意力分散在分子的不重要区域或相同的结构上,而未经预训练的图像模型则关注整个分子而忽略了关键细节,这证明 MaskMol 确实学会了利用细微的结构差异进行活性悬崖预测。

化学知识解释:研究采用子结构掩码解释(SME)进一步量化子结构对 MaskMol 预测的贡献。通过计算子结构贡献度,能深入理解其对分子活性的影响。如图8a所示,添加苯环(归因值=−1.93,Ki = 5370 nM)和乙醇(归因值=−0.95,Ki = 758 nM)等子结构时,归因值均低于零,且苯环的影响显著大于乙醇,这与分子活性值高度吻合。除生物活性外,文章中还展示了不同子结构对毒性的分析,如图 8c 和 d。

图 7:特征空间和注意力可视化。

图 8:化学知识解释。

应用前景:从虚拟筛选到肿瘤治疗

为了验证 MaskMol 的实际应用潜力,研究团队将其应用于前列腺癌免疫治疗潜在靶点 EP4 受体的抑制剂虚拟筛选。如图 9e-f 所示,MaskMol 不仅在内部测试集上表现优异(R² = 0.789),在来自专利文献的外部验证集上也保持了高预测精度(R² = 0.755),并且能识别抑制剂和非抑制剂。

更重要的是,MaskMol 成功地从专利集中识别出了 9 个已知的 EP4 抑制剂候选化合物,如 Grapiprant、CJ-042794 等,这些分子均经过细胞实验或临床试验的验证,这充分证明了 MaskMol 在真实药物发现场景下作为高效虚拟筛选工具的可靠性。

图 9:EP4 虚拟筛选。

总结与展望

MaskMol 研究的意义在于,它首次明确指出了活性悬崖任务中深度学习模型表征坍塌的瓶颈,并开创性地通过知识引导的分子图像自监督学习来突破这一瓶颈。该框架不仅显著提升了预测性能,还具备良好的可解释性,能为药物化学家提供有价值的结构-活性关系见解。

未来,在多模态知识融合、3D 构象图像建模以及跨模态知识蒸馏等方向还能进一步拓展 MaskMol 的能力,这也将持续推动人工智能在药物发现领域的深入应用。

论文地址:https://doi.org/10.1186/s12915-025-02389-3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场2-0,救了中国队一把,出线有戏!感谢卡塔尔,最新排名如下

一场2-0,救了中国队一把,出线有戏!感谢卡塔尔,最新排名如下

侃球熊弟
2026-05-10 02:44:07
干净女演员嫁小丈夫18年零绯闻,孝敬婆婆如亲妈

干净女演员嫁小丈夫18年零绯闻,孝敬婆婆如亲妈

天马幸福的人生
2026-05-10 01:06:04
国乒9-10号赛程很强,王皓换人,女队起飞,王励勤也要跟着笑了

国乒9-10号赛程很强,王皓换人,女队起飞,王励勤也要跟着笑了

阿信点评
2026-05-09 21:00:59
5.10凌晨世乒赛:张本智和太嚣张 3-1逆转林昀儒 掀衣服高举NO1庆

5.10凌晨世乒赛:张本智和太嚣张 3-1逆转林昀儒 掀衣服高举NO1庆

越岭寻踪
2026-05-10 01:04:00
半年打一针!近4000万慢性鼻窦炎有新药了

半年打一针!近4000万慢性鼻窦炎有新药了

健康触点
2026-05-09 06:08:51
升至37死51伤!浏阳烟花厂爆炸:负责人创业历程曝光,个人照流出

升至37死51伤!浏阳烟花厂爆炸:负责人创业历程曝光,个人照流出

老猫观点
2026-05-09 18:44:54
谢霆锋这张合照,把所有当爹的都给整不会了

谢霆锋这张合照,把所有当爹的都给整不会了

老吴教育课堂
2026-05-08 13:57:48
今年寒酸的红场阅兵,给了朝鲜方队24秒特写,镜头透出阵阵杀气

今年寒酸的红场阅兵,给了朝鲜方队24秒特写,镜头透出阵阵杀气

史料布籍
2026-05-09 19:08:56
北京市大兴区政府原党组成员、副区长吴浩接受纪律审查和监察调查

北京市大兴区政府原党组成员、副区长吴浩接受纪律审查和监察调查

环球网资讯
2026-05-09 17:05:08
毫无格局!杜锋赛后发言引争议,知名大V怒批,粤迷也不认同

毫无格局!杜锋赛后发言引争议,知名大V怒批,粤迷也不认同

画夕
2026-05-10 00:01:36
杨受成“霸占”容祖儿半生:不娶不放,到底图什么?

杨受成“霸占”容祖儿半生:不娶不放,到底图什么?

陈意小可爱
2026-05-09 15:56:56
普京时代进入倒计时,中国必须警惕俄罗斯政策突变。

普京时代进入倒计时,中国必须警惕俄罗斯政策突变。

阿七说史
2026-05-09 05:10:06
曼联 6000 万水货彻底现形! 红魔 0-0 爆冷,全场散步看吐球迷

曼联 6000 万水货彻底现形! 红魔 0-0 爆冷,全场散步看吐球迷

奶盖熊本熊
2026-05-10 00:05:46
抢了个寂寞!那不勒斯黑帮抢劫中国游客,到手“40万欧”名表竟是地摊货

抢了个寂寞!那不勒斯黑帮抢劫中国游客,到手“40万欧”名表竟是地摊货

意大利华人网0039
2026-05-09 00:10:14
用所谓的“基本盘”嘲讽人民群众,只能是搬起石头,砸自己的脚!

用所谓的“基本盘”嘲讽人民群众,只能是搬起石头,砸自己的脚!

让心灵得以栖息
2026-05-08 11:19:31
国产“新伟哥”!效力是西地那非8倍,副作用却更少

国产“新伟哥”!效力是西地那非8倍,副作用却更少

鬼菜生活
2026-05-09 11:20:07
举报一个查一个!耿同学举报3位大学院长和教授,同济院长被免职还差南开和中山

举报一个查一个!耿同学举报3位大学院长和教授,同济院长被免职还差南开和中山

可达鸭面面观
2026-05-07 13:03:19
瓦伦丁直播,把整个机车圈的脸打肿了!张雪:我的车手不借钱参赛

瓦伦丁直播,把整个机车圈的脸打肿了!张雪:我的车手不借钱参赛

童叔不飙车
2026-05-08 22:05:01
安徽省科学技术协会原党组书记、副主席金春龙被“双开”

安徽省科学技术协会原党组书记、副主席金春龙被“双开”

界面新闻
2026-05-09 19:33:37
重磅:乌克兰在俄罗斯领土库尔斯克构建90平方公里缓冲区!

重磅:乌克兰在俄罗斯领土库尔斯克构建90平方公里缓冲区!

项鹏飞
2026-05-09 20:32:37
2026-05-10 03:47:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1297文章数 227关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
游戏
教育
房产
家居

本地新闻

用苏绣的方式,打开江西婺源

Windows 11 PC上的Xbox模式不支持多显示器

教育要闻

天津女教师怼家长!完整录音曝光,老师很嚣张,饭碗恐不保了

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

家居要闻

菁英人居 全能豪宅

无障碍浏览 进入关怀版