网易首页 > 网易号 > 正文 申请入驻

知识引导的分子图像自监督学习框架,破解活性悬崖识别难题

0
分享至



作者丨论文团队

编辑丨ScienceAI

在药物发现领域,一个长期存在的挑战是活性悬崖(Activity Cliffs)现象,即两个分子结构高度相似但生物活性却存在显著差异,然而,由于传统方法在识别活性悬崖时,会出现表征坍塌的问题,因此仍然难以准确捕捉悬崖分子的细微差别。

近日,湖南大学等团队在《BMC Biology》上发表了一项研究《MaskMol: knowledge-guided molecular image pre-training framework for activity cliffs with pixel masking》,这项研究开发了名为 MaskMol 的知识引导分子图像自监督预训练框架,该框架能通过细粒度知识引导的像素掩码策略进行准确的活性悬崖估计。

活性悬崖与传统模型的局限

分子性质预测是药物研发的核心环节,其核心假设是结构相似则性质相似(图 1 左)。然而活性悬崖的存在恰恰是这一理念的例外,这类分子对结构差异微小,生物活性却相差显著。

图 1 右侧可见,仅一个原子不同的分子,高活性(红色标注)与低活性(绿色标注)形成鲜明对比,这种结构近、活性远的现象,正是活性悬崖的典型特征,而传统模型难以应对这一挑战的根源在于表征坍缩问题。



图 1:特征空间中 SAR(左)和活性悬崖(右)的示意图。



图 2:特征空间中 Graph 和 Image 表征的比较。

如图 2 所示,研究通过对比分子相似度与特征空间距离,发现随着分子相似度(横轴,Tanimoto 系数)升高,图模型(如 GCN、MPNN)的特征欧氏距离(纵轴)快速下降,这意味着结构相似的分子在特征空间中几乎重叠,导致表征坍塌,无法区分;而分子图像的特征距离下降更平缓,保留了更多差异信息。

MaskMol框架:知识引导的分子图像学习

更进一步,活性悬崖通常由不同分子层次上的细微变化引起,例如特定原子取代、键修饰或官能团取代。例如,在原子层面,将苯环上的氢原子替换为氯原子,会导致分子与受体的结合相互作用发生显著变化,从而影响其生物活性。

因此,团队的目标是将已有化学知识融入模型,利用这种与活性悬崖相关的知识指导模型学习分子。从而,文章中提出 MaskMol,以分子图像为核心表征,通过知识引导的像素掩码与细粒度知识引导的像素掩码预测任务构建从分子图像到化学知识的映射,其完整流程如图 3 所示。

MaskMol 框架包含两大核心模块:

(1)三种知识引导的像素掩蔽策略:具体而言,研究团队首先将分子 SMILES 转换为二维图像,然后利用 RDKit 分别对原子、化学键和子结构进行高亮标记,利用 HSV 检测生成掩码集,并与原始图像结合,生成三张不同知识层次的分子掩码图像。

(2)三个用于预训练的知识引导像素掩码预测任务。训练一个 Vision Transformer(ViT)模型来预测被掩码部分所代表的不同层级(原子级,化学键级,子结构级)的化学知识,这种设计迫使模型从图像的剩余上下文中学习分子结构的深层化学语义。



图 3:MaskMol 框架。

下游任务性能

研究团队在活性悬崖估计(ACE)和化合物效能预测(CPP)两个关键下游任务上对 MaskMol 进行了全面评估。在活性悬崖估计任务上,MaskMol 与 25 种先进的深度学习和机器学习方法进行了比较,涵盖了基于序列、图(2D 和 3D)、图像及多模态的模型。如图 4 所示,MaskMol 在 10 个不同的 ACE 数据集上取得了最低的 RMSE。

特别是在骨架划分设置下(图 5),MaskMol 相比图像模型(ImageMol)均有显著提升,平均 RMSE 提升超过了 17.0%,这证明了其优秀的泛化能力。同时,MaskMol 在化合物效能预测任务上也表现出色,即使在预训练数据量(200 万)远少于某些基线模型(1000 万)的情况下,其预测精度仍优于对比模型,显示了框架的数据效率。



图 4:活性悬崖估计实验结果。



图 5:骨架划分实验结果。

消融实验

为了深入验证 MaskMol 中各个组件的有效性,合理性,研究团队还进行了系统的消融实验,结果如上图所示:图 6c 的消融研究揭示了三个预训练任务的重要性,移除任何预训练任务都会导致性能下降,其中 Motif 级任务(MMPP)的影响最大,凸显了子结构知识对于捕捉活性悬崖关键细微差异的核心作用。

在图中可以看到,与未预训练的模型相比,完整的预训练带来了平均超过 34% 的性能增益。图 6d 探讨了像素掩码比例的影响,与 BERT(15%)或 MAE(75%)不同,MaskMol 在分子图像上的最佳掩码比例为 50%,这很可能与分子图像本身信息稀疏、有效像素占比较低的特性有关。

图 6e 进一步分析了图像大小影响,结果表明分子图像的大小对性能无显著影响(p>0.05)。



图 6:消融实验。

可解释性分析

为了理解 MaskMol 的成功机理,研究团队进行了特征空间探索,注意力可视化,化学知识解释等三方面的可解释性分析。

特征空间探索:图 7a-b 显示,基于 MaskMol 学习到的分子表征,高活性和低活性分子在二维空间中形成了更清晰的边界,而基于 ECFP 指纹的表示则混杂在一起。定量分析(图 7c)进一步证实,活性悬崖分子对在 MaskMol 特征空间中的距离远大于在 ECFP 空间中的距离,进一步说明 MaskMol 有效缓解了表征坍塌。

注意力可视化:上图 7d-e 表明,经过知识引导预训练后,MaskMol 能够精准地将注意力集中在与任务相关的原子、键或子结构上。相比之下,GNN 模型往往将注意力分散在分子的不重要区域或相同的结构上,而未经预训练的图像模型则关注整个分子而忽略了关键细节,这证明 MaskMol 确实学会了利用细微的结构差异进行活性悬崖预测。

化学知识解释:研究采用子结构掩码解释(SME)进一步量化子结构对 MaskMol 预测的贡献。通过计算子结构贡献度,能深入理解其对分子活性的影响。如图8a所示,添加苯环(归因值=−1.93,Ki = 5370 nM)和乙醇(归因值=−0.95,Ki = 758 nM)等子结构时,归因值均低于零,且苯环的影响显著大于乙醇,这与分子活性值高度吻合。除生物活性外,文章中还展示了不同子结构对毒性的分析,如图 8c 和 d。



图 7:特征空间和注意力可视化。



图 8:化学知识解释。

应用前景:从虚拟筛选到肿瘤治疗

为了验证 MaskMol 的实际应用潜力,研究团队将其应用于前列腺癌免疫治疗潜在靶点 EP4 受体的抑制剂虚拟筛选。如图 9e-f 所示,MaskMol 不仅在内部测试集上表现优异(R² = 0.789),在来自专利文献的外部验证集上也保持了高预测精度(R² = 0.755),并且能识别抑制剂和非抑制剂。

更重要的是,MaskMol 成功地从专利集中识别出了 9 个已知的 EP4 抑制剂候选化合物,如 Grapiprant、CJ-042794 等,这些分子均经过细胞实验或临床试验的验证,这充分证明了 MaskMol 在真实药物发现场景下作为高效虚拟筛选工具的可靠性。



图 9:EP4 虚拟筛选。

总结与展望

MaskMol 研究的意义在于,它首次明确指出了活性悬崖任务中深度学习模型表征坍塌的瓶颈,并开创性地通过知识引导的分子图像自监督学习来突破这一瓶颈。该框架不仅显著提升了预测性能,还具备良好的可解释性,能为药物化学家提供有价值的结构-活性关系见解。

未来,在多模态知识融合、3D 构象图像建模以及跨模态知识蒸馏等方向还能进一步拓展 MaskMol 的能力,这也将持续推动人工智能在药物发现领域的深入应用。

论文地址:https://doi.org/10.1186/s12915-025-02389-3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
304万亿,我国的货币发行总量已经是世界第一了。

304万亿,我国的货币发行总量已经是世界第一了。

流苏晚晴
2025-11-18 20:20:14
西班牙想要的,中国终于给了,拒付北约军费,欧洲彻底打开一个缺口

西班牙想要的,中国终于给了,拒付北约军费,欧洲彻底打开一个缺口

boss外传
2025-11-18 00:00:04
东京餐厅厕所内樱花妹与黑人男友“15分钟激战”,老板怒挂全网后结局亮了...

东京餐厅厕所内樱花妹与黑人男友“15分钟激战”,老板怒挂全网后结局亮了...

今日日本
2025-11-18 14:16:22
高市的极右面目:与纳粹合影,为美化希特勒书籍作序 | 国际识局

高市的极右面目:与纳粹合影,为美化希特勒书籍作序 | 国际识局

国际在线
2025-11-18 23:09:22
日本刚向中国求和,一直隔岸观火的美国下场,美军高官赴日表支持

日本刚向中国求和,一直隔岸观火的美国下场,美军高官赴日表支持

健身狂人
2025-11-19 00:35:36
帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

狸猫之一的动物圈
2025-10-13 10:09:58
逃离杭州,连网红也没钱了

逃离杭州,连网红也没钱了

最人物
2025-11-18 14:51:32
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

奇思妙想草叶君
2025-11-18 01:27:22
郑丽文“倡导统一”四字吓坏了谁?美西方“驻台代表”排队求见

郑丽文“倡导统一”四字吓坏了谁?美西方“驻台代表”排队求见

海峡导报社
2025-11-18 18:19:07
中国第一波反制高市措施刚打出,不到24小时,日本已经有事了

中国第一波反制高市措施刚打出,不到24小时,日本已经有事了

通文知史
2025-11-18 20:55:03
重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

云鹏叙事
2025-11-16 15:18:51
舆论可能是假,但销量从不说谎,最近的手机榜有意思

舆论可能是假,但销量从不说谎,最近的手机榜有意思

互联网.乱侃秀
2025-11-17 10:09:24
宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

娱乐圈笔娱君
2025-11-18 14:22:40
把绿牌改成白色?这波“医美”问题有点大

把绿牌改成白色?这波“医美”问题有点大

差评XPIN
2025-11-18 00:05:06
赢麻了!退赛后的“冷美人”获得38000元奖励,还获得了一份工作

赢麻了!退赛后的“冷美人”获得38000元奖励,还获得了一份工作

恪守原则和底线
2025-11-18 15:59:17
后程发力摘金!全运会男子400米决赛:全国纪录保持者刘凯夺冠

后程发力摘金!全运会男子400米决赛:全国纪录保持者刘凯夺冠

全景体育V
2025-11-18 20:23:12
8分钟2球 3-0横扫!日本男足3连胜年度收官:对手全场0射正

8分钟2球 3-0横扫!日本男足3连胜年度收官:对手全场0射正

叶青足球世界
2025-11-18 20:06:11
随着韩国1-0越南,熊猫杯最终积分榜:国足屈居亚军,汪士钦染红

随着韩国1-0越南,熊猫杯最终积分榜:国足屈居亚军,汪士钦染红

侃球熊弟
2025-11-18 17:26:04
“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

极目新闻
2025-11-18 14:06:30
2025-11-19 02:03:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

艺术
手机
亲子
公开课
军事航空

艺术要闻

你绝对没见过!黎雄才山水画的独特魅力!

手机要闻

红米K90至尊版突然被确认:大屏高刷+超帧生态,是否值得期待?

亲子要闻

最能干活的那批人回来了 孟婆汤的质量越来越差了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版