网易首页 > 网易号 > 正文 申请入驻

统一虚拟筛选和活性优化,IDEA研究院提出亲和力基础模型LigUnity

0
分享至



作者 | 论文团队

编辑 | ScienceAI

2025 年 10 月,一篇题为《Hierarchical affinity landscape navigation through learning a shared pocket-ligand space》的论文,作为封面文章发表于 Cell 旗下期刊《Patterns》。该研究由粤港澳大湾区数字经济研究院(IDEA)AI4Science 团队、晶泰科技(XtalPi)及华盛顿大学的研究团队联合攻关,成功开发了名为 LigUnity 的亲和力基础模型。



论文地址:https://www.cell.com/patterns/fulltext/S2666-3899(25)00219-3?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS2666389925002193%3Fshowall%3Dtrue

项目地址:https://idea-xl.github.io/LigUnity

开源代码:https://github.com/IDEA-XL/LigUnity

此项工作不仅是对传统虚拟筛选工具的优化,更是一次范式级的革新 —— 它通过构建蛋白质与配体的共享表示空间,让 AI 统一学习并驾驭从大规模筛选到精细活性优化的完整药物发现流程。

任务背景与挑战

在人体中,上万种蛋白质维持着复杂的生命活动,其中许多蛋白质的异常与疾病直接相关,是潜在的药物靶点。然而,目前仅有约 10% 的蛋白质能被已知的药物分子高效结合,绝大多数靶点仍处于「黑暗」 之中,等待着被有效的药物「点亮」。

为这些靶点找到合适的药物分子,通常分为两个关键步骤:

1. 虚拟筛选 (Virtual Screening):利用计算方法,从包含数亿甚至数十亿分子的巨大化合物库中,快速筛选出少数可能与目标蛋白质结合的「苗头化合物」。此阶段的核心诉求是速度。

2. 苗头化合物优化 (Hit-to-Lead Optimization):在找到苗头化合物后,需要对其化学结构进行精细的修改和优化以增强其活性(活性优化),最终得到可进入后续试验的「先导化合物」。此阶段的核心诉求是精度。

传统方法往往将这两个任务割裂开来,使用不同的工具和模型。这种分离导致了模型效果限制:专注于筛选的模型可能无法精确区分结构相似但活性差异巨大的分子;而专注于优化的模型则难以泛化到具有全新化学骨架的潜力分子。

模型方法与核心创新

LigUnity 的核心创新在于构建了一个统一的亲和力基础模型,让 AI 学会一种能同时理解蛋白质结合口袋和药物分子的「共同语言」。

为实现这一目标,研究团队首先构建了迄今为止规模最大的、以实验(Assay)组织的亲和力数据库 PocketAffDB,其中包含了蛋白质口袋结构信息和近百万活性数据。基于此,LigUnity 通过一种创新的「层级式学习」策略进行训练:

1. 化学骨架判别:首先,模型利于对比学习(Contrastive learning)进行粗粒度的区分。它学习识别活性分子和非活性分子的骨架差异,为虚拟筛选任务打下基础。

2. 药效团排序:然后,模型利于列表排序(Listwise ranking)进行细粒度的优化。它学习对一群结构相似的活性分子,根据其活性的高低进行精确排序,以胜任苗头化合物优化任务。

在预训练期间,LigUnity 同时优化上述目标;在推理时,LigUnity 将蛋白和口袋映射至同一空间,使用余弦相似度计算其活性。在保证了高精度的同时,LigUnity 的速度比传统的分子对接方法(如 Glide-SP)快了百万倍。



实验结果

LigUnity 在横跨 6 大类应用场景的 8 个基准测试中,展现了其卓越的性能。

1. 虚拟筛选任务

  • 全面领先:在 DUD-E、DEKOIS 2.0 和 LIT-PCBA 这三个主流虚拟筛选基准测试中,LigUnity 的表现超越了全部 24 种竞争方法,包括传统的分子对接软件和各类机器学习模型。
  • 性能巨大提升:与表现最好的基线模型相比,LigUnity 在关键指标「富集因子 (EF 1%)」上取得了超过 50% 的性能提升(p < 10⁻⁹)。
  • 强大的泛化能力:即便在排除了与训练集中蛋白质相似(序列相似性 < 30%)的新靶点上进行测试,LigUnity 的性能依然显著优于 Glide SP,表现出对未知靶点的强大预测能力和实用价值。



2. 苗头化合物优化任务

  • 零样本性能优越:在 JACS 和 Merck 这两个行业公认的 FEP 基准测试中,在不使用任何目标数据(zero-shot)的情况下,LigUnity 的预测性能已优于 Glide-SP、MM/GBSA 等传统计算方法及其他机器学习模型,展现了其强大的预训练知识。
  • 少量数据即可媲美「金标准」:当使用少量(10-20 个)已知数据进行微调后,LigUnity 的预测精度(在 Merck 基准上 r² = 0.472)已接近计算成本极度高昂的物理计算「金标准」方法 FEP+(r² = 0.528),为昂贵的实验和计算提供了高性价比的替代方案。
  • 良好的可解释性:尽管未使用蛋白 - 分子结合构象作为输入,LigUnity 仍成功识别出了对结合起关键作用的配体原子和口袋残基,与已知的晶体结构相互作用模式高度吻合,为化学家优化分子提供了可靠指导。



3. 多场景应用的通用性

  • 前瞻研究与骨架跃迁:在模拟真实药物发现的测试中,LigUnity 表现出众。在时间分割(用历史数据预测未来新分子)和化学骨架分割(泛化至训练集中未见的全新化学骨架)设定下,它均超越了所有基线模型,证明其具备突破现有化学空间、发现新潜力分子的强大泛化能力。
  • 对多源、异构数据的鲁棒性:真实世界的生物活性数据来源多样、测量单位不一(如 nM vs. % 抑制率)。得益于其独特的「列表排序」机制,LigUnity 天然的对测量单位不敏感。在 OOD 测试中,其性能相比传统回归模型提升高达 40.2%,展现了其作为基础模型处理复杂、真实世界数据的卓越适应性。



  • 主动学习应用:在模拟真实研发流程的主动学习框架中,研究团队对 TYK2 靶点进行研究,从 10,000 个后续分子中找到活性最好的分子。集成 LigUnity 的框架仅通过 4 轮迭代(400 活性标注数据),就成功找到了活性最高的 3 个分子,证明其能以极少的实验成本,高效地指导药物发现进程。



结论与展望

LigUnity 通过一个统一的、层级式的学习框架,成功地将虚拟筛选与活性优化相结合,在速度、精度和泛化性上均取得了突破。它不仅是一个强大的预测工具,更是一个具备广泛适用性的基础模型,为加速早期药物发现的全流程奠定了坚实的基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

街声巷闻
2025-11-17 14:36:54
惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

电动猫
2025-11-18 00:18:26
聚焦“十五五”规划建议|保持制造业合理比重

聚焦“十五五”规划建议|保持制造业合理比重

新华社
2025-11-17 15:54:02
王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

懂球帝
2025-11-18 17:17:31
张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

极目新闻
2025-11-18 15:19:03
捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

鹰眼Defence
2025-11-18 17:53:12
捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

南宫一二
2025-11-17 07:17:39
全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

带你逛体坛
2025-11-18 18:34:10
罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

懂球帝
2025-11-18 14:25:08
日韩股市,开盘暴跌!

日韩股市,开盘暴跌!

证券时报
2025-11-18 09:47:04
湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

体育妞世界
2025-11-18 14:08:30
乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

君好伴读
2025-10-27 10:33:08
付某梅(女),已被大连警方抓获归案!

付某梅(女),已被大连警方抓获归案!

半岛晨报
2025-11-18 12:40:05
因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

起喜电影
2025-11-18 15:29:35
赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

火山诗话
2025-11-18 18:36:08
华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

手机中国
2025-11-18 16:50:44
钟丽缇168cm的大块头,一般男人征服不了她吧?

钟丽缇168cm的大块头,一般男人征服不了她吧?

小椰的奶奶
2025-11-18 13:14:26
毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

南书房
2025-09-28 23:01:03
日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

收藏大视界
2025-11-09 20:38:12
只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

乡野小珥
2025-11-18 07:31:38
2025-11-18 19:39:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

家居
房产
亲子
艺术
公开课

家居要闻

彰显奢华 意式经典风格

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

亲子要闻

孩子咳嗽怎么办?应该如何缓解?

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版