网易首页 > 网易号 > 正文 申请入驻

清华首篇Science!用AI一天完成万亿药物配对,覆盖半数人类基因

0
分享至

2026 年清华大学第一篇 Science 论文花落清华大学智能科学讲席教授、智能产业研究院(AIR)院长张亚勤院士团队,该学院的兰艳艳教授团队和合作者研发出一款名为 DrugCLIP 的 AI 工具,能以前所未有的速度和准确率,为成千上万个人类蛋白质找到潜在的药物钥匙。

它只需使用 8 张顶级显卡,就能在不到 24 小时内完成超过 10 万亿次蛋白质与分子的匹配计算,为将近一半的人类基因组找到了超过 200 万个潜在的候选药物分子。

这一研究首次完成了覆盖人类基因组规模的药物虚拟筛选,首次打通了从蛋白结构预测到药物发现的关键通道,可覆盖约 1 万个蛋白靶点、2 万个蛋白口袋,分析筛选了超过 5 亿个类药小分子,借此构建了已知最大规模的蛋白-配体筛选数据库,目前该数据库已免费面向全球科研社区开放 [1]。


图 | 兰艳艳(来源:https://air.tsinghua.edu.cn/info/1046/120

论文共同一作清华大学智能产业研究院(AIR)博士后贾寅君告诉DeepTech:“一方面,我们聚焦于药物研发最早期的苗头化合物发现阶段,把蛋白质结构预测的AI成功进一步推进到化合物层面,使研究能与化学家直接对话;另一方面,我们致力于以组学视角系统性探索药物靶点,突破传统单一靶点研发模式的局限,旨在通过对人类蛋白质组的全面筛选,为未来攻克更多疾病提供新起点。尽管目前距离实际药物应用仍有 ADME 优化、临床验证等诸多挑战,但本研究为AI驱动的大规模靶点探索奠定了基础。”


图 | 贾寅君(来源:贾寅君)

将以文搜图原理用于 AI 寻药

研究中,他们并不是让 AI 去模拟分子挤进蛋白质口袋的复杂物理过程,而是借鉴了人们在日常生活中常用的以文字搜索图片的技术。当我们使用搜索引擎以文字搜索图片,寻找一张符合描述的照片时,背后的技术并不是比较像素,而是比较图片被转换成的一组数字特征也就是向量。对于语义相似的文字和图片来说,它们的特征向量在数学空间里的位置会非常接近。


(来源:https://www.science.org/doi/10.1126/science.ads9530)

DrugCLIP 也是这么做的,研究人员训练了两个神经网络:

第一个神经网络起着分子编码器的作用,可以把任何一个小分子化合物,转换成为一组代表其特征的数字向量;

第二个神经网络起着口袋编码器的功能,可以把蛋白质上那个可以结合药物的凹陷区域也就是结合口袋,也转换成为一组数字向量。

训练的目标很简单:让能够结合的蛋白质口袋和分子的向量变得非常相似,也就是在数字空间里靠得很近;让不能结合的向量差异变得很大也就是离得很远。

这样,当面对一个新的蛋白质的时候,DrugCLIP 只需要做这样一个步骤:把这个蛋白质口袋也变成一个向量,然后去已经预存好的分子向量库里,快速地计算余弦相似度,找出和它最像、也就是最可能结合的那些分子。这个过程非常快,因为本质上就是大量的向量点乘运算,非常适合使用 GPU 进行并行加速。

为了让 AI 在没有足够真实数据的情况下也能学好,他们想出了这样一个方法:使用蛋白质自己假装药物来训练。他们从已知的蛋白质结构数据库中,截取一小段氨基酸链比如 3-8 个氨基酸,把它当做伪配体,而它周围的区域则被当做伪口袋。

蛋白质内部氨基酸之间的相互作用,与蛋白质和药物分子之间的相互作用原理是相同的。通过使用这种方法,他们生成了 550 万个伪复合物数据来对 AI 进行预训练,从而让它掌握了识别结合模式的基本功。


(来源:https://www.science.org/doi/10.1126/science.ads9530)

认图不认人,无中生有找新药

经过训练之后,DrugCLIP 展现出又快又准的特点,在两个权威的虚拟筛选测试集 DUD-E 和 LIT-PCBA 上,它的准确率超过了包括传统分子对接和许多其他深度学习模型在内的所有基线方法。在速度上,它更是达到传统分子对接方法的上千万倍。在筛选 LIT-PCBA 数据集上的所有分子时,DrugCLIP 的顺序计算只需要 38 秒,而传统方法需要几天甚至更久。

DrugCLIP 还展现出认图不认人的特点,它无需依赖精确的蛋白质三维结构细节,针对蛋白质侧链的微小错误不具备敏感性。更重要的是,即使训练数据里完全没有某个蛋白质家族的信息,它也能很好地为这个新家族的成员找到潜在配体,具备较强的泛化能力。

DrugCLIP 亦能无中生有寻找新药。在湿实验验证中,针对抑郁症靶点 5-羟色胺 2A 受体,它从 78 个候选分子中找到了 8 个有活性的激动剂,其中最好的分子活性达到了纳摩尔级别。

针对另一个抑郁症靶点去甲肾上腺素转运体,它找到了比常用药物安非他酮效果更好的新型抑制剂。研究人员甚至使用冷冻电镜拍下了这些新抑制剂与靶点蛋白紧密结合的清晰照片,证实了 AI 预测的结合模式。


(来源:https://www.science.org/doi/10.1126/science.ads9530)

TRIP12,是一个与癌症和神经退行性疾病相关的蛋白质,此前既没有它与小分子结合的实验结构,也几乎没有已知的抑制剂报道。为此,研究人员只能使用谷歌 DeepMind 旗下的 AlphaFold2 所预测的蛋白质结构。

然而,即使是在这样的 hard 模式下,DrugCLIP 结合该团队研发的另一款用于优化预测结构中的口袋定义的工具 GenPack,竟然取得了 17.5% 的命中率,找到了能够有效结合并抑制 TRIP12 活性的苗头化合物,证明了 DrugCLIP 在探索完全未知的靶点上的巨大潜力。


(来源:https://www.science.org/doi/10.1126/science.ads9530)

构建公共数据库,助推打造药物发现新模式

这项研究的终极结果,是构建了一个名为 GenomeScreenDB 的公共数据库。研究人员利用 AlphaFold2 预测的整个人类蛋白质组结构,结合 DrugCLIP 针对 5 亿多个类药分子进行了全景式扫描,最终为来自大约 1 万个人类蛋白质的 2 万个结合口袋,找到了 200 万个潜在的候选分子。

这个数据库所覆盖的蛋白质靶点数量,是当前最全面的生物活性分子数据库 ChEMBL 的两倍之多,涵盖了将近一半的人类基因组。从经典的激酶靶点、到鲜有研究的溶质载体蛋白、甚至嗅觉受体,在该数据库中都有预测的结合分子。目前,这些数据已在网站和在线服务平台(https://drugclip.com)面向全球科学家免费开放。


(来源:https://drugclip.com)

自此以后,任何一位研究人员即使没有太强的计算资源,也可以轻松查询到自己感兴趣的靶点,快速获得一些经过 AI 预筛选的候选化合物,并以此作为药物研发的起点。这极大地降低了早期药物发现的壁垒,尤其有助于针对那些冷门但是重要的疾病靶点开展研究。


(来源:https://www.science.org/doi/10.1126/science.ads9530)

清华大学智能产业研究院(AIR)博士后贾寅君、计算机系博士生高博文、生命学院博士后谭佳鑫、化学系博士后郑济青以及智能产业研究院(AIR)博士后洪鑫是本次论文的共同一作;通讯作者为智能产业研究院(AIR)兰艳艳教授,清华大学生命学院张伟副教授、闫创业副教授以及清华大学化学系刘磊教授。

在后续计划上,贾寅君表示将主要围绕两大方向:一是提升优化AI发现的分子的安全性及成药性,使其更接近实际制药应用;二是进一步提高AI模型准确性与分子效力,增强初筛分子的生物学活性。这两方面均是未来真正实现AI终结一切人类疾病需要攻克的关键问题。

参考资料:

相关论文:https://www.science.org/doi/10.1126/science.ads9530

兰艳艳官方主页:https://yanyanlan.com/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大溃败!中国网贷公司,在印度全军覆没

大溃败!中国网贷公司,在印度全军覆没

首席品牌评论
2026-01-07 18:20:00
有高人预测:中国手握“两套房”的家庭,未来将迎来3个结果!

有高人预测:中国手握“两套房”的家庭,未来将迎来3个结果!

科学发掘
2026-01-10 04:18:55
彻底凉凉!闫学晶迎来终极噩耗,杨议出言嘲讽 赵本山也救不了她

彻底凉凉!闫学晶迎来终极噩耗,杨议出言嘲讽 赵本山也救不了她

楠楠自语
2026-01-10 10:23:06
1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

寄史言志
2026-01-07 20:37:09
阿富汗突发恶性袭击事件:中方矿业公司遇袭致5死多人被绑

阿富汗突发恶性袭击事件:中方矿业公司遇袭致5死多人被绑

老马拉车莫少装
2026-01-10 00:00:42
新华社消息|中央宣传部、公安部联合发布2025年“最美基层民警”

新华社消息|中央宣传部、公安部联合发布2025年“最美基层民警”

新华社
2026-01-09 20:09:29
何炅2分钟录音曝光,全网听完破防:终于知道撒贝宁为啥怕他了!

何炅2分钟录音曝光,全网听完破防:终于知道撒贝宁为啥怕他了!

川川八卦说
2026-01-10 12:17:24
一位忠诚的“白骨武士”,以跪坐姿势手持长戈,守护王陵3000多年

一位忠诚的“白骨武士”,以跪坐姿势手持长戈,守护王陵3000多年

收藏大视界
2026-01-09 21:36:11
谁说中型旅是“薄皮大馅”?19式轮战:我摊牌,我是全能型战士

谁说中型旅是“薄皮大馅”?19式轮战:我摊牌,我是全能型战士

子桑说
2026-01-10 20:26:29
冲上热搜!取消中小学期末统考,包括高一高二,多地发出通知

冲上热搜!取消中小学期末统考,包括高一高二,多地发出通知

环球网资讯
2026-01-10 17:51:08
画火吴营村日入800万,却喂不饱村民贪婪!他要逃离,太寒心

画火吴营村日入800万,却喂不饱村民贪婪!他要逃离,太寒心

鋭娱之乐
2026-01-04 21:37:14
赖清德没料到,对国民党挥出的致命一击,反而帮了郑丽文大忙

赖清德没料到,对国民党挥出的致命一击,反而帮了郑丽文大忙

文史旺旺旺
2026-01-09 17:42:11
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
周生生“黄金四叶草”项链一夜涨了1.5万元,国内金饰品牌价格新年第一涨

周生生“黄金四叶草”项链一夜涨了1.5万元,国内金饰品牌价格新年第一涨

界面新闻
2026-01-09 23:59:03
邀约偷铁皮遭拒,云南61岁老妇杀害13岁男孩,法院出具的判决书显示:犯故意杀人罪,判处死刑

邀约偷铁皮遭拒,云南61岁老妇杀害13岁男孩,法院出具的判决书显示:犯故意杀人罪,判处死刑

观威海
2026-01-10 14:46:04
四大电诈头目被押解回国,舱内特写首曝光

四大电诈头目被押解回国,舱内特写首曝光

澎湃新闻
2026-01-10 14:59:06
绿军躺回东部第二!布克31+8太阳险胜尼克斯 狄龙27分布伦森27分

绿军躺回东部第二!布克31+8太阳险胜尼克斯 狄龙27分布伦森27分

醉卧浮生
2026-01-10 12:39:19
波兰外交部召见匈牙利驻波兰大使

波兰外交部召见匈牙利驻波兰大使

界面新闻
2026-01-10 08:28:02
52:47!美国投票结果公布,特朗普惨遭背叛,总统权力被没收

52:47!美国投票结果公布,特朗普惨遭背叛,总统权力被没收

博览历史
2026-01-09 17:57:04
因说出“把赖清德狗头斩下来”,台网红“馆长”被提起公诉

因说出“把赖清德狗头斩下来”,台网红“馆长”被提起公诉

参考消息
2026-01-09 19:16:00
2026-01-10 21:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16107文章数 514468关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

特朗普宣称“不需要国际法” 联合国秘书长表态

头条要闻

特朗普宣称“不需要国际法” 联合国秘书长表态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

时尚
教育
亲子
数码
军事航空

年底大牌返场 || 每次都“秒空”,这次100+真的好值!

教育要闻

CAA E-Newsletter英文电子简报 | Vol.11 中国(杭州)艺术与科技国际双年展特刊

亲子要闻

阿钟的小毛驴糖果小故事

数码要闻

雷神MIX GAMING 2迷你主机,竟能实现4K 120帧游戏体验

军事要闻

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

无障碍浏览 进入关怀版