网易首页 > 网易号 > 正文 申请入驻

刘琦开发大规模小分子预训练模型“X-MOL”,助力AI药物分子设计

0
分享至

基于AI的药物小分子设计加速了药物研发的进程,是近期药物研发领域的重要研究方向。对于小分子的有效表征和理解是AI药物设计的核心问题。虽然领域内各种AI模型层出不穷,但尚缺乏普适的计算框架,可以将小分子的生成、优化、属性预测以及小分子相互作用等各种单独任务进行统一建模。

近日,同济大学生命科学与技术学院生物信息学系、同济大学-上海自主智能无人系统科学中心刘琦教授课题组与百度自然语言处理组在Science Bulletin上联合发表了题为X-MOL: Large-scale pre-training for molecular understanding and diverse molecular analysis的论文,发布了大规模小分子预训练模型X-MOL(图1)及其开源模型(https://github.com/bm2-lab/x-mol)。在此项工作中,研究人员构建了一个大规模的Transformer-based模型,结合海量的训练数据与强大的计算资源,训练了对于小分子进行有效表征的大规模预训练模型X-MOL,并在五种不同的下游任务中验证了小分子预训练所带来的性能提升,这些任务包括分子活性预测、化学反应产率预测、药物-药物相互作用预测、小分子从头生成与小分子优化(图1a)

图1. X-MOL 计算框架

在预训练过程中,X-MOL最核心的部分在于设计了一种自监督的预训练策略。研究者选取了SMILES【1】作为小分子的表示方式,并设计了一种生成式的预训练模型:即由小分子的一条random SMILES生成该小分子的另外一条random SMILES,使得模型在这个“SMILES转换”的过程中去学习SMILES的语法规则及其有效表征,使得计算机能够“理解”SMILES的语义规则。由于X-MOL中所采用的这种精心设计的生成式预训练策略与传统的Mask Language Model(MLM)模型有所区别,因此常规的Transformer【2】模型在这里并不能直接适用,为此,研究者提出了一种融合了双向注意力机制与单向注意力机制的混合注意力Transformer模型(图1b),使得X-MOL在一个Transformer encoder模型上实现了Encoder-Decoder结构的效果,达到了小分子生成的目的。

在模型规模上,X-MOL由一个12层、768维度的Transformer encoder模型构成,每一层的注意力机制包含有12个head。为了将这样一个巨大的模型进行有效的训练,该团队的研究人员使用了ZINC15【3】数据库中全部的小分子作为训练数据进行X-MOL的预训练,包含了超过11亿个小分子。模型的全部训练过程借助于百度的云计算平台完成,每一次训练调用了8/16张GPU。

领域内公开发表的预训练模型大多采用常规的MLM式预训练模型,并不适用于生成式的下游任务。而采用了生成式预训练策略的X-MOL则可以被微调至更多类型的下游任务中。这些任务包括: (1). 小分子的性质预测,包括小分子的一些理化性质和ADMET预测等。在这一类任务中,研究人员选取了MoleculeNet【4】中的7个任务,包括4个分类任务:BACE、HIV、BBBP、ClinTox,以及三个回归任务Lipophilicity、ESOL、FreeSolv,最终X-MOL在全部的7个任务中均取得了最好的表现(图2a)。(2). 化学反应产率预测。X-MOL最终达到了0.0626的RMSE,显著地超越了基线【5】的0.078的RMSE,而在R2方面也是达到了最新的Yield-BERT【6】的水平(图2b)。(3). 药物-药物相互作用。研究人员选取了经典工作DeepDDI【7】与CASTER【8】作为基线。最终X-MOL取得了0.952的预测准确率, 超过了DeepDDI的0.924,此外在ROC-AUC、PR-AUC与F1 score指标上,X-MOL的表现也都超越了两个基线工作(图2c)。(4). 小分子生成,包括Distribution-learning与Goal-directed两类生成方式【9】。前者在评估时着重考量小分子的生成质量,后者则更关注于模型所生成的小分子是否满足既定的目标。在Distribution-learning生成中,X-MOL在三个评价指标上均达到了Graph-based模型的水平。而在Goal-directed生成中,X-MOL生成的Top 3分子均达到了生成目标所设置的QED【10】值,而此前Graph-based模型最好的表现只能达到Top 2分子满足生成目标的水平(图2d)。(5). 小分子优化任务。在这一项任务中,不管是经过了预训练的X-MOL还是未经过预训练的冷启动X-MOL都能够有效地对输入小分子进行特定的优化(图2e)

图2. X-MOL在各种下游任务上的性能比较

除了上述五种只包含小分子表征的下游任务之外,研究团队同样证明了X-MOL可以有效提升“配体-蛋白质相互作用预测”这一任务的性能,该任务中包含了除小分子之外的蛋白质实体,说明X-MOL对于小分子的有效表征可以推广至更多类型的下游任务上。

研究人员进一步尝试通过对注意力机制进行可视化来展示X-MOL在各个任务中对于小分子的理解(图3)。研究人员选取了X-MOL在被微调至小分子活性预测任务中的中间层的注意力矩阵来进行可视化。该例子进一步表明X-MOL模型具备一定的可解释性。

图3. X-MOL注意力机制的可视化

综上所述,X-MOL被证明了在不同的小分子相关的下游任务上均取得了最先进的性能,同时兼顾了良好的可解释性。X-MOL将进一步促进AI制药行业利用大规模的预训练与微调策略来统一现有的各种AI辅助小分子设计任务,为AI制药领域提供了一个可以借鉴的普适AI计算框架和开源平台。

该论文第一作者是同济大学生命科学与技术学院刘琦教授课题组的薛东雨、陈晓涵博士和百度自然语言处理部门的张涵, 通讯作者是刘琦教授和百度李宇琨, 百度公司的孙宇, 田浩, 吴华等为该工作提供了有益的指导。该工作同时获得了百度飞桨平台和同济大学-上海自主智能无人系统科学中心智能学科方向的大力支持。

原文链接:

https://www.sciencedirect.com/science/article/abs/pii/S2095927322000445

制版人:十一

参考文献

[1] Weininger D. Smiles, a chemical language and information system. 1. Introduction to methodology and encoding rules. Journal of chemical information and computer sciences, 1988, 28: 31-36

[2] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In: Proceedings of the Advances in neural information processing systems, 2017.

[3] Sterling T, Irwin JJ. Zinc 15–ligand discovery for everyone. Journal of chemical information and modeling, 2015, 55: 2324-2337

[4] Wu Z, Ramsundar B, Feinberg EN, et al. Moleculenet: A benchmark for molecular machine learning. Chemical science, 2018, 9: 513-530

[5] Ahneman DT, Estrada JG, Lin S, et al. Predicting reaction performance in c–n cross-coupling using machine learning. Science, 2018, 360: 186-190

[6] Schwaller P, Vaucher AC, Laino T, et al. Prediction of chemical reaction yields using deep learning. Machine Learning: Science and Technology, 2021, 2: 015016

[7] Ryu JY, Kim HU, Lee SY. Deep learning improves prediction of drug–drug and drug–food interactions. Proceedings of the National Academy of Sciences, 2018, 115: E4304-E4311

[8] Huang K, Xiao C, Hoang T, et al. Caster: Predicting drug interactions with chemical substructure representation. In: Proceedings of the Proceedings of the AAAI Conference on Artificial Intelligence, 2020.

[9] Nathan, Brown, Marco, et al. Guacamol: Benchmarking models for de novo molecular design. Journal of chemical information and modeling, 2019,

[10] Bickerton GR, Paolini GV, Besnard J, et al. Quantifying the chemical beauty of drugs. Nature chemistry, 2012, 4: 90-98

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经允许禁止转载,作者拥有所有法定权利,违者必究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雨果讲淘汰梁靖崑原因!刘志强表情很淡定,大胖出局反而是件好事

雨果讲淘汰梁靖崑原因!刘志强表情很淡定,大胖出局反而是件好事

三十年莱斯特城球迷
2024-06-02 15:14:30
地方政府主导城投贷款买自己的地,比例2年涨3成,背后隐藏大雷

地方政府主导城投贷款买自己的地,比例2年涨3成,背后隐藏大雷

爆角追踪
2024-06-02 16:58:51
第一批小米车主:我给雷军这些建议

第一批小米车主:我给雷军这些建议

中国企业家杂志
2024-06-02 12:23:21
网红铁头向靖国神社撒尿泼漆,未成功回国,警方抓捕中恐被判三年

网红铁头向靖国神社撒尿泼漆,未成功回国,警方抓捕中恐被判三年

辣条小剧场
2024-06-02 08:00:26
广州一商场突发坠落事故!涉事商家已暂停营业

广州一商场突发坠落事故!涉事商家已暂停营业

鲁中晨报
2024-06-02 17:15:04
曝汪峰森林北新疆乌鲁木齐相聚过六一,不带保镖捂得严实仍被认出

曝汪峰森林北新疆乌鲁木齐相聚过六一,不带保镖捂得严实仍被认出

娱圈小愚
2024-06-02 15:08:05
贾玲成为普拉达品牌代言人

贾玲成为普拉达品牌代言人

界面新闻
2024-06-02 11:35:53
伊朗前总统内贾德登记参选总统

伊朗前总统内贾德登记参选总统

界面新闻
2024-06-02 15:35:08
罕见!史诗级“大堵船”

罕见!史诗级“大堵船”

侃故事的阿蚌
2024-06-02 09:07:08
民进党支持度暴增,最新政党民调显示:蓝白相加不敌民进党支持率

民进党支持度暴增,最新政党民调显示:蓝白相加不敌民进党支持率

侦姐有料
2024-06-02 11:23:15
京东回应“磨铁抵制京东”,否认站在行业对立面 京东App磨铁网店仍在正常销售

京东回应“磨铁抵制京东”,否认站在行业对立面 京东App磨铁网店仍在正常销售

红星新闻
2024-06-01 19:46:36
激烈交锋,中美还是没谈拢,抢在董军上专机前,美方作出特殊安排

激烈交锋,中美还是没谈拢,抢在董军上专机前,美方作出特殊安排

影孖看世界
2024-06-01 21:30:44
终于来了!字母哥正式确认加盟!人家又要对抗整个NBA……

终于来了!字母哥正式确认加盟!人家又要对抗整个NBA……

篮球实战宝典
2024-06-02 15:33:24
西安一恶势力集团夜间“碰瓷”酒驾司机,半年敲诈作案33起,一审主犯获刑十年半

西安一恶势力集团夜间“碰瓷”酒驾司机,半年敲诈作案33起,一审主犯获刑十年半

上游新闻
2024-06-02 11:48:09
朱丹真实在,胖成这样还不P图,穿得像大姐但在周一围面前没气场

朱丹真实在,胖成这样还不P图,穿得像大姐但在周一围面前没气场

酒盅故事汇
2024-06-01 16:36:46
1-2!苦战不敌安洗莹,陈雨菲无缘赛季首冠,国羽决赛日吞首败!

1-2!苦战不敌安洗莹,陈雨菲无缘赛季首冠,国羽决赛日吞首败!

钉钉陌上花开
2024-06-02 17:29:07
福建漳浦暴雨:车辆“水上漂”,居民称十几年没见到这样大的暴雨

福建漳浦暴雨:车辆“水上漂”,居民称十几年没见到这样大的暴雨

极目新闻
2024-06-02 17:06:18
复旦大学冯玉军:中国人民支持乌克兰,俄罗斯必败,乌会是胜利者

复旦大学冯玉军:中国人民支持乌克兰,俄罗斯必败,乌会是胜利者

泸沽湖
2024-06-02 12:07:47
特朗普被判有罪后新动作:入驻TikTok粉丝已破24万

特朗普被判有罪后新动作:入驻TikTok粉丝已破24万

澎湃新闻
2024-06-02 16:06:27
铁头自曝自己人还在日本,有可能回不去了

铁头自曝自己人还在日本,有可能回不去了

映射生活的身影
2024-06-01 21:49:08
2024-06-02 18:38:44
BioArtMED
BioArtMED
BioArt旗下科普媒体
1960文章数 2449关注度
往期回顾 全部

科技要闻

成功着陆!嫦娥六号将开始月背“挖宝”

头条要闻

媒体:中美防长会谈细节披露 董军的两句话值得注意

头条要闻

媒体:中美防长会谈细节披露 董军的两句话值得注意

体育要闻

我已伤痕累累 却依然感动不了命运之神

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

新造车5月销量: 小鹏乏力 问界暂"缺席"

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

亲子
教育
手机
时尚
本地

亲子要闻

小男生从长发剪成短发,不变的是那英俊可爱的外表

教育要闻

放假的时候逼孩子早起是一种“病”,非得让孩子不舒服来体现自己的存在感和优越感

手机要闻

不再“天价”!华为推出折叠机柔性屏主体更换活动:Mate X5仅换屏1999元

夏天适合40+姐姐的职场穿搭,时尚还高级,潮流女王就是你

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

无障碍浏览 进入关怀版