网易首页 > 网易号 > 正文 申请入驻

AI研习丨基于人工智能的小分子药物先导优化

0
分享至

文/夏宇航,王永康,王郅巍,章文

摘 要:首先 针对基于人工智能的小分子药物先导优化的研究进展进行了回顾;然后根据数据任务场景将先导优化方法分为分子映射、分布匹配学习和分子局部搜索,归纳了先导优化的关键属性和模型评估标准;最后讨论了先导优化当前的应用和面临的挑战,并指出可解释性、多维度优化、模型泛化性等先导优化研究方向。

关键词:人工智能;药物发现;先导优化

1 研究背景

新药的研发 (research & develop-ment,R&D) 是一个长周期、高成本和高风险的过程。一种创新药物从研发到投放市场大约需要10~15年的时间,平均成本约为10~20亿美元,临床成功率约为10%。随着可用靶点不断被开发,发现新的靶点越来越困难,新药的研发难度逐渐加大,研发成本呈现逐年上升的态势。面对新药研发的挑战,思考和探索高效的药物研发方法成为一种必然。

如图1所示,药物研发分为三个阶段。第一阶段是药物发现,主要是筛选出可进入临床试验的候选药物,包含五个步骤:①药物靶点确定;②从分子库中筛选出对靶点具有初步活性的苗头化合物(hit);③对苗头化合物进行初步验证和优化,得到具有类药性的先导化合物(lead),该过程被称为先导药物的发现(hit-to-lead);④对先导化合物进一步优化,使之成为具有成药性的理想候选药物,这一过程被称为先导化合物的优化(lead optimization),简称为先导优化;⑤通过临床前研究初步验证候选药物的安全性,验证通过后的药物进入临床阶段。第二阶段是药物开发,通过三期临床实验验证候选药物在人体实验中的有效性、安全性是否达到上市条件。第三阶段是上市,经过美国食品药品监督管理局(FDA)认证之后,药物就可以上市发行,上市后通过IV期临床获得药物长期安全性和有效性等其他信息。

据统计,临床药物研发失败主要有缺乏临床疗效(40%~50%)、不可控的毒性(30%)、成药性差(10%~15%),以及市场需求不足和产品规划策略不善(10%)这四种原因,数据表明90%的失败原因都是药物性质不合理,难以满足安全、有效、稳定和质量可控的要求。药物分子的结构决定了药物的性质和临床效果,先导优化旨在改善药物性质,对于新药研发的成败至关重要。然而,传统的先导优化方法很大程度上依赖药物化学家的知识与经验,试错成本高,优化周期长。近几年,随着人工智能技术的蓬勃发展,人们尝试开展基于人工智能技术的药物研发,该技术在药物研发各个环节都发挥了重要作用,尤其在先导优化环节表现出巨大潜力,有望提升先导优化的效率与成功率,降低研发费用和试错成本。

相较于大分子药物,小分子药物的研发工艺更加成熟,目前90%的药物都是小分子药物。本文主要介绍基于人工智能的小分子药物先导优化方法及其应用。

2 人工智能药物先导优化方法

传统先导药物优化方法包括生物电子等排替换、前药原理、软药、硬药与孪药设计等,这些方法依赖于药物化学家的知识与经验人工构建结构-活性关系(SAR),通过分子化学修饰实现先导优化。但这类方法过于依赖专家知识,难以系统化和规则化,效率低且成本高。随着计算机技术的发展,上世纪80年代产生了计算机辅助药物设计的概念,研究者利用计算机与统计学的方法将SAR发展为定量构效关系(QSAR),用于指导后续的先导优化。近年来,随着大数据和人工智能技术的发展,人们尝试使用人工智能技术从大量数据中自动学习领域知识,指导药物先导优化,取得了令人瞩目的成果。

人工智能药物先导优化方法分为分子映射方法、分布匹配学习方法和分子局部搜索方法。

2.1 分子映射方法

如图2(a)所示,基于匹配分子对(MMPs)数据集,分子映射方法学习优化前后分子的药物化学转化规则,将待优化分子映射为性质更优的分子。匹配分子对分析具有可解释性和直观性,是以往药物化学家常用的优化策略。

深度学习模型通过学习匹配分子对,模仿药物化学家的知识与经验来实现先导优化。模型按照分子表示分为基于2D分子图表示的Graph2Graph模型和基于1D字符串表示的Seq2Seq模型两大类。除了分子表示方式存在不同,两种分子模型均参考了极大似然估计思路,利用优化前分子信息,推导最有可能形成优化后分子信息的模型的中间过程。通过构建分子表示转换的编码器 - 解码器模型,利用匹配分子对,学习保留结构与删除替换结构的优化规则,完成分子映射。

2.2 分布匹配学习方法

基于优化分子数据集,分布匹配学习方法学习优化分子的化学空间属性分布,通过调整待优化分子的化学空间属性分布使之接近优化分子分布,从而实现先导优化。

该方法借鉴了图像领域中的风格迁移思想。风格迁移是一种图像生成技术,其目的是在保留图像原始内容的基础上,改变其绘画风格,从而生成一幅新的图像。类比到先导优化,就是将待优化分子的分布迁移到优化分子的分布,同时保证优化前后分子具有一定的相似性。分子相似性原理是先导优化的理论依据,即结构相似的分子具有相似或相关的理化性质或生物活性。基于人工智能的先导优化方法通过保证相似性原则,降低优化后分子破坏已经确认的生物活性的可能性。如图2(b)所示,其目标是训练出一个映射函数G:X→Y,实现分子域D(X)到D(Y)的匹配。

2.3 分子局部搜索方法

如图2(C)所示,引导式搜索使用来自属性预测模型的指导或来自统计模型的评估,通过在分子化学空间和分子潜在空间搜索来实现分子优化。

分子化学空间搜索方法是直接在分子化学空间中,通过添加/删除/替换原子、键或环等操作修饰分子的部分亚结构,搜索满足目标属性的药物分子,常采用的搜索策略有强化学习、遗传算法等。这类搜索方法可以结合领域知识来引导目标分子的搜索。分子潜在空间搜索方法通常将化学空间中的分子编码为连续低维的潜在空间中的向量 , 通过搜索待优化分子的潜在向量周围的区域找到满足约束条件的潜在向量 , 再将其解码为化学空间中的分子。常用的搜索策略有梯度上升、粒子群优化、贝叶斯优化等。此外,在分子潜在空间可以很容易地施加正则化或结构先验。分子化学空间搜索直接在分子化学空间完成 , 一定程度避免了信息的丢失;分子潜在空间搜索则需要分子的编码和解码过程。

3 先导优化属性及定义

先导化合物作为现代新药研发的起点,尽管已具有了某些期望的性质,但由于某些缺陷,如生物活性较低、靶点选择性不理想、稳定性差、理化性质差、存在毒性或不良反应和ADME性质不合理等,仍有待进一步优化,以成为符合需求的理想候选药物。

先导优化的属性通常分为理化性质、药理学性质、药代动力学性质和毒性四种。常见的理化性质有辛醇-水分配系数(LogP)和合成可及性(SA),LogP衡量化合物的亲脂性;SA衡量化合物合成的难易程度。药理学性质包括生物活性和选择性等。常见的生物活性有靶点亲和力(药物 - 靶点对之间相互作用的强度)、靶点抑制性(抑制靶点的功能活性)。选择性是指药物与受体结合的选择性,只针对特定靶点产生相互作用。药代动力学性质(ADME),由吸收(A)、分布(D)、代谢 (M)和排泄(E)四个属性共同组成,反映药物进入机体后机体对药物的处置过程。药物的毒性不仅取决于其自身的化学结构,还取决于它对目标蛋白质的直接作用。目前公开的毒性数据集Tox21中有12种毒性指标。

此外,先导优化关注的属性还有PlogP(penalized logP)和类药性(QED)等。PLogP是一种复合指标,由理化性质LogP和SA组成,衡量化合物的亲脂性和分子合成的难易程度;QED衡量一个分子是潜在药物候选者的可能性。在药物发现中,有充分的证据表明,QED高的化合物,其成为药物的可能性也更高。

如图3所示,先导化合物的优化是一个多维度的优化问题,需要综合考量以上各种属性,获得在多种属性间最为均衡的候选药物,因此如何平衡各种属性是先导优化需要着重考虑的问题。现有的先导优化模型通常只针对一个属性进行优化,对于多属性优化的研究较少,且大多只针对2~3个属性。分子映射方法需要优化前后的匹配分子对,现实中很难搜寻到同时满足多种属性优化的匹配分子对数据集,因此难以实现多属性优化。分布匹配学习方法只需要优化后的分子集合,可以用来实现多属性优化。分子局部搜索方法,由于缺乏目标分子的明确指导,通常效率较低,难以搜寻到满足多种属性约束的优化分子,因此多用于单属性优化。

4 优化模型评估方法

模型评估是先导优化任务的一项重要工作。基于训练分子集S,在建立先导优化模型后,使用模型对测试分子集M进行优化,得到优化后的有效(即满足基本化学规则)分子集M'。针对优化前后的分子集M和M',常采用如下指标评估优化模型的性能。

相似性指标(Similarity),度量优化前后分子集M和M' 间的平均相似程度,通过对每一对优化前后的分子对(m,m' ),m M,m' M' 计算谷本(Tanimoto)相似性得到,计算公式如下:

其中fm与fm' 分别表示分子m和 m' 的摩根指纹(Morgan fingerprints)。多样性指标 (diversity),度量优化前后分子集M和M' 间的平均差异,通过对每一对优化前后的分子对 (m,m' ),m M,m' M' 计算谷本距离得到,计算公式如下:

新颖性指标 (novelty),度量优化后的分子集M'中新分子的比率,通过统计从未出现在训练分子集S中的优化后分子的个数得到,计算公式如下:

属性指标 (property),度量优化后的分子集M'的平均属性得分,通过计算每一个优化后的分子m'的属性得分得到,计算公式如下:

其中Oracle(∙)为计算分子属性得分的函数。

平均属性改进指标(improvement),度量优化前后分子集M和M' 的平均属性得分差距,通过对每一对优化前后的分子对(m,m' ),m M,m' M' 计算属性得分差得到,计算公式如下:

成功率指标(success),度量优化后的分子集M'中同时满足相似性指标阈值δs和优化属性指标阈值δr的新颖分子比率,计算公式如下:

5 总结与展望

近几年人工智能药物发现成为一个新的热点,如表1所示,国内外许多企业和研究所纷纷进军该领域,开发人工智能药物发现平台来加快药物研发的进程,已有多个进入临床前研究或临床实验的候选药物。例如,2020年英国制药企业Exscientia 与日本药企Sumitomo Daini-ppon借助人工智能技术将治疗强迫症的药物DSP-1181的先导优化过程缩短至一年,并成功进入第一阶段临床,这是全球首次基于人工智能研发的药物进入临床试验。2021年医图生科研发的AceMap智能药物研发平台,完成了首例完全由人工智能方法驱动的对重组门冬酰胺酶的药物优化,并成功将该药物推进到临床前研究阶段。同年,华为联合西安交通大学第一附属医院,基于盘古药物分子大模型——Pangu Drug研发出全新的广谱抗菌药物,将先导药物的研发周期缩短至1个月,大幅提升了新药研发的效率。

尽管人工智能在先导优化方面展现出巨大的潜力,但仍存在较多有待完善的方面。

(1)人工智能先导优化模型缺乏足够的可解释性,这也是人工智能领域中的一个经典问题。先导优化模型无法对优化出的候选药物分子做出合理解释,模型学到的优化知识与经验难以被药物化学家理解,因此面对后期巨大的研发成本,制药公司很难信任模型选出的候选药物分子并为其投资。

(2)人工智能先导药物的优化是一个多维度的优化问题。目前大多数先导优化模型通常只能优化单个属性,优化多个属性时通常不能达到理想效果。部分学者研究了多属性的分子优化方法,但只针对2~3个属性,显然现有的研究方法不足以解决此类多维度的优化问题。

(3)人工智能先导优化模型泛化性差,对数据的依赖性高。因此,其只能在已知的训练数据框架内进行优化,当优化训练集以外的分子结构时,很难起到实质性效果。

随着可解释性人工智能模型的不断完善,研究者有望从可解释性的角度在模型内部去探索结构 -属性的对应关系,从而使大众相信人工智能模型的预测结果。对于多维度优化问题,可通过探索更多的优化策略对药物空间进行全局属性搜索,从而找到多种属性的平衡点。目前已经有较多学者在探讨此类分布外泛化问题,相信在不久后能建立出基于因果推断的先导优化模型,摆脱对数据的依赖性。

(参考文献略)

选自《中国人工智能学会通讯》

2022年第12卷第11期

人工智能与生命科学专题

↓↓↓ 欢迎加入学会大家庭,获取更多会员专属福利

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国宣布:F-15E被击落,已有1名飞行员被成功救出,还有1人下落不明,特朗普已听取报告!伊朗:正全力搜寻美军飞行员

美国宣布:F-15E被击落,已有1名飞行员被成功救出,还有1人下落不明,特朗普已听取报告!伊朗:正全力搜寻美军飞行员

每日经济新闻
2026-04-04 01:48:03
施瓦辛格私生子太争气,首夺健美冠军!女保姆所生,肌肉复制父亲

施瓦辛格私生子太争气,首夺健美冠军!女保姆所生,肌肉复制父亲

头号电影院
2026-04-03 22:24:38
猪肉大局已定:不出意外的话,2026年中国猪肉市场将迎来4大变化

猪肉大局已定:不出意外的话,2026年中国猪肉市场将迎来4大变化

江江食研社
2026-04-03 00:30:07
伊朗正式回复调解方:未来几天里不愿在巴基斯坦与美国官员会面

伊朗正式回复调解方:未来几天里不愿在巴基斯坦与美国官员会面

财联社
2026-04-04 02:04:15
27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
成本20元卖434元,董宇辉帮卖了一千万,假进口保健品如此猖狂谁应被追责

成本20元卖434元,董宇辉帮卖了一千万,假进口保健品如此猖狂谁应被追责

风向观察
2026-04-03 15:23:02
当“张雪神话”撞上现实的耳光,别让意淫毁掉国产崛起

当“张雪神话”撞上现实的耳光,别让意淫毁掉国产崛起

涛哥锐评
2026-04-02 22:20:40
广东女车主眼睁睁看着摇中的“3333”号牌逾期作废 原因是买的吉利星愿公告过期无法上牌

广东女车主眼睁睁看着摇中的“3333”号牌逾期作废 原因是买的吉利星愿公告过期无法上牌

信网
2026-04-03 14:01:04
别只盯着冰箱彩电大沙发,家用SUV的“新五件”时代由日产NX8带来

别只盯着冰箱彩电大沙发,家用SUV的“新五件”时代由日产NX8带来

双簧线
2026-04-03 15:44:48
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
优思益:公司已无力进行相关售后及客诉服务,整体处于崩溃边缘

优思益:公司已无力进行相关售后及客诉服务,整体处于崩溃边缘

界面新闻
2026-04-03 16:32:06
一觉醒来伊朗最大桥梁被炸!特朗普再发通牒,伊朗:打到美以投降

一觉醒来伊朗最大桥梁被炸!特朗普再发通牒,伊朗:打到美以投降

近史博览
2026-04-03 13:53:14
一艘液化天然气船沿阿曼海岸驶出霍尔木兹海峡 为伊朗战争以来首艘

一艘液化天然气船沿阿曼海岸驶出霍尔木兹海峡 为伊朗战争以来首艘

财联社
2026-04-03 16:37:58
苹果新品突然官降:4月3日,暴降3000元!

苹果新品突然官降:4月3日,暴降3000元!

科技堡垒
2026-04-03 09:54:43
8位中央指导组组长公布

8位中央指导组组长公布

新浪财经
2026-04-03 14:36:35
蒯曼2-2换衣服被骂惨,矛头指向COCO,孙颖莎赛陪同师傅 挺恩师

蒯曼2-2换衣服被骂惨,矛头指向COCO,孙颖莎赛陪同师傅 挺恩师

越岭寻踪
2026-04-03 01:27:43
刚刚,直线拉升!美国重大发布!

刚刚,直线拉升!美国重大发布!

证券时报
2026-04-03 23:58:06
东亚正掉入“人口消亡赛”,问题不只是养不起孩子,社会契约已出现裂缝

东亚正掉入“人口消亡赛”,问题不只是养不起孩子,社会契约已出现裂缝

风向观察
2026-04-03 08:45:52
44岁陈冠希香港同框50岁冯德伦,颜值回春引热议,这状态太绝了?

44岁陈冠希香港同框50岁冯德伦,颜值回春引热议,这状态太绝了?

娱乐领航家
2026-04-03 22:00:03
马兴瑞被查

马兴瑞被查

南方都市报
2026-04-03 18:13:26
2026-04-04 03:12:49
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3969文章数 1489关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

特朗普非常生气要大清洗 陆军部长、FBI局长等或被调整

头条要闻

特朗普非常生气要大清洗 陆军部长、FBI局长等或被调整

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

游戏
本地
艺术
时尚
公开课

三十年铁律崩塌!主机涨价疯魔 IGN警告行业"将死"

本地新闻

跟着歌声游安徽,听古村回响

艺术要闻

她的作品藏着绝世美女,看看你能认出几个!

冬奥双金夫妻:爱与荣耀,顶峰相见

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版