深度盘点 | 2022年度AI在抗体药物发现领域大事件|蛋白|抗原|表位|特异性|免疫

分享至

刚刚过去的2022年无疑是AI技术屡获突破的一年，特别是在生命科学领域，AI又一次展示了其所具备的革命性突破潜力。3月份，David Baker课题组宣布仅仅基于靶点蛋白的结构信息即可设计具有高亲和力的迷你蛋白[1]；9月份，基于深度学习的蛋白序列设计方法ProteinMPNN证明能更加快速、精准地拯救De novo设计的AI蛋白质，达到最初的功能设计目的[2]；11月份，Meta公司的人工智能模型ESMFold宣布在2周内预测了六亿多个蛋白质结构，且速度超过AlphaFold2一个数量级[3]。众所周知，抗体是蛋白质的一员，AI在蛋白质预测方面的不断突破促使人们期待其在抗体药物设计领域大显身手。

回顾2022年，AI在抗体药物发现领域有哪些值得盘点的大事件？它又将如何影响2023年抗体药物行业的发展？本期Dr.X栏目特别邀请了晶泰科技抗体药物部的研发科学家龙云飞博士，与大家聊一聊在他心目中2022年度最值得抗体药物研发行业关注的人工智能突破性成果。

首款由计算机设计的IL-2抗体药物

AU-007启动临床试验

2022年4月5日，美国生物技术公司Biolojic Design宣布其AU-007启动临床研究[4]。AU-007是一款IL-2抗体，据Biolojic Design称是首款进入临床试验的完全来自计算机设计的创新抗体药。该款抗体药已经被转移给Aulos Bioscience，正在澳大利亚招募患者进行临床试验。Biolojic Design公司的人工智能平台通过计算模拟抗体在人体免疫系统的进化过程，设计得到能够与特定抗原表位结合的治疗性抗体。

Biolojic首先基于已知的IL-2三聚体受体复合物结构信息，采用机器学习算法在抗原-抗体复合物数据库中筛选得到合理的模板抗体。该模板抗体尽管无法与IL-2结合，但是机器学习算法预测其与IL-2表面结构互补，提示该模板抗体具备进一步研发的潜力。接着，Biolojic使用一个机器学习模型推荐关键残基位点，并使用聚焦文库训练了一个点突变预测模型来得到一个三突变构成的推荐突变组合。最后，Biolojic使用多个机器学习模型进行人源改造和对稳定性与产量进行筛选。

图1 运用AI算法模拟自然抗体筛选过程设计AU-007治疗性抗体示意图[4]

●专家推荐理由：

传统抗体发现的方法（比如杂交瘤和噬菌体展示）通常可以针对特定抗原找到较高亲和力的抗体，但要找到针对此抗原上特定表位的抗体是比较困难的。事实上，找到针对特定表位的功能性抗体是药物发现中的常见需求。基于理性假设的计算抗体设计尝试满足上述需求。Biolojic Design将机器学习AI、传统抗体发现方法进行了有机结合，实现了令人印象深刻的优异效果。Biolojic Design的计算设计解决方案包括抗体模板构建、聚焦文库、人源化、稳定性预测、产量预测等模块。实际上，上述解决方案中的每一个模块都可以被深度学习AI方法颠覆式改进，实现“下一代抗体发现平台”的打造，更好更快地找到治疗性抗体。

抗体预训练模型AbLang精准刻画抗体序列特征

Observed Antibody Space(OAS) database是2018年公开的经过标注的免疫组库数据集，其中包含来自80多个研究的数十亿条抗体序列信息。然而，由于测序技术的局限性或者是测序中存在的错误，OAS的抗体序列信息完整度并不高，约80%的抗体序列的N端至少缺失一位残基信息，约43%的抗体序列缺失了前15个残基位点信息。大量缺失的序列信息将极大程度上影响抗体数据库的准确性。

来自牛津大学的Charlotte M. Deane团队基于OAS数据训练得到了一款语言模型AbLang，能够用于恢复抗体序列中的缺失残基信息[5]。在训练完成后，如下图所示，首先将带有未知残基信息的抗体序列信息输入AbLang模型，其中的未知残基用*号表示；接着，AbLang将通过预测*号位置处每个氨基酸出现的可能性，从中选出可能性最高的氨基酸残基作为预测结果。结果显示，Ablang对缺失残基的预测精度均高于基于ImMunoGeneTics (IMGT)的算法和通用蛋白质语言模型ESM-1b算法。

图2 AbLang模型恢复缺失残基信息的原理示意图[5]

●专家推荐理由：

抗体来源于包括基因重排、体细胞突变等免疫系统内部的进化。针对缺失残基的抗体序列，目前的方法是通过IMGT含有的胚系信息进行残基预测，需要耗费大量时间并且结果准确性不高。Ablang模型最大的优势在于不需要提前了解抗体序列的胚系信息，即可对残基信息进行准确预测，并且预测精度高于基于IMGT的方法和基于ESM-1b模型的方法。此外，Ablang还能有效提取抗体序列的不同特征表示，用于下游的监督学习任务（比如可开发性预测）、抗体结构预测和De novo抗体设计，助力抗体药物发现。

AI模型IgFold基于序列快速预测抗体结构

抗原与抗体的特异性识别主要依赖于抗体CDR区域，该区域结构的精准预测将有利于了解抗原抗体结合模式，从而实现对特异性抗体的理性设计。前人针对抗体结构预测的AI算法包括DeepAb和ABlooper，虽然二者均能够实现对CDR区的结构预测，但仍然存在应用局限性（包括计算速度慢耗时长、预测精度低、适用范围小等）。

IgFold是由约翰霍普金斯大学Jeffrey. J. Gray课题组训练得到的一种直接由抗体序列快速预测抗体结构的AI模型[6]。该模型充分利用AntiBERTy（一个用558M量级的自然抗体序列进行预训练获得的语言模型）学习自然抗体的序列与结构特征，可直接通过预测各原子的三维坐标位置以确定抗体结构。IgFold的另一个亮点是允许使用模板信息进行条件生成，例如使用non-H3残基作为模板进行抗体结构预测，可以有效提升预测结果的准确性。与此同时，IgFold还能额外提供误差评估工具，以此来评估所得抗体结构的准确性，通过设置合理的置信度阈值，能够有效地帮助药物研发科学家挑选可靠性高的数据用于进一步研究。比对数据显示，IgFold与AlphaFold的预测准确性相当，相较于DeepAb和ABlooper计算速度更快、通量更高、适用范围更广。

图3：从抗体序列直接预测抗体结构的AI模型示意图[6]

●专家推荐理由：

目前AI在抗体药物发现中面临的瓶颈之一是目前能够用于抗体药物发现与设计的抗体结构数据非常少。基于结构的特征往往比基于序列的特征更有可能解决实际问题。所以抗体结构预测算法是很有必要进行研发的。类似AlphaFold2的蛋白质结构预测的方法通过MSA来挖掘序列的共进化信息，进而通过图网络和注意力机制实现精准的结构预测。然而由于抗体数据天然缺乏共进化信息，通过MSA得到有效的序列表征存在困难。

IgFold模型使用AntiBERTy预训练语言模型替代Alphafold2中的MSA过程，在解决上述困难上具有一定效果。同时语言模型的推理速度要远高于传统的MSA计算，使得IgFold在预测抗体结构的速度上有巨大优势(原作者使用IgFold构建预测数据集，将已知的抗体结构空间扩大了40倍)，有助于高通量的AI抗体研发流程的搭建。

深度学习模型DML主动式提前预测

高频突变靶点对应的抗体逃逸

疾病的传染是病原体与宿主细胞发生相互作用的过程。若是病原体产生突变，且宿主来不及产生对应的免疫抗体，那么疾病就可能发生爆发性流行，比如目前正大规模流行的新冠病毒、流感病毒等。若是病原体容易产生高频突变，那么其流行时间、危害性就更加不可预测，可能造成难以估计的损失。

来自苏黎世联邦理工学院的Sai T. Reddy课题组以SARS-CoV-2病原体作为研究对象，提出了一种基于机器学习的蛋白质工程技术（深度突变学习模型DML），并于2022年8月发表在Cell期刊[7]。首先设计ACE2蛋白的受体结合域（RBD）组合突变文库，再结合酵母展示技术、深度测序和机器学习技术，训练获得具有良好性能的机器学习模型用于预测突变的RBD是否能与ACE2结合以及逃逸现有的中和抗体。此机器学习模型对突变RBD与ACE2结合的预测准确率为91.67%，非结合预测准确率为100%，总体预测准确率达93.48%。这表明机器学习能够帮助研发人员用相对较低的成本，在较短的时间内实现对数十亿级规模的广阔序列空间的探索，完成经典的抗体发现实验无法短时间内解决的问题，可用于提前预测和指导未来治疗性抗体和疫苗的开发。

●专家推荐理由：

基于靶点的药物发现是目前药物研发的重要途径之一。这种方法希望靶点最好是不发生变化的。如果靶点蛋白发生变异、高度变异甚至快速高度变异，那么对应的药物研发难度是指数级提升的。由于新冠病毒的快速高度变异导致一些已有的抗体药物对新冠病毒失效，我们非常遗憾地看到不少已经获批的新冠抗体药物被美国FDA撤销临床授权或修改剂量，同时我们也非常担心目前有效的新冠药物无法应对下一轮重大变异。如果我们是根据已经出现的变异病毒去研发对应的抗体药物，那么研发速度可能是赶不上病毒变异速度的，这是被动式药物研发的弊端。那么我们是否有可能变被动为主动、在病毒还没实际变异前就快速预知潜在的重大变异从而提前研发药物呢？这篇DML工作就提供了一个具有可行性的PoC方案，是一个展示AI变革抗体药物研发的绝佳示例。

小结

2022年，AI在抗体药物发现领域一路高歌猛进。从抗体序列预训练模型AbLang，到抗体结构预测模型IgFold，到主动式高变异靶点的抗体逃逸预测模型DML，再到首款依靠计算设计的IL-2抗体进入临床试验，我们可以看到AI技术的成功落地是通过一系列解决子问题的AI模型与传统抗体发现和抗体工程的湿实验方法有机融合而达成的。晶泰科技相信AI在抗体药物发现领域的应用是必然趋势，只有充分理解并掌握经典抗体发现技术、传统计算设计技术、最先进AI技术，互相取长补短，并结合高通量实验设备才能够突破抗体药物发现中的现有瓶颈，加速AI在抗体药物研发领域的真正落地。2023年，晶泰科技“AI驱动的下一代抗体发现平台”会为行业带来什么样的技术突破？让我们共同期待！

参考资料：

[1] Cao L, Coventry B, Goreshnik I, et al. Design of protein-binding proteins from the target structure alone[J]. Nature, 2022, 605(7910): 551-560.

[2] Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning–based protein sequence design using ProteinMPNN[J]. Science, 2022, 378(6615): 49-56.

[3] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic level protein structure with a language model[J]. bioRxiv, 2022.

[4] www.biolojic.com（Biolojic Design, AU-007）

[5] Olsen T H, Moal I H, Deane C M. AbLang: An antibody language model for completing antibody sequences[J]. bioRxiv, 2022.

[6] Ruffolo J A, Gray J J. Fast, accurate antibody structure prediction from deep learning on massive set of natural antibodies[J]. Biophysical Journal, 2022, 121(3): 155a-156a.

[7] Taft J M, Weber C R, Gao B, et al. Deep mutational learning predicts ACE2 binding and antibody escape to combinatorial mutations in the SARS-CoV-2 receptor-binding domain[J]. Cell, 2022, 185(21): 4008-4022. e14.

自成一 “π“ ,智启未来

晶泰科技致力于成为全球药物研发智能化和自动化的领导者。

欢迎关注晶泰科技视频号，

探索晶泰科技自动化实验室。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.