摘要:在生物医药领域,抗体因其精准识别抗原的特性成为治疗和诊断的关键工具。传统抗体研发依赖实验筛选,存在耗时、昂贵且效率低的问题。近年来,人工智能(AI)技术的爆发式发展为抗体设计带来革命性突破,通过深度学习生成式模型等计算方法,实现了抗体序列与结构的精准预测、从头设计及优化。本文系统梳理了 AI 驱动的抗体设计核心技术,包括结构预测、表示学习、序列设计等关键方法,解析了抗原条件下的抗体设计策略,探讨了当前技术瓶颈与未来发展方向,为读者呈现 AI 如何加速抗体药物从实验室到临床的转化进程。
一、抗体与 AI:一场改变生物医药格局的相遇1.1 抗体:人体免疫系统的 “精准导弹”
抗体是免疫系统中由 B 细胞产生的 Y 形糖蛋白,能精准识别并结合外来病原体(如病毒、细菌)表面的抗原,通过中和病原体或激活免疫反应清除入侵者。这种特异性源于抗体可变区的互补决定区(CDRs)—— 重链(VH)和轻链(VL)各含 3 个 CDR(CDRH1-3、CDRL1-3),它们共同构成识别抗原的 “口袋”(表位 - 互补位结合界面,图 1)。
天然抗体的多样性由基因重排和突变产生,但自然进化的随机性限制了其在医疗中的应用。目前,全球已获批 170 多种抗体疗法,但传统研发需经历免疫接种、杂交瘤筛选等步骤,耗时数年且成本高达数十亿美元。
1.2 AI 介入:让抗体设计 “按需定制”
人工智能通过数据驱动的计算模型,打破了传统方法的局限。例如,生成式 AI可直接设计出能结合特定抗原的全新抗体序列;深度学习模型能预测抗体的 3D 结构,避免耗时的实验解析;强化学习则可优化抗体的亲和力和稳定性。这些技术将研发周期从数年缩短至数月,大幅降低成本,为抗病毒、抗癌等领域提供新希望。
二、看清抗体的 “真面目”:AI 驱动的结构预测技术2.1 从氨基酸序列到 3D 结构的跨越
抗体的功能依赖其空间结构,精准预测结构是设计的基础。传统结构解析依赖 X 射线晶体学或冷冻电镜,成本高且效率低。2021 年,DeepMind 的AlphaFold2(AF2)横空出世,通过进化信息和注意力机制,将蛋白质结构预测精度提升至接近实验水平(表 1),为抗体结构解析带来曙光。
2.2 抗体专属预测工具:突破 CDR 区域的 “灵活性难题”
抗体的CDR 环(尤其是 CDRH3)因高度可变且缺乏进化信息,成为结构预测的难点。为此,研究者开发了抗体专属模型:
IgFold:结合抗体语言模型(AntiBERTy)和图神经网络,预测精度超越通用模型;
RF2 Antibody:通过微调 RoseTTAFold2,专注抗体结构预测,对 CDR 区域的建模更精准;
ABodyBuilder3:融合语言模型嵌入和结构优化,支持快速生成高可信度抗体结构。
这些工具不仅能预测游离抗体结构,还能模拟抗原-抗体复合物(如 AlphaFold3、RF2 Antibody),为后续设计提供关键信息(图 2a)。
表 1 主流 AI 蛋白/抗体结构预测方法
2.3 数据瓶颈与解决之道
目前,实验解析的抗体结构仅约 10 万条(来自 SAbDab 数据库),远不能满足模型训练需求。研究者通过数据增强突破限制:
利用AlphaFold2预测大量未解析的抗体结构,扩充训练集;
生成人工抗原 - 抗体复合物(如 Absolut! 方法),模拟真实结合场景;
从 Protein Data Bank(PDB)中提取类似 CDR 的环结构,补充局部特征。
三、读懂抗体的 “语言”:表示学习与序列设计3.1 抗体的 “语义编码”:从序列到向量
如同自然语言通过词向量表示语义,抗体的氨基酸序列也可转化为低维向量(潜在空间),捕捉序列的进化规律和结构特征。这类表示学习方法主要分为:
序列驱动:如 AntiBERTy、IgLM,基于 Transformer 架构,从海量抗体序列(如 OAS 数据库)中学习模式;
结构驱动:如 GearNet、ESM3,结合 3D 结构信息,编码原子间相互作用;
多模态:如 proseLM,融合序列和结构数据,提升下游任务(如亲和力预测)性能。
这些模型不仅能 “理解” 抗体的语言,还能通过生成式建模创造新序列(图 2b)。
3.2 设计 “完美” 抗体序列:从结构反推氨基酸
给定抗体的 3D 结构,如何设计出能折叠成该结构的氨基酸序列?序列设计方法解决这一问题:
ProteinMPNN:通过图神经网络,根据 backbone 结构预测最优氨基酸,支持多链设计;
IgMPNN:专为抗体优化,聚焦 CDR 区域,结合抗原信息提升特异性;
diffusion 模型(如 DiffAb):通过逐步去噪生成序列,兼顾多样性和合理性。
实验证明,这些方法设计的序列可在实验室表达,部分甚至能增强抗体与抗原的结合能力(如 proseLM 设计的突变体亲和力提升 25%)。
四、AI 设计抗体的 “两种模式”:从无到有 vs 精准靶向4.1 无特定抗原:生成 “通用” 抗体
无条件抗体设计不依赖抗原信息,旨在生成符合自然规律的抗体序列或结构,用于构建候选库。例如:
IgLM:通过条件生成,指定物种(如人类)和链型(重链 / 轻链),生成类天然序列;
AbDiffuser:基于扩散模型,生成完整抗体的序列和结构,部分设计在实验中表现出高表达量;
BetterBodies:结合变分自编码器(VAE)和强化学习,优化 CDRH3 序列的亲和力。
这类方法适用于初期筛选,但难以保证对特定抗原的靶向性。
4.2 靶向特定抗原:AI 的 “精准狙击”
抗原条件抗体设计是当前研究热点,需将抗原信息(序列或结构)输入模型,直接生成能结合该抗原的抗体(图 2e)。主流方法分为:
GNN-based:如 MEAN、HERN,将抗原 - 抗体复合物建模为图,通过消息传递学习相互作用;
diffusion-based:如 DiffAb、RFdiffusion Antibody,通过扩散过程生成抗体的 CDR 区域,确保与抗原表位匹配;
多阶段设计:如 MaskedDesign,先预测抗原 - 抗体复合物结构,再用 IgMPNN 设计序列。
图 3 抗原条件抗体设计流程
a图:GNN 方法将抗原和抗体建模为图,通过节点间信息传递设计 CDR;
b图:diffusion 方法通过逐步去噪,从随机序列/结构生成与抗原结合的抗体。
2025 年,RFdiffusion Antibody 的研究证实,AI 设计的单域抗体(VHH)和单链抗体(scFv)能在原子水平精准结合抗原表位,部分候选在实验中表现出纳摩尔级亲和力。
五、挑战与未来:AI 离临床还有多远?5.1 当前技术瓶颈
尽管进展显著,AI 抗体设计仍面临诸多挑战:
数据局限:抗原 - 抗体复合物结构不足 1 万条,且缺乏 “阴性数据”(不结合的案例);
多目标优化:抗体需同时满足高亲和力、低免疫原性、高稳定性等,现有模型难以兼顾;
实验验证成本:AI 可生成海量候选,但高通量实验筛选能力有限,制约迭代速度。
5.2 突破方向
数据增强与合成:利用 AI 生成更多高质量虚拟复合物,补充真实数据;
多目标学习:结合强化学习和贝叶斯优化,平衡亲和力与成药性;
实验室闭环(Lab-in-the-loop):将实验结果实时反馈给 AI 模型,加速迭代(如 Frey 等人的框架,将筛选效率提升 3 倍)。
5.3 临床转化前景
目前,AI 设计的抗体尚未进入临床,但多个候选已完成体外验证。例如,针对 SARS-CoV-2 的 AI 抗体在动物实验中展现出强效中和能力;抗癌抗体的研发周期从传统 5 年缩短至 18 个月。未来 5-10 年,有望出现首个 AI 设计的获批抗体药物。
六、结语
AI 正以 “计算显微镜” 的角色,揭开抗体与抗原相互作用的奥秘,从结构预测到从头设计,逐步颠覆传统研发范式。尽管从实验室到临床仍需跨越数据、优化、验证等多重关卡,但随着技术的迭代,AI 设计的抗体必将在抗病毒、抗肿瘤等领域绽放光彩,为精准医疗带来全新可能。
识别微信二维码,添加抗体圈小编,符合条件者即可加入抗体圈微信群!
请注明:姓名+研究方向!
本公众号所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(cbplib@163.com),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.