蛋白质设计,迎来新里程碑!
就在刚刚,诺奖得主、蛋白质设计先驱David Baker团队发布了原子级的蛋白质扩散模型RFdiffusion3(RFD3)。
作为一种蛋白质扩散模型,RFdiffusion3能在包含配体、核酸以及其他非蛋白质原子集合的背景下生成蛋白质结构,是首个真正意义上的全原子扩散模型。
与过去的RFdiffusion1、2相比,RFdiffusion3在模拟蛋白质-蛋白质结合、蛋白质-DNA结合、蛋白质-小分子结合以及酶设计四大任务中表现惊艳。
更令人瞩目的是,RFD3在架构上大幅优化,参数量仅1.68亿,推理速度比前代方法快10倍以上,计算成本降低90%,为大规模应用扫清了障碍。
团队称,RFD3为科学家提供了一个通用平台,可针对几乎任何目标分子设计结合蛋白,为任意化学反应打造高效催化剂,甚至构建复杂的蛋白质组装体。
这意味着,RFD3可广泛应用于抗体药物开发、新型催化酶、基因编辑工具设计、合成生物学等领域,而且更快更准确!
AI,正在全面释放生物学潜力。
从氨基酸到原子级,多重升级
第一代蛋白质设计工具(例如RFdiffusion与BindCraft)是以氨基酸为基本单元来运行的,使用前必须明确催化残基的位置和骨架形态。
2025年4月,该团队升级发布的RFdiffusion2模型迈出了从氨基酸到原子的第一步,该模型能够直接从原子级别的反应机制出发,设计出具有催化活性的酶,但在蛋白质的骨架结构之外的氨基酸侧链中依然无计可施。
这种性能对于设计蛋白质单体或简单的蛋白质相互作用而言足够,但当应用到实际的药物设计中,例如去设计一款能与小分子药物等非蛋白质实体进行精确相互作用的功能蛋白时,就显得力不从心。
而RFdiffusion3相当于2的再次升级版本,最大突破在于升级了处理原子级别信息的方式,实现了“全原子化”。
RFdiffusion2在氨基酸侧链中受挫的原因在于,所指定的“末端”原子实际上是一种全新的数据类型,因为其他所有组件仍以残基形式存在;而在RFdiffusion3中,这些末端原子与其他所有标记完全相同。
RFdiffusion3让蛋白质模型在复杂功能设计中所能实现的控制达到了前所未有的高度,可针对几乎任何目标分子设计结合蛋白,为任意化学反应打造高效催化剂,甚至构建复杂的蛋白质组装体。
例如只需提供底物/过渡态原子子集及其周围侧链原子的坐标,即可精准定义酶活性位点。
新一代创新架构,实现高精度低成本
RFdiffusion3(RFD3)采用了一种高效且专为全原子蛋白质设计优化的神经网络架构。其核心是基于U-Net的框架,结合稀疏Transformer模块,构建了一个轻量化的扩散模型。
该模型的创新始于全原子表示法:每个氨基酸被统一表示为14个原子(4个主链原子和最多10个侧链原子)。对于侧链较小的氨基酸(如甘氨酸),缺失的原子以“虚拟原子”形式放置在Cβ位置。这种统一表示法使得模型能够在纯原子级别进行操作,为精确设计侧链相互作用奠定了基础。
信息处理流程:多层级特征融合
模型的信息处理分为三个主要阶段:
降采样模块:编码包含噪声的原子坐标和残基级别的特征。
稀疏Transformer模块:处理令牌化信息,通过稀疏注意力机制(仅允许空间上邻近的原子/残基相互关注)来提升计算效率并防止过拟合。
上采样模块:将精细的原子特征与粗粒度的令牌特征融合,最终预测去噪后的原子坐标更新。
架构优化:大幅提升计算效率
为了显著降低计算成本,RFD3进行了关键性简化:
移除了AlphaFold3中计算密集的48层Pairformer模块。
去除了高耗时的三角乘法和三角注意力更新机制。
最终,RFD3的参数量仅为1.68亿,远小于AlphaFold3(约3.5亿)。这一优化使其推理速度比前代方法RFdiffusion2快了约10倍,极大地提升了实用性。
分层训练策略:提升泛化能力
RFD3的训练采用分阶段、多数据源的微调策略,以增强模型在多样化任务上的表现。
第一阶段(预训练):在包含截至2024年12月的所有PDB复合物结构(涵盖蛋白质-蛋白质、蛋白质-小分子、蛋白质-DNA)以及高质量AlphaFold2预测结构的混合数据集上进行训练,学习通用的蛋白质结构规律。
第二阶段(微调):在另一个富含DNA结合和蛋白质-蛋白质相互作用样本的数据集上进行微调,以增强模型在特定任务上的性能。
这种分层训练不仅扩大了数据多样性,还有效防止了过拟合,使RFD3能够泛化到酶设计、小分子结合和核酸识别等复杂场景,成为一个强大且通用的蛋白质设计平台。
效率较前代提升10倍,四大任务全面突破!
得益于稀疏注意力机制和精简的网络架构,RFD3在计算效率上远超以往的扩散模型,在典型蛋白长度范围内,速度比RFdiffusion2提升了约10倍。
作为下一代蛋白质设计引擎,RFD3展现出应用于抗体药物开发、新型酶、基因编辑工具设计、合成生物学等领域的广泛潜力。
在蛋白质-蛋白质相互作用设计方面,RFdiffusion3针对PD-L1、胰岛素受体、IL-7Rα、Tie2和IL-2Rα五个治疗相关靶点进行了系统性设计。
结果显示其成功生成的结合蛋白数量和结构多样性均显著优于前代方法RFdiffusion1,尤其在PD-L1靶点上发现了多个独立且新颖的结合模式。
在蛋白-DNA相互作用设计中,RFdiffusion3实现了蛋白质与DNA的协同扩散,无需预先固定DNA构象即可生成特异性结合结构。
在三条不同DNA序列上的测试中,单体设计平均成功率达8.67%(DNA对齐RMSD < 5Å)。实验验证表明,其中一个设计DBRFD3成功表达并具备功能活性,证明RFD3能够从头生成具有微摩尔级亲和力的DNA结合蛋白。
在蛋白质-小分子结合任务中,RFdiffusion3支持配体与蛋白的共折叠,并可施加氢键、溶剂可及性等原子级约束,显著提升了结合口袋的合理性和互补性。
在针对四个小分子的设计中,RFD3的成功率全面超越RFdiffusionAA。初步实验显示多个候选蛋白可成功表达,表面等离子共振(SPR)测试已检测到部分设计具有微摩尔级别的结合信号。
在酶设计方面,RFdiffusion3在包含41个真实酶活性位点的AME基准测试中,在37个案例中优于RFdiffusion2,尤其在处理多“残基岛”复杂位点时优势明显。
实验筛选190个设计后,发现35个具有多轮催化活性,其中最优的半胱氨酸水解酶催化效率超过此前同类从头设计的最高水平。
X射线晶体结构解析进一步证实,设计蛋白的活性位点构象与计算模型高度一致,关键催化残基排布精确,配体电子密度清晰,验证了RFD3在高精度功能蛋白设计上的强大能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.