撰文丨王聪
编辑丨王多鱼
排版丨水成文
2020 年 11 月,DeepMind 推出了AlphaFold2,掀起了蛋白质结构预测领域革命,它几乎解决了困扰生物学界 50 年的“蛋白质折叠问题”,实现了对蛋白质 3D 结构的快速、精准预测,并于 2024 年获得了诺贝尔奖的认可。
然而,它仍有一个关键限制:AlphaFold2 需要大量的同源序列信息作为输入,这导致计算成本居高不下。
而现在,来自中国研究团队的一项最新研究成果有望改变这一局面,该研究提出了一个名为TDFold的新方法,能够从单序列实现蛋白质结构的高精度预测,速度比现有方法快 10-100 倍,GPU 占用降低近一半。
2026 年 4 月 1 日,北京师范大学人工智能学院崔振教授团队在 Nature 子刊Nature Machine Intelligence上发表了题为:Two-dimensional geometric template diffusion for boosting single-sequence protein structure prediction 的研究论文。
该研究提出了一种名为TDFold的二维几何模板扩散方法,用于生成高质量的成对几何特征(包括成对距离和方向),这些特征被用于实现精准高效的三维蛋白质结构预测。给定一个蛋白质序列,TDFold 通过包含两个阶段的网络架构推断其 3D 结构:二维几何模板生成和序列-几何协同学习。与现有蛋白质语言模型(例如 ESMFold、OmegaFold)及基于同源性的方法(例如 AlphaFold2、AlphaFold3 和 RoseTTAFold)相比,TDFold 具备三大优势:更优的单序列预测性能、更低的资源消耗以及更高的推理效率。
研究团队在同源性不足的数据集(例如 Orphan 和 Orphan25)和主流的 CASP 基准测试中验证了TDFold的预测有效性,为单序列蛋白质结构预测提供了创新解决方案。该方案同时加速了蛋白质相关研究进程,尤其为资源有限的高校和科研机构提供了重要工具。
![]()
从单序列进行蛋白质结构预测是指仅使用蛋白质的氨基酸序列来预测其三维空间结构,而不依赖进化相关的多序列比对(MSA)信息。由于获取同源信息的高计算成本,基于单序列的蛋白质结构预测,日益受到关注。
传统方法的“软肋”:同源序列依赖
要理解这项突破的意义,先得了解传统方法的局限。
现有的顶级蛋白质结构预测模型主要分两类——
同源信息依赖型:例如 AlphaFold2、AlphaFold3、RoseTTAFold,需要搜索大量同源序列和 3D 结构模板;
蛋白质语言模型型:例如 ESMFold、OmegaFold,仅使用氨基酸序列文本信息。
前者虽然精度高,但计算成本巨大——预测一个 500 个氨基酸组成的蛋白质,AlphaFold2 需要近1000 秒时间,占用 12GB GPU。更关键的是,对于“孤儿蛋白”(缺乏同源序列的蛋白质)或快速进化的病毒蛋白,这类方法的性能会大幅下降。
后者虽然摆脱了对同源序列的依赖,但模型庞大复杂,推理速度慢、资源消耗高,ESMFold 预测同样蛋白质需要约100 秒时间,占用 20GB GPU。
核心创新:像“文生图”一样“序列生几何”
TDFold的巧妙之处在于,它借鉴了当前火热的扩散模型技术,但应用方式独具匠心。
简单来说,TDFold 的工作流程分为两步——
1、二维几何模板生成:将蛋白质序列作为“文本提示”,通过改进的扩散模型生成氨基酸残基间的距离和方向矩阵。这就像用 Stable Diffusion 根据文字描述生成图片一样,TDFold 根据氨基酸序列“生成”蛋白质的几何蓝图。
2、序列-几何协同学习:使用轻量级图神经网络,同时学习氨基酸残基级和原子级特征,最终预测出完整的三维原子坐标。
研究团队采用了 LoRA 微调技术,只训练少量参数,就使 Stable Diffusion 模型适应了蛋白质几何生成任务,大大降低了训练成本。
![]()
TDFold 的架构和二维几何模板扩散过程
性能表现:全面超越现有方法
实验结果显示,TDFold 在多个基准测试中表现优异:
在孤儿蛋白数据集上:
Orphan 数据集:TM-score 达到 0.46,优于 ESMFold 的 0.42,以及 AlphaFold2(全模式)的 0.37;
Orphan25 数据集:TM-score 达到 0.61,明显高于 ESMFold 的 0.54。
在 CASP 标准测试集上:
与 ESMFold 相比,在 CASP14、CASP15、CASP16 上分别获得 0.02、0.01、0.02 的 TM-score 提升;
与 OmegaFold 相比,在 CASP15 和 CASP16 上分别获得 0.07 和 0.08 的显著提升。
更惊人的是效率优势:
推理速度:预测 500 个氨基酸残基的蛋白质仅需约 10 秒时间,而 ESMFold 需要 100 秒,AlphaFold3 需要 240 秒,AlphaFold2 和 RoseTTAFold 则需要近 1000秒;
内存消耗:仅需约 7GB GPU,而 AlphaFold2 需要 12GB,RoseTTAFold 需要 16GB,ESMFold 需要 20GB(AlphaFold3 的训练权重未开源,无法获知其所需 GPU);
训练成本:使用单张英伟达 4090 GPU,一周内即可完成训练。
实际意义:降低门槛,加速研究
这项研究的最大价值在于,大幅降低了蛋白质结构预测的门槛。
对于资源有限的研究机构、大学实验室,现在可以使用消费级 GPU 在短时间内完成高质量的蛋白质结构预测,而不再需要昂贵的计算集群。
在生物医学研究中,这意味着:
快速解析新发现蛋白质的结构,加速药物靶点识别;
实时跟踪病毒蛋白的变异,为疫苗设计提供支持;
大规模扫描蛋白质数据库,发现新的功能模块。
TDFold 的推出,证明了跨领域技术融合的威力——将计算机视觉中的扩散模型创新性地应用于结构生物学问题。
随着技术的进一步优化,我们或许很快就能看到:
在线蛋白质结构预测服务响应时间从分钟级降至秒级;
个人电脑也能运行高精度结构预测工具;
实时、动态的蛋白质折叠过程模拟成为可能。
这项研究不仅推动了 AI 在科学发现中的应用,更重要的是,它让更多研究者能够平等地获取强大的科研工具——这或许就是技术民主化的真正意义。
论文链接:
https://www.nature.com/articles/s42256-026-01210-2
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.