![]()
编辑丨coisini
高精度生物分子结构预测对于结构生物学和药物发现至关重要,而构建基础模型最核心的环节之一在于确定模型规模化的技术方案。
折叠模型利用先验知识,在广泛的应用中展现出多功能性,包括结构生成、结合物设计、构象采样等等。已有一些研究工作尝试探索折叠模型的规模化特性,但大多数折叠模型仍遵循 AlphaFold 的基本配置。
最近,来自字节跳动 Seed 的研究团队提出了种子折叠模型 ——SeedFold,该模型成功实现了模型容量的规模化扩展。
![]()
论文地址:https://arxiv.org/abs/2512.24354
SeedFold 通过宽度扩展和大规模数据蒸馏来提升模型容量。该研究还推出了 SeedFold-Linear—— 一种采用线性三角注意力机制的高效变体。两种模型在 FoldBench 基准测试中均取得 SOTA 结果,在多数蛋白质相关任务上超越了 AlphaFold3。
SeedFold
SeedFold 采用 AlphaFold3 的架构,并针对大规模扩展进行了关键改进。SeedFold 的创新主要体现在三个方面:
- 首先,针对 Pairformer 提出有效的宽度扩展策略,以提升其表征能力;
- 其次,引入一种创新的线性三角注意力机制,通过降低计算复杂度实现了高效规模化;
- 最后,构建了大规模蒸馏数据集,显著扩充了训练样本规模。
模型规模化该研究从三个选项(加深 Pairformer 模块深度 [48 层→96 层]、加深 Structure 模块深度 [24 层→48 层]、拓宽 Pairformer 模块宽度 [128 维→256 维→384 维→512 维])中,确定了控制模型规模扩展的关键因素。实验表明,折叠模型中的模块深度已足以支持潜在空间推理,而模型容量主要受限于配对表征的隐藏维度(128 维)。
![]()
![]()
线性三角注意力通过检查 AlphaFold3 的各个组成部分,该研究识别出计算瓶颈 ——Pairformer 中的三角运算。三角运算的计算复杂度随蛋白质序列长度呈三次方增长,消耗大量时间和内存。研究团队因此提出用线性注意力替代基于 softmax 的三角注意力,从而将复杂度从三次方降至二次方。
![]()
大规模数据蒸馏具有高质量和多样性的大规模数据集是深度学习模型成功的关键要素。然而,实验确定的蛋白质结构数量仍然有限。该研究构建了一个源自 AlphaFold2 的大规模数据集,包含 2650 万个样本,相比实验结构数据,训练数据规模扩大了 147 倍。
![]()
实验评估
为了评估 SeedFold 的性能,该研究在 FoldBench 上进行了综合评估,将 SeedFold 与 AlphaFold 3、Boltz-1、Protenix 和 Chai-1 等最新方法进行了比较。
![]()
结果显示,在所有评估指标上,SeedFold 均超越了现有开源模型。值得注意的是,SeedFold 和 SeedFold-Linear 展现出不同的学习特性:尽管两者在单体蛋白质和蛋白质 - 蛋白质复合物任务上都超越了 AlphaFold3,但它们的优势表现具有任务特异性。
![]()
SeedFold 在抗体 - 抗原相互作用预测中表现优于 AlphaFold3,而 SeedFold-Linear 则在蛋白质 - 配体相互作用预测中表现突出。这一发现凸显了结合异构注意力机制对于优化特定应用场景模型性能的重要价值。
![]()
感兴趣的读者可以阅读论文原文,了解更多研究内容。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.