网易首页 > 网易号 > 正文 申请入驻

苹果掀桌!扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代

0
分享至


新智元报道

编辑:元宇

【新智元导读】蛋白质折叠是计算生物学的皇冠难题,SimpleFold作为首个仅基于通用Transformer模块的蛋白折叠模型,摒弃了AlphaFold2系列的传统架构,能够直接将蛋白质序列生成完整的三维原子结构,在CAMEO、CASP基准测试上表现强劲。

蛋白质折叠,一直是计算生物学中的一个核心难题,并对药物研发等领域产生着深远影响。

若把蛋白质折叠类比为视觉领域的生成模型,氨基酸序列相当于「提示词」,模型输出则是原子的三维坐标。

受此思维启发,研究人员构建了一个基于标准Transformer模块与自适应层的通用且强大的架构——SimpleFold。


论文地址:https://arxiv.org/abs/2509.18480

SimpleFold和AlphaFold2等经典的蛋白质折叠模型有哪些不同?

AlphaFold2、RoseTTAFold2通过融合复杂且高度专业化的架构,如三角更新、成对表示、多序列比对(MSA)。

这些设计往往是将我们对结构生成机制的已有理解「硬编码」到模型中,而不是让模型自己从数据中学习生成方式。

SimpleFold则提出了一种全新思路:

没有三角更新、成对表示,也不需要MSA,而是完全基于通用Transformer和流匹配(flow-matching),能够直接将蛋白质序列映射为完整的三维原子结构(见图1)。


SimpleFold

首个基于Transformer模块的蛋白折叠模型

流匹配把生成视作一段随时间推进的旅程,用常微分方程(ODE)做轨迹积分,就好像冲洗照片一样,噪声也一点点被「冲洗」成清晰的结构。

SimpleFold在蛋白质折叠上也复现这段旅程:

输入是氨基酸序列这串「提示词」,输出是全原子三维「照片」,很像视觉里的「文生图」或「文生三维」任务。

自AlphaFold2以来,诸如三角更新、单体与对表示交互等组件被广泛应用于蛋白质折叠模型,但这些设计是否必要并未形成定论。

SimpleFold在设计上进行了大胆创新,仅采用通用Transformer模块构建架构(对比见图5)。


SimpleFold架构由三部分组成:轻量原子编码器、重型残基主干、轻量原子解码器(见图2)。


这套「细—粗—细」的层级套路,先看微观、再抓全局、再补细节,在速度与精度之间找到了良好的平衡点。

与以往方法不同,SimpleFold不使用对表示,也不依赖MSA或PLM的注意力初始化。

与依赖等变架构的工作相比,SimpleFold完全基于非等变的Transformer构建。

为应对蛋白质结构中的旋转对称性,研究人员在训练时引入SO(3)数据增强,即随机旋转目标结构,并依赖模型学习该对称性。

实验评估

为了研究SimpleFold框架在蛋白质折叠任务中的扩展能力,研究人员训练了一系列不同规模的SimpleFold模型(包括100M、360M、700M、1.1B、1.6B和3B)。

模型做大不只是加参数,随着模型规模的增加,研究人员在原子编码器、解码器和残基主干网络也进行了全链路升级(详见表5)。


在训练过程中,研究人员借鉴AlphaFold2的策略,同一蛋白在每张GPU上复制Bc份,各自抽不同时间步t,再从Bp个蛋白累积梯度(具体设置见表6)。


实验表明,这种策略相比于直接随机选择蛋白组成一个batch,能带来更稳定的梯度和更优的模型性能。

研究人员在CAMEO22和CASP14这两个广泛使用的蛋白质结构预测基准上评估了SimpleFold的性能。

这两个基准测试在泛化能力、鲁棒性以及原子级准确性方面要求较高。


表1总结了CASP14和CAMEO22上的评估结果。

研究人员根据蛋白序列信息提取方式将模型分为两类:基于MSA检索的方法(如RoseTTAFold、RoseTTAFold2和AlphaFold2)和基于蛋白语言模型(PLM)的方法(如ESMFold和OmegaFold)。

此外,还根据训练目标是否为生成式目标(如扩散、流匹配或自回归)对基线模型做了标注,以区分它们是否直接进行结构回归。

有意思的是,从AlphaFold2、ESMFold微调成流匹配的AlphaFlow、ESMFlow,整体指标反而不如各自原版回归模型。

研究人员认为,这是因为蛋白质折叠基准如CAMEO22和CASP14通常仅提供一个「真实」结构目标,这对于进行确定性逐点预测的回归模型更为有利。

尽管架构简洁,但SimpleFold的性能依然非常出色。

在两个基准测试中,SimpleFold一贯优于同为流匹配方法、基于ESM嵌入构建的ESMFlow。

在CAMEO22上,SimpleFold的表现与目前最先进的模型(如ESMFold、RoseTTAFold2和AlphaFold2)相当。

更为重要的是,不使用三角注意力和MSA,SimpleFold在多数指标也能跑到RF2/AF2性能的95%以上。

在更具挑战性的CASP14中,SimpleFold甚至超越了ESMFold。

SimpleFold跨基准的掉分更小,说明它不靠MSA也能稳健泛化,能够应对更复杂的结构预测任务。

研究人员也报告了不同规模的SimpleFold模型的表现。

即便是最小的SimpleFold-100M,在CAMEO22上也能实现ESMFold性能的90%+以上,进一步说明基于通用结构模块构建蛋白质折叠模型是可行的。

随着模型规模的提升,SimpleFold的性能在各项指标上持续提升,这表明通用可扩展的架构设计在折叠任务中具有显著优势。

尤其是在更具挑战性的CASP14上,模型扩大带来的性能增益更为明显。


图3(a)展示了一个包含pLDDT预测值的结构示例,其中红色和橙色表示预测置信度低,蓝色表示预测置信度高。

可以看到,SimpleFold对大多数次级结构的预测较为自信,而在柔性环区域表现出一定不确定性。

图3(b)和(c)展示了pLDDT与实际LDDT-Cα的对比分析。

SimpleFold的结构集合生成能力

采用生成式目标的好处在于:SimpleFold可直接建模结构分布,而非仅输出单一「定稿」。

因此,同一条氨基酸序列,它既能生成一个确定性的结构,还能生成多个不同构象组成的结构集合。

为了验证SimpleFold这一能力,研究人员在ATLAS数据集上进行测试。

该数据集用于评估分子动力学(MD)结构集合的生成,包含了1390个蛋白质的全原子MD模拟结构。


表2展示了SimpleFold与多个基线模型在ATLAS上的对比结果(不同规模的SimpleFold模型见表9)。


所用指标全面评估了生成结构集合的质量,包括柔性预测、分布准确性以及集合可观测性。

如表2所示,SimpleFold在多个评估指标上持续优于同样依赖ESM表征的ESMFlow-MD。

同时,在暴露残基与互信息矩阵等关键可观测性上,SimpleFold也胜过AlphaFlow-MD,有助于挖掘药物发现里常见的「隐性口袋」。

研究人员还评估了SimpleFold对天然具有多种构象状态蛋白质的结构建模能力。


如表3所示,在Apo/holo数据集上,SimpleFold取得了当前最优表现,显著超越了AlphaFlow等强大的MSA方法。

在Fold-switch数据集上,SimpleFold的表现与ESMFlow相当甚至更优。

整体来看,SimpleFold的性能随着模型规模的增加而提升,进一步展示了该框架在蛋白质结构集合生成方面的巨大潜力。

在蛋白质折叠中的扩展效应

为了研究SimpleFold在蛋白质折叠任务中扩展效应,研究人员训练了从1亿参数到30亿参数不等的多个模型版本。

所有模型均使用完整预训练数据,包括PDB、AFDB中的SwissProt以及筛选后的AFESM。


图4(a)-(d)展示了模型规模对折叠任务的性能影响(另见图1(d))。

结果表明,规模更大的模型在训练资源更充足的情况下(如更多FLOPs和迭代次数)表现更佳。

这证明SimpleFold的可扩展性过关,也为通用生成模型在生物领域大规模落地指出了可行路径。

研究人员还研究了训练数据规模的扩展对模型表现的影响:使用SimpleFold-700M模型,在不同规模的数据集上进行训练。

如图4(e)-(f)所示,随着训练数据中唯一结构数量的增加,在40万次迭代后,模型性能持续提升。

这些结果证明:一个简洁、可扩展的折叠模型能够从日益丰富的实验与模型数据中持续获益。

作者简介

Yuyang Wang


Yuyang Wang现为苹果机器学习研究(MLR)的一名人工智能研究员,目前致力于研究构建通用的扩散模型。

Yuyang Wang获卡内基梅隆大学(CMU)博士学位,长期从事生成式模型与科学计算的交叉研究。

其兴趣集中在flow-matching/扩散等通用生成模型及其在图像、3D、图与分子体系中的表示与推断,并探索以通用Transformer解决蛋白质结构建模等问题。

除论文外,Yuyang Wang重视开源与可复现,经常与跨学科团队协作,推进药物发现与蛋白设计等应用。

参考资料:

https://arxiv.org/abs/2509.18480

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

吃瓜局
2025-11-11 16:23:49
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
美伊冲突,已经出现了3个赢家,10个输家,都是谁?

美伊冲突,已经出现了3个赢家,10个输家,都是谁?

七号说三国
2026-03-25 21:11:29
阴跌两个月后放量跌停,今日最惨股,开板后又把博反包的套了进去

阴跌两个月后放量跌停,今日最惨股,开板后又把博反包的套了进去

有范又有料
2026-03-26 17:22:20
中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

云霄纪史观
2026-03-26 17:16:00
新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

白云故事
2025-03-21 17:50:07
NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

铁甲西奇
2026-03-26 16:43:09
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
为什么中国要发射东风-41,必须要提前告知俄罗斯,这是咋回事?

为什么中国要发射东风-41,必须要提前告知俄罗斯,这是咋回事?

阿器谈史
2026-03-19 18:11:39
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
谭松韵本人跟银幕上差距很大,个子好矮小小一只,真人并不年轻

谭松韵本人跟银幕上差距很大,个子好矮小小一只,真人并不年轻

庭小娱
2026-03-24 11:53:09
电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

小柱解说游戏
2026-03-25 17:56:15
为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

鉴史录
2026-03-25 18:19:06
退休不褪色:浸润在莎莎舞里的中年男人坚守与百态

退休不褪色:浸润在莎莎舞里的中年男人坚守与百态

成都人的故事
2026-03-26 23:40:03
66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

比利
2026-03-21 13:00:22
哈佛研究:吃一个西红柿,就等于喝了一大口可乐,真的还是假的?

哈佛研究:吃一个西红柿,就等于喝了一大口可乐,真的还是假的?

泠泠说史
2025-11-10 14:17:05
搞笑,步行者主帅在被湖人队东契奇狂砍43分后,说也有积极的一面

搞笑,步行者主帅在被湖人队东契奇狂砍43分后,说也有积极的一面

好火子
2026-03-26 23:59:41
2026-03-27 00:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
游戏
旅游
数码
本地

转头就晕的耳石症,能开车上班吗?

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版