网易首页 > 网易号 > 正文 申请入驻

苹果掀桌!扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代

0
分享至


新智元报道

编辑:元宇

【新智元导读】蛋白质折叠是计算生物学的皇冠难题,SimpleFold作为首个仅基于通用Transformer模块的蛋白折叠模型,摒弃了AlphaFold2系列的传统架构,能够直接将蛋白质序列生成完整的三维原子结构,在CAMEO、CASP基准测试上表现强劲。

蛋白质折叠,一直是计算生物学中的一个核心难题,并对药物研发等领域产生着深远影响。

若把蛋白质折叠类比为视觉领域的生成模型,氨基酸序列相当于「提示词」,模型输出则是原子的三维坐标。

受此思维启发,研究人员构建了一个基于标准Transformer模块与自适应层的通用且强大的架构——SimpleFold。


论文地址:https://arxiv.org/abs/2509.18480

SimpleFold和AlphaFold2等经典的蛋白质折叠模型有哪些不同?

AlphaFold2、RoseTTAFold2通过融合复杂且高度专业化的架构,如三角更新、成对表示、多序列比对(MSA)。

这些设计往往是将我们对结构生成机制的已有理解「硬编码」到模型中,而不是让模型自己从数据中学习生成方式。

SimpleFold则提出了一种全新思路:

没有三角更新、成对表示,也不需要MSA,而是完全基于通用Transformer和流匹配(flow-matching),能够直接将蛋白质序列映射为完整的三维原子结构(见图1)。


SimpleFold

首个基于Transformer模块的蛋白折叠模型

流匹配把生成视作一段随时间推进的旅程,用常微分方程(ODE)做轨迹积分,就好像冲洗照片一样,噪声也一点点被「冲洗」成清晰的结构。

SimpleFold在蛋白质折叠上也复现这段旅程:

输入是氨基酸序列这串「提示词」,输出是全原子三维「照片」,很像视觉里的「文生图」或「文生三维」任务。

自AlphaFold2以来,诸如三角更新、单体与对表示交互等组件被广泛应用于蛋白质折叠模型,但这些设计是否必要并未形成定论。

SimpleFold在设计上进行了大胆创新,仅采用通用Transformer模块构建架构(对比见图5)。


SimpleFold架构由三部分组成:轻量原子编码器、重型残基主干、轻量原子解码器(见图2)。


这套「细—粗—细」的层级套路,先看微观、再抓全局、再补细节,在速度与精度之间找到了良好的平衡点。

与以往方法不同,SimpleFold不使用对表示,也不依赖MSA或PLM的注意力初始化。

与依赖等变架构的工作相比,SimpleFold完全基于非等变的Transformer构建。

为应对蛋白质结构中的旋转对称性,研究人员在训练时引入SO(3)数据增强,即随机旋转目标结构,并依赖模型学习该对称性。

实验评估

为了研究SimpleFold框架在蛋白质折叠任务中的扩展能力,研究人员训练了一系列不同规模的SimpleFold模型(包括100M、360M、700M、1.1B、1.6B和3B)。

模型做大不只是加参数,随着模型规模的增加,研究人员在原子编码器、解码器和残基主干网络也进行了全链路升级(详见表5)。


在训练过程中,研究人员借鉴AlphaFold2的策略,同一蛋白在每张GPU上复制Bc份,各自抽不同时间步t,再从Bp个蛋白累积梯度(具体设置见表6)。


实验表明,这种策略相比于直接随机选择蛋白组成一个batch,能带来更稳定的梯度和更优的模型性能。

研究人员在CAMEO22和CASP14这两个广泛使用的蛋白质结构预测基准上评估了SimpleFold的性能。

这两个基准测试在泛化能力、鲁棒性以及原子级准确性方面要求较高。


表1总结了CASP14和CAMEO22上的评估结果。

研究人员根据蛋白序列信息提取方式将模型分为两类:基于MSA检索的方法(如RoseTTAFold、RoseTTAFold2和AlphaFold2)和基于蛋白语言模型(PLM)的方法(如ESMFold和OmegaFold)。

此外,还根据训练目标是否为生成式目标(如扩散、流匹配或自回归)对基线模型做了标注,以区分它们是否直接进行结构回归。

有意思的是,从AlphaFold2、ESMFold微调成流匹配的AlphaFlow、ESMFlow,整体指标反而不如各自原版回归模型。

研究人员认为,这是因为蛋白质折叠基准如CAMEO22和CASP14通常仅提供一个「真实」结构目标,这对于进行确定性逐点预测的回归模型更为有利。

尽管架构简洁,但SimpleFold的性能依然非常出色。

在两个基准测试中,SimpleFold一贯优于同为流匹配方法、基于ESM嵌入构建的ESMFlow。

在CAMEO22上,SimpleFold的表现与目前最先进的模型(如ESMFold、RoseTTAFold2和AlphaFold2)相当。

更为重要的是,不使用三角注意力和MSA,SimpleFold在多数指标也能跑到RF2/AF2性能的95%以上。

在更具挑战性的CASP14中,SimpleFold甚至超越了ESMFold。

SimpleFold跨基准的掉分更小,说明它不靠MSA也能稳健泛化,能够应对更复杂的结构预测任务。

研究人员也报告了不同规模的SimpleFold模型的表现。

即便是最小的SimpleFold-100M,在CAMEO22上也能实现ESMFold性能的90%+以上,进一步说明基于通用结构模块构建蛋白质折叠模型是可行的。

随着模型规模的提升,SimpleFold的性能在各项指标上持续提升,这表明通用可扩展的架构设计在折叠任务中具有显著优势。

尤其是在更具挑战性的CASP14上,模型扩大带来的性能增益更为明显。


图3(a)展示了一个包含pLDDT预测值的结构示例,其中红色和橙色表示预测置信度低,蓝色表示预测置信度高。

可以看到,SimpleFold对大多数次级结构的预测较为自信,而在柔性环区域表现出一定不确定性。

图3(b)和(c)展示了pLDDT与实际LDDT-Cα的对比分析。

SimpleFold的结构集合生成能力

采用生成式目标的好处在于:SimpleFold可直接建模结构分布,而非仅输出单一「定稿」。

因此,同一条氨基酸序列,它既能生成一个确定性的结构,还能生成多个不同构象组成的结构集合。

为了验证SimpleFold这一能力,研究人员在ATLAS数据集上进行测试。

该数据集用于评估分子动力学(MD)结构集合的生成,包含了1390个蛋白质的全原子MD模拟结构。


表2展示了SimpleFold与多个基线模型在ATLAS上的对比结果(不同规模的SimpleFold模型见表9)。


所用指标全面评估了生成结构集合的质量,包括柔性预测、分布准确性以及集合可观测性。

如表2所示,SimpleFold在多个评估指标上持续优于同样依赖ESM表征的ESMFlow-MD。

同时,在暴露残基与互信息矩阵等关键可观测性上,SimpleFold也胜过AlphaFlow-MD,有助于挖掘药物发现里常见的「隐性口袋」。

研究人员还评估了SimpleFold对天然具有多种构象状态蛋白质的结构建模能力。


如表3所示,在Apo/holo数据集上,SimpleFold取得了当前最优表现,显著超越了AlphaFlow等强大的MSA方法。

在Fold-switch数据集上,SimpleFold的表现与ESMFlow相当甚至更优。

整体来看,SimpleFold的性能随着模型规模的增加而提升,进一步展示了该框架在蛋白质结构集合生成方面的巨大潜力。

在蛋白质折叠中的扩展效应

为了研究SimpleFold在蛋白质折叠任务中扩展效应,研究人员训练了从1亿参数到30亿参数不等的多个模型版本。

所有模型均使用完整预训练数据,包括PDB、AFDB中的SwissProt以及筛选后的AFESM。


图4(a)-(d)展示了模型规模对折叠任务的性能影响(另见图1(d))。

结果表明,规模更大的模型在训练资源更充足的情况下(如更多FLOPs和迭代次数)表现更佳。

这证明SimpleFold的可扩展性过关,也为通用生成模型在生物领域大规模落地指出了可行路径。

研究人员还研究了训练数据规模的扩展对模型表现的影响:使用SimpleFold-700M模型,在不同规模的数据集上进行训练。

如图4(e)-(f)所示,随着训练数据中唯一结构数量的增加,在40万次迭代后,模型性能持续提升。

这些结果证明:一个简洁、可扩展的折叠模型能够从日益丰富的实验与模型数据中持续获益。

作者简介

Yuyang Wang


Yuyang Wang现为苹果机器学习研究(MLR)的一名人工智能研究员,目前致力于研究构建通用的扩散模型。

Yuyang Wang获卡内基梅隆大学(CMU)博士学位,长期从事生成式模型与科学计算的交叉研究。

其兴趣集中在flow-matching/扩散等通用生成模型及其在图像、3D、图与分子体系中的表示与推断,并探索以通用Transformer解决蛋白质结构建模等问题。

除论文外,Yuyang Wang重视开源与可复现,经常与跨学科团队协作,推进药物发现与蛋白设计等应用。

参考资料:

https://arxiv.org/abs/2509.18480

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
1.74 亿镑!利物浦砸破队史纪录,豪赌萨拉赫接班人

1.74 亿镑!利物浦砸破队史纪录,豪赌萨拉赫接班人

奶盖熊本熊
2026-03-24 03:45:21
72岁王健林健康引担忧,眼神痴呆嘴歪到认不出,疑患癌后消耗暴瘦

72岁王健林健康引担忧,眼神痴呆嘴歪到认不出,疑患癌后消耗暴瘦

往史过眼云烟
2026-03-15 17:12:00
“封杀”5年后,34岁郑爽财力现状被扒,结果估计和你想得不一样

“封杀”5年后,34岁郑爽财力现状被扒,结果估计和你想得不一样

梨花黛娱
2026-03-24 14:47:07
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
春天的浪漫,就要与众不同

春天的浪漫,就要与众不同

Yuki女人故事
2026-03-23 23:04:03
终于有人管管美国了!美国遇到大麻烦,美国:中美两国需要携手

终于有人管管美国了!美国遇到大麻烦,美国:中美两国需要携手

福建平子
2026-01-28 10:52:25
全网刷屏!NBA不公平吹罚引爆怒火,76人主帅当场怒怼裁判

全网刷屏!NBA不公平吹罚引爆怒火,76人主帅当场怒怼裁判

夜白侃球
2026-03-24 14:29:48
王阳明:人生最难破的3大心中贼——焦虑、欲望和内耗(深度)

王阳明:人生最难破的3大心中贼——焦虑、欲望和内耗(深度)

失语者云骧
2024-06-09 11:13:26
WTI原油突破91美元/桶

WTI原油突破91美元/桶

澎湃新闻
2026-03-24 09:26:07
歼20总师被除名:长期领导军工央企,最近照流出,事发全过程披露

歼20总师被除名:长期领导军工央企,最近照流出,事发全过程披露

博士观察
2026-03-20 21:41:54
现货黄金失守4310美元/盎司,日内跌2.19%

现货黄金失守4310美元/盎司,日内跌2.19%

每日经济新闻
2026-03-24 10:15:33
夫妻生活男性坚持多久算正常?大多数人都能达标,看看你达标没有

夫妻生活男性坚持多久算正常?大多数人都能达标,看看你达标没有

医者荣耀
2025-10-22 12:05:02
台军方放话,只要解放军集结兵力准备登陆,将远程打击港口等目标

台军方放话,只要解放军集结兵力准备登陆,将远程打击港口等目标

影孖看世界
2026-03-23 23:22:34
江苏苏州一女神太漂亮 身高169CM 体重52公斤 五官精致到无懈可击!

江苏苏州一女神太漂亮 身高169CM 体重52公斤 五官精致到无懈可击!

乡野小珥
2026-03-22 11:59:25
伊朗发动“真实承诺-4”行动第79波攻势 

伊朗发动“真实承诺-4”行动第79波攻势 

新华社
2026-03-24 20:48:04
争端升级,日本援兵已到,中方宣布封海4天,俄罗斯警告军备竞赛

争端升级,日本援兵已到,中方宣布封海4天,俄罗斯警告军备竞赛

阿芒娱乐说
2026-03-24 04:13:53
2000km续航!奇瑞官宣:3月25日,新车开启预售

2000km续航!奇瑞官宣:3月25日,新车开启预售

T科技衍生
2026-03-25 00:32:27
穆迪大伤登全美第一热搜!X光检查后坐轮椅离场 专家直言糟糕透顶

穆迪大伤登全美第一热搜!X光检查后坐轮椅离场 专家直言糟糕透顶

颜小白的篮球梦
2026-03-24 15:50:32
刚开后门就被炸,微信这波龙虾自助收摊了?

刚开后门就被炸,微信这波龙虾自助收摊了?

差评XPIN
2026-03-25 00:22:50
2026-03-25 03:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14804文章数 66718关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

健康
亲子
教育
旅游
艺术

转头就晕的耳石症,能开车上班吗?

亲子要闻

拍完这条,老母亲学会了好多西语单词

教育要闻

西湖大学,签约南洋理工大学

旅游要闻

联袂演绎江南风华,浦东多个古镇将集中亮相2026上海旅游产业博览会

艺术要闻

300米!非洲最高全钢混住宅,中国建造又破纪录!

无障碍浏览 进入关怀版