网易首页 > 网易号 > 正文 申请入驻

蛋白质基座的GPT时代来了?!

0
分享至

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

蛋白质模型的GPT时刻来了!

清华大学智能产业研究院(AIR)周浩副教授课题组联合上海人工智能实验室发布了AMix-1

首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling的系统化方法论来构建蛋白质基座模型。

这为通往蛋白质的通用智能构建起了新的技术范式。让停留在BERT时代、缺乏可扩展性和通用性的蛋白质基座领域实现了向GPT时代的跨越。

就像NLP领域的ChatGPT一样,AMix-1不再局限于某一种蛋白质任务,而是能举一反三、自主学习。

这个“蛋白质GPT”能自己摸索规律,看几个例子就会设计新蛋白,甚至越研究越厉害。

由AMix-1设计的蛋白质已经通过湿实验的硬核考验,最优变体蛋白质活性提升了50倍

并且,它的模型权重、代码和技术细节已全部公开,下面来看看具体细节。

四大“超能力”

  • 当语言模型涌现出通用智能时,蛋白质模型的通用智能还有多远?

在NLP领域,语言模型基座经历了从BERT到GPT的跨时代变化,涌现出了各种超出预期的通用智能,BERT时代的模型关心具体任务的提升,缺乏对可扩展性、通用性和涌现能力的系统化讨论。

而在GPT时代,系统化的讨论逐渐显现,通用智能的爆发也因此开始。

然而,在蛋白质基座领域,几乎没有贯彻这条智能涌现的路径,一系列工作同样停留在BERT时代,在“预训练+任务微调”这一范式下前行,缺乏对可扩展性、通用性和涌现能力的系统化讨论。

AMix-1是基于贝叶斯流网络(Bayesian Flow Networks, BFNs)的蛋白质基座新范式,为蛋白质基座模型实现Test-time Scaling提供了一整套系统性的技术方案:

  • Pretraining Scaling Law明确了参数、样本数和计算量如何权衡,才能最大化模型的能力。
  • Emergent Ability显示随着训练的推进,模型会涌现出对蛋白结构的“感知理解”。
  • In-Context Learning解决了功能优化中的对齐难题,让模型学会在进化语境中推理与设计。
  • Test-time Scaling让AMix-1在验证预算增加时,“越花时间越有回报”,开启基于演化的设计新方式。

实际上我们可以将其概括为AMix-1的四大“超能力”。

成长有规律,进步看得见

就像学生刷题越多、成绩提升越稳定,AMix-1有个“可预测的成长曲线”。

研究者设计了从800万到17亿参数的多尺度模型组合,利用训练FLOPs(浮点操作数)作为统一衡量指标,精确拟合、预测了模型交叉熵损失与计算量的幂律关系。

他们发现,只要增加模型参数、训练数据或计算量,AMix-1的性能(比如预测蛋白质结构的准确度)就会按规律提升。

这意味着科学家能精准规划资源,不用担心花了钱却没效果,为更大规模的蛋白质研究铺平了路。

突然开窍,看懂蛋白质的隐藏规律

AMix-1最神奇的一点是会“顿悟”。

刚开始训练时,它只懂识别蛋白质的基本序列,但随着训练深入,当loss降到某个阈值时,它会自动具备“结构感知能力”——

不用任何人教,就能自动理解蛋白质的折叠方式、空间结构。

这种能力不是渐进,而是跳变。就像从只会认字母,突然学会了读懂整篇文章的意思,这种“质变”让它能更好地把握蛋白质结构和功能的关系。

不需要微调,看例子就能“仿写”

这实际上是其In-Context Learning机制在蛋白质设计过程中的体现。

以前设计蛋白质,要针对不同任务改算法,就像做一道新题要重新学公式。

但AMix-1 会上下文学习:给它几个同类蛋白质的例子(比如一组能在高温下工作的酶),它能自动总结规律,直接设计出符合这些规律的新蛋白,不用任何额外训练。

具体来说,这种方法把一组蛋白质MSA(多序列比对)压缩成一个位置级的概率分布,作为提示输入给模型。

而模型不需要任何微调,就能根据这些例子自动推理出结构和功能规律,并生成符合意图的新蛋白。

在结构任务上(上图a-b),以常规同源蛋白甚至在近乎无同源的“孤儿蛋白”为提示,AMix-1生成在预测结构上高度一致的新蛋白;

在功能任务中(上图c-d),AMix-1在输入蛋白的酶学功能和化学反应引导的酶设计上,AMix-1能生成出功能高度一致的蛋白酶。

越琢磨越厉害,进化能力无上限

AMix-1设计了独特的测试时扩展方法EvoAMix-1,能够利用其特有的上下文学习范式,在简单可插拔的验证(包括计算模拟与湿实验评估)加持下,实现模型能力随验证预算提升的可持续扩展。

同时,AMix-1也是第一个具备了测试时扩展能力的蛋白质基础模型。

实验结果显示,EvoAMix-1在所有任务上展示出强劲的扩展能力,同时也体现其跨任务、跨目标的强大通用性。

下图展示了EvoAMix-1在六个定向进化基准中的Test-time Scaling性能。

这也就是说,给它更多验证时间和资源,它能不断优化设计结果。

比如设计酶的时候,第一次生成10个候选蛋白,测试后挑出最好的2个,再让它基于这2个继续改进,重复几次,就能得到性能远超初始版本的蛋白质。

下图展示了AMix-1在推理阶段进行进化扩展算法的工作流程。

AMix-1已经通过了湿实验的硬核考验。

研究者想优化一种叫AmeR的转录调控因子(常用于合成生物学的基因开关),让它更擅长结合DNA。

用AMix-1生成40个变体后,实验发现最优的变体蛋白质活性提升了50倍,比目前最先进的方法还提升了77%。

更关键的是,整个过程全自动化,不用科学家手动调整,完美实现了「从模型到实验」的闭环。

清华大学智能产业研究院还联合上海人工智能实验室研发了一个虚拟生物实验室

AMix-1支撑了该虚拟生物实验室的蛋白质生成与进化工作。

以前需要反复试错、耗钱耗时的蛋白质改造,现在可能像和ChatGPT聊天一样简单~

技术报告:https://arxiv.org/pdf/2507.08920
项目主页:https://gensi-thuair.github.io/AMix-1/
模型权重:https://huggingface.co/GenSI/AMix-1-1.7B
代码仓库:https://github.com/GenSI-THUAIR/AMix-1

虚拟生物实验室:https://virtualbiolab.intern-ai.org.cn/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国唯一无法征服的大江,水能超三峡,却没有一座水电站

我国唯一无法征服的大江,水能超三峡,却没有一座水电站

阿諢体育
2026-02-14 12:24:13
为什么首富必须死?

为什么首富必须死?

汉周读书
2024-05-20 09:52:50
两岸统一突破点不在马英九,也不在国民党,可能在他的身上?

两岸统一突破点不在马英九,也不在国民党,可能在他的身上?

生活魔术专家
2026-02-15 23:22:42
完了,全完了。澳门英皇宫殿一年净亏2.48亿,彻底崩了。

完了,全完了。澳门英皇宫殿一年净亏2.48亿,彻底崩了。

流苏晚晴
2026-02-12 17:03:00
亲密接触中的罕见身体锁死现象

亲密接触中的罕见身体锁死现象

特约前排观众
2025-12-27 00:05:08
林强涉案989亿被抓!生活奢华超过中东富豪,妻子、父母也有责任

林强涉案989亿被抓!生活奢华超过中东富豪,妻子、父母也有责任

细品名人
2025-12-31 07:34:46
太阳报:贝尼特斯或将被帕纳辛纳科斯解雇,昔日弟子成替代者

太阳报:贝尼特斯或将被帕纳辛纳科斯解雇,昔日弟子成替代者

星Xin辰大海
2026-02-18 15:31:50
大年初一的好消息,乌军取得两年半最大进展

大年初一的好消息,乌军取得两年半最大进展

名人苟或
2026-02-17 15:30:46
《海峡两岸》主持桑晨,原来是这位大明星的后代,难怪长这么好看

《海峡两岸》主持桑晨,原来是这位大明星的后代,难怪长这么好看

车窗起雾q
2026-02-17 23:17:07
谈判结束 伊美双方发声!油价跳水 金银齐跌

谈判结束 伊美双方发声!油价跳水 金银齐跌

中国能源网
2026-02-18 09:59:13
230.6亿次播放背后:春晚如何用科技征服年轻观众?

230.6亿次播放背后:春晚如何用科技征服年轻观众?

宝庆山人有话
2026-02-18 15:28:43
租个“对象”回家过年

租个“对象”回家过年

经济观察报
2026-02-16 16:34:16
春晚这一夜,“跌落神坛”的王菲,让所有人见识了她的江湖地位!

春晚这一夜,“跌落神坛”的王菲,让所有人见识了她的江湖地位!

王觪晓
2026-02-18 13:20:22
C罗和你选谁?爱德华兹:C罗是谁?但他却穿阿根廷球衣!

C罗和你选谁?爱德华兹:C罗是谁?但他却穿阿根廷球衣!

氧气是个地铁
2026-02-17 16:52:35
美国为何对中国保持克制?你绝对想不到的原因!

美国为何对中国保持克制?你绝对想不到的原因!

枫冷慕诗
2025-12-03 18:25:42
猫咪打架时突然翻肚皮是什么意思,这是在认输吗?

猫咪打架时突然翻肚皮是什么意思,这是在认输吗?

爱宠君
2026-02-16 16:30:03
他是广东知名主持人,32岁娶了女老师,如今女儿接班主持为他争光

他是广东知名主持人,32岁娶了女老师,如今女儿接班主持为他争光

草莓解说体育
2026-02-18 00:24:57
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
美媒评现役最被高估球员TOP10!前五勇士独占两席 浓眉哥高居第二

美媒评现役最被高估球员TOP10!前五勇士独占两席 浓眉哥高居第二

锅子篮球
2026-02-17 13:27:32
94岁默多克舐犊情深宠爱老来女:邓文迪两个女儿,不争不抢躺赢了

94岁默多克舐犊情深宠爱老来女:邓文迪两个女儿,不争不抢躺赢了

毒舌小红帽
2025-09-15 20:10:36
2026-02-18 16:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12178文章数 176386关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

赖清德新年发福袋 宫庙主委突然捂嘴呕吐喷溅他身上

头条要闻

赖清德新年发福袋 宫庙主委突然捂嘴呕吐喷溅他身上

体育要闻

夺银被问丢金,谷爱凌回击外媒:很荒谬

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

艺术
亲子
教育
时尚
手机

艺术要闻

白宫东翼扩建详细图纸,刚曝光就火速撤下!

亲子要闻

孩子心口闷得慌是怎么回事呢?

教育要闻

“新校长”应有的模样

50+女性秋冬穿搭指南,4个让年龄法则成为加分项,越穿越优雅

手机要闻

荣耀Magic V6真机曝光!MWC即将发布,折叠屏+机器人手机双王炸

无障碍浏览 进入关怀版