网易首页 > 网易号 > 正文 申请入驻

上海AI实验室推出新一代蛋白质大模型书生AMix,加速生命科学发现

0
分享至

近日,上海人工智能实验室(上海ai实验室)联合清华大学智能产业研究院、复旦大学等高校推出新一代蛋白质基座模型——书生amix,在蛋白质理解与设计等任务上均达到领先水平。

在2025年7月推出的蛋白质基座模型amix-1的基础上,书生amix进一步引入文本模态,以扩散大语言模型(diffusion large language models, dllms)为核心架构,对自然语言、蛋白质序列、蛋白语义理解、功能序列设计统一建模,从而将蛋白质模态原生融入大模型多模态认知框架,推动大模型由工具调用向蛋白深度理解、自主原生设计升级。此外,科研团队还构建了针对蛋白质理解与设计的评测体系proteinarena,为蛋白质模型提供公平、严谨的评测依据。

上海ai实验室将对书生amix模型与代码全面开源,提供开放可复现的基座,助力生命科学基础研究发展,进而加速药物设计、酶工程、合成生物学等领域的产业落地。



与主流大模型、蛋白质专有模型和工具对比,书生amix在蛋白质理解与设计任务上均表现领先

升级版的书生amix聚焦突破大模型的蛋白质原生理解与设计能力,联合科研团队从建模范式、底层架构、科学评测三个核心维度系统推进。

建模范式:模型对任务的统一理解与生成

传统蛋白质基座模型仅建模蛋白质序列,具有任务专用性特征,其功能呈现碎片化:用于蛋白质功能理解的模型与用于序列设计的模型相互独立,即便针对同类任务的细微调整,也需对模型进行重新微调,存在效率低下、兼容性不足等问题。

书生amix打通了自然语言与蛋白质序列空间,依托大模型的文本指令遵循能力,实现了蛋白质理解与生成任务的统一。当用户输入自然语言指令与蛋白质序列,模型可完成对蛋白质各项功能与性质的解析;当用户输入蛋白质功能设计指令,模型可直接生成符合要求的蛋白质序列,无需额外进行模型调试。

该突破的核心在于蛋白质文本数据的合成与对齐。科研团队整合swiss-prot、interpro、trembl等蛋白质数据库,将其中零散的结构化数据,重构为连贯的蛋白质背景知识与指令问答样本(如,该蛋白质的核心功能是什么?设计一种可催化特定反应的蛋白质序列)。通过联合训练,模型可将理解任务中积累的序列与功能关联知识,有效迁移至生成任务中,为蛋白质设计提供更合理的生物学约束,实现理解与生成能力的双向赋能、协同提升。

底层架构:构建文本与蛋白质的跨模态融合路径

书生amix采用了扩散大语言模型(dllms)作为核心架构,通过迭代去噪的方式,让模型具备同时感知蛋白质全局功能约束和局部位点细节的能力。

该架构具备三大显著优势:一是天然支持双向上下文理解,可全面兼顾蛋白质序列的前后关联关系;二是支持局部区域编辑,能够针对蛋白质关键功能区域开展精准优化;三是可实现条件可控生成,依据具体需求生成符合约束条件的蛋白质。在低数据、高约束、高组合依赖的蛋白质研究场景中,扩散语言模型相较于传统自回归模型具有更高的数据效率,突破了单向解码的监督信号局限,通过学习“任意条件与掩码下的序列补全”,展现出优于自回归模型的泛化能力。

值得关注的是,书生amix采用块级扩散(block-wise diffusion)范式,其核心机制为“块间因果约束、块内双向扩散”:在数据块之间维持从左到右的依赖约束,保障蛋白质序列的全局连贯性与生成质量;在数据块内部,通过扩散过程实现迭代去噪,使模型能够同步感知局部关键功能区域的前后文约束,兼顾了自回归模型的高质量逻辑与扩散模型的并行高效优势。


书生amix采用块级扩散(block-wise diffusion)范式,融合块间全局连贯性与块内双向感知,符合长序列的宏观逻辑与关键位点的微观约束。图中蓝色表示文本模态,橙色表示蛋白模态,虚线表示不参与训练损失计算

科学评测:推出蛋白质理解与设计的科学评测体系proteinarena

当前蛋白质模型评测领域存在一项关键痛点:多数模型在划分训练集与测试集时,未实施严格的同源去重处理,导致蛋白质序列信息泄露。这一问题使得模型在测试过程中易依托训练集序列的同源性进行推理,而非真正掌握决定蛋白质功能的底层理化规律,进而导致评测结果缺乏公正性与可信度。

为解决上述问题,上海ai实验室构建了proteinarena评测集,严格依据时间戳与同源性标准划分各类蛋白质任务的训练集与测试集,从而规避了高同源蛋白质引发的信息泄露问题,为蛋白质模型评测提供了公平、严谨的标准。

proteinarena主要划分为原生蛋白理解与原生蛋白设计两大类任务,全面覆盖蛋白质研究的核心需求:

原生蛋白理解:基于2025年后swiss-prot数据库新收录、且与训练集同源性低于30%的蛋白质,构建包含18个细分评测任务的体系,涵盖16类常见蛋白质知识任务、481个样本的通用蛋白质问答,以及细粒度的ec四级酶功能分类与cath四级结构层级分类。其中,通用问答以准确率为核心指标,衡量模型的蛋白质知识理解能力;ec与cath任务除引入通用大模型外,还纳入esm2、esm3等蛋白质专用模型,以及foldseek、blast等经典生物信息学工具,开展多维度对比评测。

原生蛋白设计:参考pdfbench评测标准,采用2025年swiss-prot数据库新收录的审核通过蛋白质功能关键词,设置从头设计(de novo design)任务,测试模型能否依据interpro数据库的功能描述,直接生成符合约束条件的蛋白质序列。评测重点关注以下核心指标:plddt(折叠可信度,数值越高表明蛋白质结构越稳定)、function recovery(功能恢复率,数值越高表明设计蛋白质与预期功能的契合度越高)。


实验结果显示,在低同源蛋白质理解(general qa, ec/cath 分类)和功能设计评估中展现出卓越的性能,书生amix整体得分 (56.06) 优于现有的生物学专用模型及各大主流大语言模型

基于proteinarena,书生amix与前沿大模型、蛋白质领域专用模型以及经典工具展开了同台较量,评测结果显示:

书生amix首次展现出跨越蛋白原生理解与设计模态鸿沟的基座级能力,在覆盖16类核心任务的通用蛋白质问答上准确率超越claude opus 4.7,位居榜单第一;

在最具挑战的细粒度酶功能分类ec l4任务中,书生amix领先通用大模型,专用序列模型esm2、esm3与经典检索标杆blast,证明其已超越传统比对与记忆范式,捕捉到低同源蛋白背后的深层进化规律;

在蛋白质从头设计任务中,书生amix实现了折叠可信度与功能恢复率的双重优化,打破了文本与蛋白质的跨模态推断瓶颈,通过构建统一表示空间实现模态自然对齐,为蛋白质研究领域的技术创新与产业应用提供“革命的工具”。

来源:上海人工智能实验室

编辑:朱文莹

上观号作者:上海科技

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
崔丽丽事件不简单,我想到了什么?

崔丽丽事件不简单,我想到了什么?

木虫
2026-04-26 12:13:01
2009年孔东梅偶遇蒋孝严,面对祖坟被挖的半世纪世仇,毛蒋后人仅用四字破局震惊全场!

2009年孔东梅偶遇蒋孝严,面对祖坟被挖的半世纪世仇,毛蒋后人仅用四字破局震惊全场!

寄史言志
2026-04-23 22:43:11
饭店老板被顾客踹续:一脚踹出三米远,强喂服务员吃菜,警方介入

饭店老板被顾客踹续:一脚踹出三米远,强喂服务员吃菜,警方介入

奇思妙想草叶君
2026-04-25 15:02:47
张军被带走传闻多日,多种迹象表明情况严重,任职高校撤掉其信息

张军被带走传闻多日,多种迹象表明情况严重,任职高校撤掉其信息

米修体育
2026-04-25 09:38:35
蔡磊的妻子段睿深夜发布讣告:他走了,再也没有人等我回去了!

蔡磊的妻子段睿深夜发布讣告:他走了,再也没有人等我回去了!

北纬的咖啡豆
2026-04-25 09:01:01
严打又回来了?但这次和80年代完全不同,普通人只需要记住这3条

严打又回来了?但这次和80年代完全不同,普通人只需要记住这3条

苗苗情感说
2026-04-26 06:19:04
美国被曝考虑“惩罚”西班牙 桑切斯:支持盟友须遵守国际法

美国被曝考虑“惩罚”西班牙 桑切斯:支持盟友须遵守国际法

环球网资讯
2026-04-25 14:06:16
广东5岁女童吃香蕉噎死,父母向赠香蕉老人索赔73万,结果如何?

广东5岁女童吃香蕉噎死,父母向赠香蕉老人索赔73万,结果如何?

雍亲王府
2026-04-20 20:10:03
中国大学生需回炉重新学习,人社部财政部已发通知,是不是学历倒退或降级?

中国大学生需回炉重新学习,人社部财政部已发通知,是不是学历倒退或降级?

深度报
2026-04-23 22:43:47
樊振东国家队生涯或将落幕!

樊振东国家队生涯或将落幕!

最爱乒乓球
2026-04-26 00:04:28
温州一鸣董事长!年薪公布

温州一鸣董事长!年薪公布

温晓生
2026-04-25 23:56:01
张雪身后的摩帮江湖

张雪身后的摩帮江湖

上观新闻
2026-04-26 08:30:22
业绩雷爆了!多公司一季报变脸,亏损扩大+营收暴跌,这些方向要小心

业绩雷爆了!多公司一季报变脸,亏损扩大+营收暴跌,这些方向要小心

股市皆大事
2026-04-26 12:34:46
老烟枪、泼饮料、打亲爹:公交站“禁烟女戏精”用政治正确绑架社会,完成一场完美碰瓷

老烟枪、泼饮料、打亲爹:公交站“禁烟女戏精”用政治正确绑架社会,完成一场完美碰瓷

少爷写春秋
2026-04-25 22:58:18
中纪委最新通报:伍浩被查!曾任国家发改委秘书长

中纪委最新通报:伍浩被查!曾任国家发改委秘书长

看看新闻Knews
2026-04-25 18:16:03
海牙做出审判,老杜回国无望,人民日报一锤定音:中国不救菲律宾

海牙做出审判,老杜回国无望,人民日报一锤定音:中国不救菲律宾

老谢谈史
2026-04-24 23:07:48
陈思诚怎么也没想到,自己筹备的新片首映礼,被10岁儿子抢了风头

陈思诚怎么也没想到,自己筹备的新片首映礼,被10岁儿子抢了风头

草莓解说体育
2026-04-26 09:11:29
31分逆转背后:亨德森的三年蜕变实验

31分逆转背后:亨德森的三年蜕变实验

赛场名场面
2026-04-23 21:27:04
看懂就赚!磷化铟只是过客,光模块幕后硬货才是重点

看懂就赚!磷化铟只是过客,光模块幕后硬货才是重点

生活新鲜市
2026-04-26 08:56:50
大家提前准备好,明天周一,A股或将重演历史行情了!

大家提前准备好,明天周一,A股或将重演历史行情了!

股市皆大事
2026-04-26 09:41:24
2026-04-26 13:07:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
472987文章数 761056关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

手机
教育
艺术
家居
公开课

手机要闻

一加Ace 6至尊版下周发:性能最激进的天玑9500手机来了

教育要闻

高考地理中的层理构造类型

艺术要闻

郑丽文访问清华附中引发热议,蒋中正信札字迹真实性遭质疑

家居要闻

自然肌理 温润美学

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版