网易首页 > 网易号 > 正文 申请入驻

西湖大学发布SaprotHub,让生物学家轻松训练调用蛋白质语言模型

0
分享至



作者 | 论文团队

编辑 | ScienceAI

如同人类拥有语言,生命世界也有一套由氨基酸序列构成的「分子语言」—— 蛋白质 。近年来,人工智能领域的蛋白质语言模型(PLMs)展现出解码这套语言的强大能力,能够精准预测蛋白质的结构与功能。

然而,这些尖端模型的训练与使用,往往需要深厚的机器学习专业知识和编程能力,这在 AI 开发者与广大生物学家之间形成了一道鸿沟。

为了打破这一壁垒,西湖大学原发杰团队首先提出了一种新颖的蛋白质表征方法 —— 将蛋白质一维序列与三维结构相结合形成「结构感知」词汇表并据此训练出了蛋白质语言大模型 Saprot。

在此基础上,团队进一步推出了 SaprotHub 开源平台 。该平台旨在将 Saprot 等一系列先进蛋白质语言模型的能力开放给生命科学领域研究者,它也是开放蛋白质模型联盟(Open Protein Modeling Consortium, OPMC)为推动全球科研协作、共建开源社区而迈出的关键第一步。

这项研究成果已于近期发表在国际顶尖期刊《自然・生物技术》(Nature Biotechnology)上,论文题为《Democratizing Protein Language Model Training, Sharing and Collaboration》。



论文地址:https://www.nature.com/articles/s41587-025-02859-7

蛋白质研究的挑战:从模型「孤岛」到协作「蓝海」

蛋白质是生命活动的基石,而近年来,以 AlphaFold2 为代表的蛋白质语言模型(PLMs)在预测蛋白质结构与功能方面取得了革命性突破。然而,这些强大的 AI 工具如同精密的专业设备,其训练和部署通常需要深厚的机器学习知识,这为广大从事实验研究的生物学家设置了难以逾越的技术鸿沟。从复杂的编程环境配置,到海量数据的预处理,再到模型训练和评估,整个流程充满了挑战。这不仅限制了 AI 技术的普及,也减缓了其在医药、生物技术等领域的创新应用进程。



图 1. Saprot 模型架构

SaprotHub:三大支柱构建的开源协作新范式

为了应对这一挑战,团队构建了以 SaprotHub 为核心的一站式解决方案,它不仅是一个平台,更是一个融合了前沿 AI 大模型技术、开源工具和全球社区的完整生态系统:

  • 核心引擎 — Saprot 语言模型:Saprot 是本项工作的基石。它开创性地提出了一种「结构感知」(Structure-Aware)词汇表,将蛋白质的一维氨基酸序列与其三维局部结构信息进行联合编码,从而构建出一种全新的蛋白质「语言」。同时,研究团队基于 AlphaFold2 预测的数千万个蛋白质结构,采用了 64 块 NVIDIA A100 GPU,经过数月训练完成了 Saprot 模型的训练。其性能在数十项蛋白质功能预测任务中得到了充分验证,并成功超越了如 ESM-2 等业界顶尖模型。自发布以来,Saprot 模型在学术界与工业界获得了广泛的关注和应用。相关论文被引用已超过 200 次,模型累计下载量逾 70 万次,并获得了大量来自社区的真实生物实验验证,彰显了其作为基础模型的影响力。值得一提的是,Saprot 于 2024 年 5 月登顶 ProteinGym 蛋白质突变效应预测排行榜,并在此后近半年的时间里持续排名第一。
  • 开源工具 — 「一键式」蛋白质语言模型训练平台 ColabSaprot:为了将 Saprot 的能力释放给生命科学领域的研究者,团队基于免费的 Google Colab 云平台,通过数月开发,上万行的代码编写,实现了 ColabSaprot「一键式」开源训练平台。它将原本需要编写繁琐代码才能进行的蛋白质语言模型微调、功能预测等任务,简化为用户在网页上的几次鼠标点击,让不具备编程背景的生物学家也能轻松训练前沿蛋白质语言模型,实现从想法到验证的快速迭代 。为了方便研究者快速上手,团队录制了详细的教程视频,涵盖了从模型训练到使用等各个方面。

ColabSaprot链接:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb

教程链接:

https://www.bilibili.com/video/BV1Y1i9YBEhv

https://www.youtube.com/watch?v=nmLtjlCI_7M



图 2. ColabSaprot 在线平台,具备细致的操作介绍以及简易的使用步骤

  • 全球协作 — OPMC 成员共建的开放社区:SaprotHub 不仅仅是蛋白质语言模型的共享中心,更是开放蛋白质模型联盟(OPMC)理念的先行者。该联盟汇聚了来自西湖大学、麻省理工学院(MIT)、首尔大学、哈佛大学、慕尼黑工业大学、微软等全球数十家顶尖科研机构的研究力量 ,旨在共同推进蛋白质领域的蓬勃发展。为了实现开源共建的良性生态,团队采用低秩适应矩阵(LoRA)的方式保存模型权重,并建立了 SaprotHub 模型与数据仓库。通过将 ColabSaprot 开源平台与 SaprotHub 进行无缝耦合,OPMC 成员和全球研究者可以便捷地分享、下载和迭代模型。目前,SaprotHub 已经存储了数十种不同类型的蛋白质训练数据集以及可供研究者直接预测的蛋白质语言模型。为了方便研究者快速检索,团队针对性地开发了相应的搜索引擎,允许研究者根据关键词直接检索到相关的数据和模型。

SaprotHub 模型与数据仓库:https://huggingface.co/SaProtHub

搜索引擎:https://huggingface.co/spaces/SaProtHub/SaprotHub-search



图 3. SaprotHub 利用 LoRA 技术存储模型权重,实现模型的便利共享

从虚拟到现实:计算机模拟性能验证与多项湿实验验证

SaprotHub 的价值不仅在于其便捷性,更在于其预测准确性。在团队开展的用户研究中,12 位没有 AI 背景的生物学研究者使用该平台,取得了与 AI 研究者相媲美的成果。



图 4. 生物研究者利用平台能够训练出和 AI 研究者相媲美的成果

更进一步,平台预测的有效性在一系列生物湿实验中得到了验证:

  • 工业酶改造:一家生物技术公司利用 ColabSaprot 对一种工业用木聚糖酶进行改造,成功将酶的活性提升了 2.55 倍。
  • 基因编辑工具优化:研究人员利用该平台对 TDG 基因编辑工具进行优化,预测出的多个新版本在实验中展现出翻倍的编辑效率。
  • 荧光蛋白设计:平台还被用于设计更亮的绿色荧光蛋白(GFP),其中一个新设计的蛋白,其荧光亮度达到了原始版本的 8 倍以上。

这些成功案例证明,SaprotHub 能够将 AI 的预测能力转化为现实世界中的生物学功能突破。

核心突破

1.全新蛋白质语言模型:发布了具备技术创新(结构感知词汇表)的 Saprot 蛋白质语言大模型。其在 14 项基准测试中性能超越了 ESM-2 等现有经典模型,已在该领域展现了其作为基础模型的影响力。

2.开源协作范式:作为开放蛋白质模型联盟(OPMC)的第一步,汇聚了来自 MIT、哈佛、牛津、首尔大学等全球顶尖机构的智慧,为蛋白质领域建立了集模型训练、分享、合作、迭代于一体的开源社区平台。

3.蛋白质语言模型技术民主化:通过「一键式」的 ColabSaprot 工具,将先进蛋白质语言模型的复杂训练和使用流程民主化,赋能全球不具备编程背景的生物学家,使其从 AI 的「使用者」转变为「创造者」和「贡献者」。

4.真实场景验证:平台的有效性在工业酶改造、基因编辑工具优化等多个真实的湿实验场景中得到验证,展示了其通过计算机模拟辅助现实生物学突破的能力。

结语与展望

SaprotHub 的发布,不止是提供了一个工具。它以一个创新的自研蛋白质语言模型(Saprot)为基础,通过开源平台(ColabSaprot)来催化一个全球性的科研协作网络(OPMC)。这为 AI 辅助的生命科学研究提供了一种可持续发展的「开源、共建、共享」模式。目前,该生态已进一步集成了 ESM-2、ProtT5 等更多业界主流模型 ,开启了蛋白质科学的「大航海时代」。

西湖大学原发杰实验室现有 2026 年博士研究生招生名额,有意向者可将个人简历(含教育背景、科研经历、成果证明等)及相关材料投递至指定邮箱,邮件主题请注明「2026 博士申请 + 姓名」。

投递邮箱:yuanfajie@westlake.edu.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

街声巷闻
2025-11-17 14:36:54
惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

电动猫
2025-11-18 00:18:26
聚焦“十五五”规划建议|保持制造业合理比重

聚焦“十五五”规划建议|保持制造业合理比重

新华社
2025-11-17 15:54:02
王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

懂球帝
2025-11-18 17:17:31
张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

极目新闻
2025-11-18 15:19:03
捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

鹰眼Defence
2025-11-18 17:53:12
捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

南宫一二
2025-11-17 07:17:39
全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

带你逛体坛
2025-11-18 18:34:10
罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

懂球帝
2025-11-18 14:25:08
日韩股市,开盘暴跌!

日韩股市,开盘暴跌!

证券时报
2025-11-18 09:47:04
湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

体育妞世界
2025-11-18 14:08:30
乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

君好伴读
2025-10-27 10:33:08
付某梅(女),已被大连警方抓获归案!

付某梅(女),已被大连警方抓获归案!

半岛晨报
2025-11-18 12:40:05
因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

起喜电影
2025-11-18 15:29:35
赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

火山诗话
2025-11-18 18:36:08
华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

手机中国
2025-11-18 16:50:44
钟丽缇168cm的大块头,一般男人征服不了她吧?

钟丽缇168cm的大块头,一般男人征服不了她吧?

小椰的奶奶
2025-11-18 13:14:26
毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

南书房
2025-09-28 23:01:03
日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

收藏大视界
2025-11-09 20:38:12
只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

乡野小珥
2025-11-18 07:31:38
2025-11-18 19:39:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

数码
教育
亲子
公开课
军事航空

数码要闻

天马全球首发真610Hz无极电竞屏,还有108英寸4K巨幕Micro LED

教育要闻

论区老师“拗柴”与中考体育满分之间的逻辑必然性

亲子要闻

孩子咳嗽怎么办?应该如何缓解?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版