网易首页 > 网易号 > 正文 申请入驻

AI模拟5亿年生物进化,ESM3开启「蛋白质创世纪」!论文登上Science

0
分享至

新智元报道

作者:木木(学术头条)

【新智元导读】一个模型竟模拟了超5亿年生物进化,生成全新蛋白质,这项最新研究成果,已经登上Science期刊。

蛋白质是生物体中非常重要的功能性分子,它们的形成过程经过了数十亿年的自然选择和进化。在这一过程中,蛋白质的序列和结构经过无数次随机突变,并通过生物系统的选择机制进行筛选,最终形成那些具有特定生物学功能的蛋白质。

近年来,随着深度学习和语言模型(LM)的发展,科学家们开始尝试将这些工具应用于理解生物系统,尤其是蛋白质。

今天,Science 杂志发表了一项重要研究成果,展示了如何利用语言模型来生成和推理蛋白质序列、结构和功能,并提出了一个名为 ESM3 的多模态生成式模型。该模型不仅能够生成功能性蛋白质,还能够模拟超过 5 亿年的进化过程,生成与自然界已知蛋白序列不同的全新蛋白质。

ESM3 模型由人工智能初创公司 Evolutionary Scale 研发,旨在帮助科学家理解、构思和创造蛋白质。在这项工作中,研究人员通过 ESM3 设计了一个新的绿色荧光蛋白(GFP),其基因序列与已知荧光蛋白的差异巨大,如果通过天然荧光蛋白的生物进化,则需要超过 5 亿年左右的时间。

这意味着,语言模型不仅可以解读自然进化中积累的生物数据,还能通过分析进而生成新型生物分子,开辟蛋白质设计和药物开发的新路径。

AI解码生物语言

生物体本质上是可编程的。

这是因为自然界的每个生物体都共享相同的遗传密码,构成生命物质基础的蛋白质就是仅由 20 种氨基酸组成。也因此,有人将其比作生命的“字母表”。

生物体中复杂的蛋白质信息蕴含着深层的生物学规律和演化历史。近年来,科学家们通过对基因组序列和蛋白质结构的测序,积累了大量的蛋白质数据,包括数十亿条序列和数亿个结构信息。

随着 AI 技术的发展,科学家们开始尝试利用深度学习模型,如大语言模型(LLM),将这些遗传信息“解码”,以揭示蛋白质序列中隐藏的深层模式和逻辑,并通过这些模式推断、设计全新的蛋白质结构和功能。

当前,已有多个语言模型(如 ProtBERT、ProtGPT)证明了蛋白质序列中的模式能够被语言模型“解码”,从而可以帮助理解其功能。这一领域的研究还表明,随着模型规模的扩大,语言模型的能力和准确性也随之提升。

为此,研究人员使用了超过 31.5 亿条蛋白质序列、2.36 亿个蛋白质结构,以及 5.39 亿个带有功能注释的蛋白质数据来训练 ESM3 模型。该模型总共有三种不同的规模,分别为 14 亿、70 亿和 980 亿参数。

实验表明,随着模型参数规模的增加,ESM3 在生成能力和表示学习上的性能有显著提升,特别是在生成蛋白质结构时,980 亿参数的模型表现出超越现有模型的强大能力。

作为该领域的前沿成果,ESM3 不仅仅是一个传统的序列生成模型,而是一个多模态生成模型,能够同时处理蛋白质的序列、三维结构和功能。

ESM3 还展示了其在多种生成任务上的卓越性能。ESM3 使用了一种名为“生成掩码语言模型”的方法,在输入中对蛋白质的序列、结构和功能进行随机掩码,然后通过模型推理生成缺失的部分。

来源:Evolutionary Scale

研究人员通过随机掩码并生成序列和结构,对比生成结果与真实蛋白质的匹配情况,发现模型能够生成高质量的蛋白质序列和结构,其与真实结构的平均差异仅为 0.5Å。

此外,研究表明,ESM3 能够通过不同的提示生成具有目标功能的蛋白质,这为蛋白质设计带来了高度灵活性。与传统的三维空间中的复杂建模方法不同,ESM3 将三维结构离散化为 token,这使得它能够与序列和功能信息一同被输入模型进行处理。这种方法避免了复杂的三维空间扩散架构,使得生成过程更加高效、可控。

生成需5亿年进化的荧光蛋白

为了展示了 ESM3 模型在生成全新蛋白质方面的巨大潜力,研究人员尝试选择绿色荧光蛋白进行挑战。

绿色荧光蛋白在生物学研究中是非常重要的工具,用于标记和跟踪细胞内的分子与结构。然而,现有的荧光蛋白大多数来自自然界,且其突变通常限制在已有序列周围,很难大幅度改变其序列。在少数情况下,利⽤⾼通量实验和机器学习,科学家仅能够引⼊至多 40-50 个突变(即 80% 的序列同源性),同时保留蛋白的荧光功能。

来源:Evolutionary Scale

为了突破这一瓶颈,研究人员通过对 ESM3 模型进行特定的功能提示,尝试生成生成一个全新的绿色荧光蛋白,要求该蛋白的序列与已知的绿色荧光蛋白序列相似性较低,但仍要保持其荧光特性。

首先,研究人员定义了一个 229 个氨基酸长的蛋白质序列,其中包含了与绿色荧光蛋白荧光活性相关的关键氨基酸,研究人员还提供了绿色荧光蛋白的三维信息,尤其是与形成荧光色素的活性位点相关的氨基酸残基。

ESM3 模型在接收到这些提示后,会生成一个蛋白质的三维结构,尤其是确保活性位点的氨基酸位置协调良好。然后,基于生成的结构,模型进一步推理生成合适的氨基酸序列,并尝试保持活性位点的正确结构。

在这个过程中,ESM3 不仅仅是根据已有的绿色荧光蛋白结构生成新的序列,还能够在“已知”结构的基础上进行创新,生成具有低序列相似性的新型蛋白质。

经过一系列的生成和优化步骤,研究人员获得了多个新的绿色荧光蛋白,其中一个特别的设计被命名为 esmGFP。这个全新的蛋白质与现有的荧光蛋白(如 tagRFP)之间的序列相似性为 58%,与最接近的天然蛋白(eqFP578)之间的序列差异为 107 个氨基酸,序列相似性为 53%。

研究人员还进一步验证了生成的绿色荧光蛋白是否具有实际的荧光功能。结果表明,尽管 esmGFP 发光特性有所延迟,成熟时间较长,但最终的荧光亮度与已知的绿色荧光蛋白相似,且具有稳定的荧光特性。

研究人员还提供了时间校准系统发育分析,指出如果通过现有蛋白的自然界进化过程得到 esmGFP,则需要超过 5 亿年的等效时间。

ESM3的未来潜力与应用

ESM3 的另一个显著亮点是其在多模态条件下的生成和控制能力。

也就是说,研究人员能够通过提示特定的蛋白质结构、功能或特定的关键氨基酸,生成满足这些条件的新型蛋白质。例如,模型能够生成具有特定功能位点的蛋白质,同时保持整体结构的完整性。

此外,通过组合不同的提示,模型也能够生成符合复杂要求的蛋白质。例如,研究人员提示蛋白质的二级结构和功能关键词,并生成了与这些提示高度一致的蛋白质。

ESM3 模型的这种提示响应能力和可控特性,使得它在蛋白质设计领域具有高度实用价值,尤其是在生成与现有已知蛋白质具有显著差异的新型蛋白质方面。

在 ESM3 模型的帮助下,研究人员不仅能够设计出新型的绿色荧光蛋白,还能在设计中创新,突破自然进化的局限。这为未来蛋白质工程、合成生物学和药物开发等领域提供了新的可能性,也为蛋白质的设计和功能验证提供了更加高效的工具。

例如,与自然进化相比,ESM3 能够大大加速蛋白质设计的速度,并生成在自然界中无法轻易获得的新蛋白质,而这对于基础研究和应用研究来说都是巨大的突破。

另外,在药物设计领域中,生成具有特定功能的蛋白质是一个重要的研究方向,而通过 ESM3,研究人员能够设计出符合特定靶点的蛋白质,减少实验验证的时间和成本。

而在合成生物学领域中,ESM3 能够为开发新的合成途径提供帮助,生成具备新功能的酶或代谢途径。

研究人员还指出,随着模型规模和数据量的进一步增加,ESM3 有潜力生成更加复杂和创新的蛋白质。未来,ESM3 的应用可能涵盖从基础研究到药物设计等更多领域,为蛋白质工程开辟全新的可能性。

目前,ESM3 已通过 API 推出公开测试版,使科学家能够通过编程或基于浏览器的交互式 app 来设计蛋白质。科学家们可以通过免费学术访问层使用 EvolutionaryScale Forge API,也可以使用开放模型的代码和权重。

参考资料:

https://mp.weixin.qq.com/s/RcH3i0hZ3O08odbMYFk5Hw

文章已获权利转载,若需二次转载,请联系原作者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
穿白制服的空姐

穿白制服的空姐

喜欢历史的阿繁
2025-10-22 07:37:49
“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

妍妍教育日记
2025-11-18 19:53:15
开拓者队记:罗威预计要轮休,杨瀚森成球迷唯一兴奋点!

开拓者队记:罗威预计要轮休,杨瀚森成球迷唯一兴奋点!

爱体育
2025-11-19 20:50:16
恋情实锤?霍启山携女星娜然出席弟弟婚礼,二人全程形影不离

恋情实锤?霍启山携女星娜然出席弟弟婚礼,二人全程形影不离

山河月明史
2025-11-19 16:28:05
模特大赛15号选手夺冠引争议,组委会最新回应:她是太太组冠军,带资进组是谣言

模特大赛15号选手夺冠引争议,组委会最新回应:她是太太组冠军,带资进组是谣言

先锋新闻
2025-11-19 16:47:56
向高市早苗提问日本议员吐露:听到她的回答,我心想“糟了”,不敢接着问下去

向高市早苗提问日本议员吐露:听到她的回答,我心想“糟了”,不敢接着问下去

环球网资讯
2025-11-19 16:29:32
中方3项反制直击要害,面对2.2万亿损失,日本政府终于坐不住了

中方3项反制直击要害,面对2.2万亿损失,日本政府终于坐不住了

博览历史
2025-11-18 23:23:34
没想到,高市早苗涉华言论风波没完,矢野浩二因一个举动口碑暴涨

没想到,高市早苗涉华言论风波没完,矢野浩二因一个举动口碑暴涨

负面黑洞
2025-11-19 15:04:06
吴艳妮:对不起,谢谢支持我的你们 也许老天还在考验我吧

吴艳妮:对不起,谢谢支持我的你们 也许老天还在考验我吧

劲爆体坛
2025-11-19 22:50:03
南部战区、东部战区、中部战区、西部战区相继发声!

南部战区、东部战区、中部战区、西部战区相继发声!

每日经济新闻
2025-11-19 13:55:09
随着中国香港1-2出局+印度垫底,亚洲杯24强定20席:国足早早晋级

随着中国香港1-2出局+印度垫底,亚洲杯24强定20席:国足早早晋级

侃球熊弟
2025-11-19 03:22:46
不是玄学!明日十月一寒衣节,最旺自己的4件事,别忘了告诉家人

不是玄学!明日十月一寒衣节,最旺自己的4件事,别忘了告诉家人

阿龙美食记
2025-11-19 01:16:03
第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

南宫一二
2025-11-19 10:43:00
台湾名师区桂芝大声质问和痛斥国民党“反共”、丧失“中国”党魂

台湾名师区桂芝大声质问和痛斥国民党“反共”、丧失“中国”党魂

文史旺旺旺
2025-11-18 19:36:13
随着山东3-2爆冷河北,全运会女团金牌诞生,孙颖莎2届获四枚银牌

随着山东3-2爆冷河北,全运会女团金牌诞生,孙颖莎2届获四枚银牌

侃球熊弟
2025-11-19 20:03:19
一个奇怪的现象:50岁以后的人,能活到90岁的,基本上50岁的时候,就戒掉了这3件蠢事,尤其是最后一件事!

一个奇怪的现象:50岁以后的人,能活到90岁的,基本上50岁的时候,就戒掉了这3件蠢事,尤其是最后一件事!

东林夕亭
2025-11-19 08:41:35
排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

我爱英超
2025-11-19 07:10:18
高建民同志逝世,中央有关领导同志以不同方式表示哀悼

高建民同志逝世,中央有关领导同志以不同方式表示哀悼

新京报
2025-11-19 19:41:30
霍启仁妻子家世曝光是泰国首富,才貌双全配得上霍家比郭晶晶不差

霍启仁妻子家世曝光是泰国首富,才貌双全配得上霍家比郭晶晶不差

查尔菲的笔记
2025-11-18 12:45:06
国足新帅上任3把火:拒绝足协“塞人”,30岁老将出局,提拔小将

国足新帅上任3把火:拒绝足协“塞人”,30岁老将出局,提拔小将

丹妮观
2025-11-13 18:25:03
2025-11-20 01:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13908文章数 66278关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

本地
房产
教育
手机
公开课

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

教育要闻

1:1.5的比例录取是多少

手机要闻

荣耀GT2 Pro再次被确认:8500mAh电池+骁龙8E5,12月发布引期待!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版