网易首页 > 网易号 > 正文 申请入驻

Science:AI模拟5亿年生物进化,创造了一种「前所未有」的蛋白质

0
分享至

蛋白质是生物体中非常重要的功能性分子,它们的形成过程经过了数十亿年的自然选择和进化。在这一过程中,蛋白质的序列和结构经过无数次随机突变,并通过生物系统的选择机制进行筛选,最终形成那些具有特定生物学功能的蛋白质

近年来,随着深度学习和语言模型(LM)的发展,科学家们开始尝试将这些工具应用于理解生物系统,尤其是蛋白质

今天,Science 杂志发表了一项重要研究成果,展示了如何利用语言模型来生成和推理蛋白质序列、结构和功能,并提出了一个名为 ESM3 的多模态生成式模型。该模型不仅能够生成功能性蛋白质,还能够模拟超过 5 亿年的进化过程,生成与自然界已知蛋白序列不同的全新蛋白质。

ESM3 模型由人工智能初创公司 Evolutionary Scale 研发,旨在帮助科学家理解、构思和创造蛋白质。在这项工作中,研究人员通过 ESM3 设计了一个新的绿色荧光蛋白(GFP),其基因序列与已知荧光蛋白的差异巨大,如果通过天然荧光蛋白的生物进化,则需要超过 5 亿年左右的时间。

这意味着,语言模型不仅可以解读自然进化中积累的生物数据,还能通过分析进而生成新型生物分子,开辟蛋白质设计和药物开发的新路径。

AI 解码生物语言

生物体本质上是可编程的。

这是因为自然界的每个生物体都共享相同的遗传密码,构成生命物质基础的蛋白质就是仅由 20 种氨基酸组成。也因此,有人将其比作生命的“字母表”。

生物体中复杂的蛋白质信息蕴含着深层的生物学规律和演化历史。近年来,科学家们通过对基因组序列和蛋白质结构的测序,积累了大量的蛋白质数据,包括数十亿条序列和数亿个结构信息。

随着 AI 技术的发展,科学家们开始尝试利用深度学习模型,如大语言模型(LLM),将这些遗传信息“解码”,以揭示蛋白质序列中隐藏的深层模式和逻辑,并通过这些模式推断、设计全新的蛋白质结构和功能。

当前,已有多个语言模型(如 ProtBERT、ProtGPT)证明了蛋白质序列中的模式能够被语言模型“解码”,从而可以帮助理解其功能。这一领域的研究还表明,随着模型规模的扩大,语言模型的能力和准确性也随之提升。

为此,研究人员使用了超过 31.5 亿条蛋白质序列2.36 亿个蛋白质结构,以及 5.39 亿个带有功能注释的蛋白质数据来训练 ESM3 模型。该模型总共有三种不同的规模,分别为 14 亿、70 亿和 980 亿参数。

实验表明,随着模型参数规模的增加,ESM3 在生成能力和表示学习上的性能有显著提升,特别是在生成蛋白质结构时,980 亿参数的模型表现出超越现有模型的强大能力。

作为该领域的前沿成果,ESM3 不仅仅是一个传统的序列生成模型,而是一个多模态生成模型,能够同时处理蛋白质的序列、三维结构和功能

ESM3 还展示了其在多种生成任务上的卓越性能。ESM3 使用了一种名为“生成掩码语言模型”的方法,在输入中对蛋白质的序列、结构和功能进行随机掩码,然后通过模型推理生成缺失的部分。

(来源:Evolutionary Scale)

研究人员通过随机掩码并生成序列和结构,对比生成结果与真实蛋白质的匹配情况,发现模型能够生成高质量的蛋白质序列和结构,其与真实结构的平均差异仅为 0.5Å

此外,研究表明,ESM3 能够通过不同的提示生成具有目标功能的蛋白质,这为蛋白质设计带来了高度灵活性。与传统的三维空间中的复杂建模方法不同,ESM3 将三维结构离散化为 token,这使得它能够与序列和功能信息一同被输入模型进行处理。这种方法避免了复杂的三维空间扩散架构,使得生成过程更加高效、可控。

生成需 5 亿年进化的荧光蛋白

为了展示了 ESM3 模型在生成全新蛋白质方面的巨大潜力,研究人员尝试选择绿色荧光蛋白进行挑战。

绿色荧光蛋白在生物学研究中是非常重要的工具,用于标记和跟踪细胞内的分子与结构。然而,现有的荧光蛋白大多数来自自然界,且其突变通常限制在已有序列周围,很难大幅度改变其序列。在少数情况下,利⽤⾼通量实验和机器学习,科学家仅能够引⼊至多 40-50 个突变(即 80% 的序列同源性),同时保留蛋白的荧光功能。

(来源:Evolutionary Scale)

为了突破这一瓶颈,研究人员通过对 ESM3 模型进行特定的功能提示,尝试生成生成一个全新的绿色荧光蛋白,要求该蛋白的序列与已知的绿色荧光蛋白序列相似性较低,但仍要保持其荧光特性。

首先,研究人员定义了一个 229 个氨基酸长的蛋白质序列,其中包含了与绿色荧光蛋白荧光活性相关的关键氨基酸,研究人员还提供了绿色荧光蛋白的三维信息,尤其是与形成荧光色素的活性位点相关的氨基酸残基。

ESM3 模型在接收到这些提示后,会生成一个蛋白质的三维结构,尤其是确保活性位点的氨基酸位置协调良好。然后,基于生成的结构,模型进一步推理生成合适的氨基酸序列,并尝试保持活性位点的正确结构。

在这个过程中,ESM3 不仅仅是根据已有的绿色荧光蛋白结构生成新的序列,还能够在“已知”结构的基础上进行创新,生成具有低序列相似性的新型蛋白质。

经过一系列的生成和优化步骤,研究人员获得了多个新的绿色荧光蛋白,其中一个特别的设计被命名为 esmGFP。这个全新的蛋白质与现有的荧光蛋白(如 tagRFP)之间的序列相似性为 58%,与最接近的天然蛋白(eqFP578)之间的序列差异为 107 个氨基酸,序列相似性为 53%。

研究人员还进一步验证了生成的绿色荧光蛋白是否具有实际的荧光功能。结果表明,尽管 esmGFP 发光特性有所延迟,成熟时间较长,但最终的荧光亮度与已知的绿色荧光蛋白相似,且具有稳定的荧光特性

研究人员还提供了时间校准系统发育分析,指出如果通过现有蛋白的自然界进化过程得到 esmGFP,则需要超过 5 亿年的等效时间。

ESM3 的未来潜力与应用


ESM3 的另一个显著亮点是其在多模态条件下的生成和控制能力。

也就是说,研究人员能够通过提示特定的蛋白质结构、功能或特定的关键氨基酸,生成满足这些条件的新型蛋白质。例如,模型能够生成具有特定功能位点的蛋白质,同时保持整体结构的完整性。

此外,通过组合不同的提示,模型也能够生成符合复杂要求的蛋白质。例如,研究人员提示蛋白质的二级结构和功能关键词,并生成了与这些提示高度一致的蛋白质。

ESM3 模型的这种提示响应能力和可控特性,使得它在蛋白质设计领域具有高度实用价值,尤其是在生成与现有已知蛋白质具有显著差异的新型蛋白质方面。

在 ESM3 模型的帮助下,研究人员不仅能够设计出新型的绿色荧光蛋白,还能在设计中创新,突破自然进化的局限。这为未来蛋白质工程、合成生物学和药物开发等领域提供了新的可能性,也为蛋白质的设计和功能验证提供了更加高效的工具。

例如,与自然进化相比,ESM3 能够大大加速蛋白质设计的速度,并生成在自然界中无法轻易获得的新蛋白质,而这对于基础研究和应用研究来说都是巨大的突破。

另外,在药物设计领域中,生成具有特定功能的蛋白质是一个重要的研究方向,而通过 ESM3,研究人员能够设计出符合特定靶点的蛋白质,减少实验验证的时间和成本

而在合成生物学领域中,ESM3 能够为开发新的合成途径提供帮助,生成具备新功能的酶或代谢途径。

研究人员还指出,随着模型规模和数据量的进一步增加,ESM3 有潜力生成更加复杂和创新的蛋白质。未来,ESM3 的应用可能涵盖从基础研究到药物设计等更多领域,为蛋白质工程开辟全新的可能性。

目前,ESM3 已通过 API 推出公开测试版,使科学家能够通过编程或基于浏览器的交互式 app 来设计蛋白质。科学家们可以通过免费学术访问层使用 EvolutionaryScale Forge API,也可以使用开放模型的代码和权重。

作者:木木

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾被吹上天的轨道插座,为什么还没流行就“凉”了?原因很简单

曾被吹上天的轨道插座,为什么还没流行就“凉”了?原因很简单

家居设计师苏哥
2026-04-17 13:47:40
只剩4天,解放军准时下通牒,赖清德将登机离台,萧旭岑判断准确

只剩4天,解放军准时下通牒,赖清德将登机离台,萧旭岑判断准确

谛听骨语本尊
2026-04-18 23:26:32
23岁小伙耳朵黑痣癌变离世,从激光点痣到全身骨转移仅1年

23岁小伙耳朵黑痣癌变离世,从激光点痣到全身骨转移仅1年

未曾青梅
2026-04-18 22:59:05
广州女子与前夫发生关系后报警称被侵犯,儿子同室未听见反抗

广州女子与前夫发生关系后报警称被侵犯,儿子同室未听见反抗

观世记
2026-04-18 15:55:41
不想访华了?特朗普突然召回驻华大使,财长公开骂中国!

不想访华了?特朗普突然召回驻华大使,财长公开骂中国!

荆楚寰宇文枢
2026-04-17 23:05:39
前队友考文顿:哈登常去夜店豪饮嗨到四五点 早上七点仍准时训练

前队友考文顿:哈登常去夜店豪饮嗨到四五点 早上七点仍准时训练

罗说NBA
2026-04-18 22:28:46
被年轻人的“极简养娃”惊到了,不花啥钱,孩子该有的都有!

被年轻人的“极简养娃”惊到了,不花啥钱,孩子该有的都有!

一口娱乐
2026-04-16 11:17:35
医生告诫:一旦吃上他汀药,3件事就不要做了,别拿身体开玩笑

医生告诫:一旦吃上他汀药,3件事就不要做了,别拿身体开玩笑

汪医生健康百科
2026-04-18 19:55:03
张雪机车,全球订单狂飙

张雪机车,全球订单狂飙

第一财经资讯
2026-04-18 18:42:46
周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

鹤羽说个事
2026-04-02 23:00:01
巴西女子发现丈夫正在强奸未成年的女儿,女子一怒之把丈夫杀死

巴西女子发现丈夫正在强奸未成年的女儿,女子一怒之把丈夫杀死

西楼知趣杂谈
2026-04-18 15:11:24
欧盟对华计划曝光:钢铁关税翻倍至50%,还盯上了中国核心技术

欧盟对华计划曝光:钢铁关税翻倍至50%,还盯上了中国核心技术

空天力量
2026-04-18 17:10:08
中方:不认同伊朗对海湾国家的袭击,不认同封锁霍尔木兹海峡的做法

中方:不认同伊朗对海湾国家的袭击,不认同封锁霍尔木兹海峡的做法

南方都市报
2026-04-17 10:31:41
如何更理性客观看待“雷军北京到上海1313Km续航测试?”

如何更理性客观看待“雷军北京到上海1313Km续航测试?”

新浪财经
2026-04-18 19:09:53
比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

芳芳历史烩
2025-12-25 20:32:52
暴雨Ⅳ级预警!重庆将迎今年首场暴雨

暴雨Ⅳ级预警!重庆将迎今年首场暴雨

上游新闻
2026-04-18 11:45:13
“最佳血压”是多少?医生:过65岁以后,血压最好控制在这个范围

“最佳血压”是多少?医生:过65岁以后,血压最好控制在这个范围

宝哥精彩赛事
2026-04-18 09:40:38
卫冕冠军险象环生!赵心童5-4险胜海菲尔德,状态低迷敲响警钟

卫冕冠军险象环生!赵心童5-4险胜海菲尔德,状态低迷敲响警钟

十一体育馆
2026-04-18 21:43:48
贵州36岁刘伟去世,长得帅气在银行上班,嘴唇明显发紫,妈妈哭晕

贵州36岁刘伟去世,长得帅气在银行上班,嘴唇明显发紫,妈妈哭晕

社会日日鲜
2026-04-18 13:15:41
男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

诡谲怪谈
2025-04-01 17:37:59
2026-04-19 00:43:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

伊朗革命卫队向油轮开火 伊朗最高领袖发声

头条要闻

伊朗革命卫队向油轮开火 伊朗最高领袖发声

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

家居
房产
数码
艺术
军事航空

家居要闻

法式线条 时光静淌

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

数码要闻

华为版的科技春晚来了!Pura 90/Pura X Max下周发:阵容豪华

艺术要闻

波兰美女奥拉·卡兹马雷克,绝美风情让人惊艳!

军事要闻

解放军护卫舰与外舰缠斗20小时 细节披露

无障碍浏览 进入关怀版