网易首页 > 网易号 > 正文 申请入驻

Science:用AI模拟5亿年的进化,创造出全新荧光蛋白,重新点亮生物学

0
分享至

撰文丨王聪

编辑丨王多鱼

排版丨水成文

大约 35 亿年前,地球从化学反应中诞生了最初的生命。大自然发明了 RNA、蛋白质和 DNA 这些生命的核心分子,并创造了核糖体这一分子工厂,它能根据基因组中的指令合成蛋白质。

蛋白质是奇妙的动态分子,具有令人难以置信的功能——从驱动运动的分子引擎,到捕获光并将其转化为能量的光合作用机器,构建细胞内部骨架的支架,与环境相互作用的复杂传感器,以及运行生命程序和操作系统的信息处理系统等等,蛋白质关乎疾病与健康,许多救命药物本身就是蛋白质。

生物学是用一种人类尚未理解的“语言”所书写。如果我们能够学会利用生物学的“语言”来读写,那么,生物学将变得可编程,反复试验将被逻辑取代,费力的实验将被模拟所替代。

2024年诺贝尔化学奖授予了 AI 蛋白质设计先驱David Baker教授以及 AI 蛋白质结构预测工具 AlphaFold 的开发者Demis HassabisJohn Jumpe,他们的研究为我们利用 AI 来理解、想象和创造蛋白质奠定了基础。

近日,AI 初创公司EvolutionaryScale的研究团队在国际顶尖学术期刊Science上发表了题为:Simulating 500 million years of evolution with a language model 的研究论文。论文标题非常简单直接,甚至是夸张——用语言模型模拟 5 亿年的进化

该研究开发了一种人工智能语言模型——ESM3,ESM3 在思维链(Chain of Thought)的提示下生成了一种全新的绿色荧光蛋白——esmGFP,其在进化上与天然的绿色荧光蛋白(GFP)差异巨大,与已知的最接近的荧光蛋白只有 58% 的序列同源性,大自然需要 5 亿年时间才能进化出这种新型绿色荧光蛋白,也就是说,ESM3 模拟了 5 亿年进化,创造了一种新型绿色荧光蛋白。

研究团队表示,ESM3是一款向生命科学领域的前沿人工智能语言模型,也是第一个同时对蛋白质的序列、结构和功能进行推理的生成式人工智能模型,它提升了我们利用生命密码进行编程和创造的能力,让我们能够像设计建筑、制造机器和微芯片以及编写计算机程序一样,从底层原理出发来改造生物学。

2023 年 3 月,Alexander Rives领导的 Meta 蛋白质折叠团队在Science期刊发表了题为:Evolutionary-scale prediction of atomic-level protein structure with a language model 的研究论文【2】。

该研究开发了一种名为ESMFold的蛋白质语言模型,能够快速、准确、大规模预测蛋白质结构,仅花费两周时间就预测了超过 6.17 亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。

然而,Meta 公司不久后解散了蛋白质折叠团队,Alexander Rives与团队成员创立了EvolutionaryScale,2024 年 6 月,EvolutionaryScale 完成了高达1.42 亿美元的种子轮融资,致力于开发 AI 工具以深化对生物学的理解,进而造福人类健康和社会 。

这项新研究所展示的ESM3模型,训练自地球上多达数十亿的天然蛋白质,ESM3 也是当今世界上训练于最高通量 GPU 集群之一的前沿生物学生成式人工智能模型,它处于参数、算力和数据的最前沿,训练时使用了超过 1×1024 次浮点运算和 980 亿参数。

对蛋白质的序列、结构和功能进行推理

语言模型是基于离散单元或标记进行操作的。为了创建一个能够对蛋白质的三个基本生物学特性——序列结构功能——进行推理的模型,必须将三维结构和功能转化为离散的字母表,并构建一种将每个三维结构都写成字母序列的方法。这使得 ESM3 能够大规模训练,从而释放出新兴的生成能力。ESM3 的词汇表在同一个语言模型中将序列、结构和功能联系起来。

ESM3 是通过一个简单的目标进行训练的。对于每种蛋白质,提取其序列、结构和功能,进行标记化处理,并部分屏蔽。ESM3 的任务是利用受自然语言处理模型启发的掩码语言建模目标来预测掩码位置。为了完成这项任务,ESM3 必须从进化规模的数据中深入理解序列、结构和功能之间的联系。当在数十亿种蛋白质和数百亿个参数的规模上进行扩展时,ESM3 学会了模拟进化(simulate evolution)。

鉴于通过实验确定的结构和功能注释的蛋白质的数量有限,研究团队通过添加数亿个合成数据点来扩充 ESM3 的多模态训练数据集,这些合成数据点包括对各种序列的预测结构和功能。

ESM3 是一个多轨道 Transformer,可以对蛋白质序列、结构和功能进行联合推理

编程生物学

ESM3 作为一个生成式模型,它使生物学可编程,可以根据提示生成新的蛋白质。科学家可以与 ESM3 互动,引导它进行各种应用创造。ESM3 可以通过从一组完全掩码的 tokens 开始生成蛋白质,并迭代解掩,直到所有位置都被填充。由于序列、结构和功能都在训练过程中被掩码和预测,ESM3 可以在所有三种模态中生成。这个生成过程也可以由序列、结构和功能的部分或全部规范的任何组合来指导。

ESM3 的多模态推理能力使科学家能够以前所未有的控制程度产生新的蛋白质。例如,可以提示该模型结合结构、序列和功能,为 PETase 的活性位点提出潜在框架,PETase 是一种降解聚对苯二甲酸乙二醇酯(PET)塑料的酶。

规模带来的能力涌现

ESM3 在规模扩大时展现出解决复杂蛋白质设计任务的能力。其中一项任务是原子协调,即根据指定氨基酸在序列中相距甚远但在结构中彼此靠近的原子位置的提示来设计蛋白质。这衡量了模型在结构生成时达到原子级精度的能力,对于设计功能性蛋白质至关重要。

ESM3 解决这些任务的能力会随着规模的扩大而提升,也就是说,ESM3 解决更难的生成问题的能力取决于其规模。

ESM3 进一步通过使用类似于在大语言模型(LLM)中应用的人类反馈强化学习(RLHF)的对齐方法进行反馈改进。ESM3 能够自我改进,而非从人类那里获得反馈,它能对自身生成的内容质量进行评估。来自实验室实验或现有实验数据的反馈也可用提升其生成能力。

ESM3 模型生成蛋白质的能力随着规模的扩大而提升

模拟 5 亿年的进化过程

绿色荧光蛋白(GFP)及其荧光蛋白家族,是自然界中最美丽的蛋白质之一。下村修Martin Chalfie钱永健因发现和应用 GFP 而获得了 2008 年诺贝尔化学奖。

GFP 是生物学中应用最广泛的工具之一,被誉为“照亮了生命科学”。GFP 含有一种荧光发色团,其能吸收一个短波长的单色光子,捕获其中部分能量,并以不同颜色、更长波长的新光子形式释放其余能量。天然的 GFP 能够吸收蓝光并发出绿光。

GFP 是一种能自我转变的蛋白质,其结构是一个由 11 条链组成的桶状结构,中间有一条螺旋贯穿其中,在 GFP 折叠完成后,会自发地发生反应。在 GFP 的中心,构成蛋白质链的原子重新排列成新的结构,形成一个荧光发色团。这种机制是独一无二的,没有其他已知的蛋白质能自发地从自身结构中形成荧光发色团,这表明即使对大自然来说,产生荧光也并非易事。

科学家们在自然界中发现了许多 GFP 的变体,并在实验室中对这些天然蛋白质进行了改造,创造出了新的 GFP 变体。最早的人工 GFP 变体是通过制造少量能增强亮度或改变颜色的基因突变而发现的。借助更先进的实验室技术和机器学习方法,如今已能够将这种搜索范围扩大,从而找到与原始序列差异高达 20% 的 GFP 变体。但大多数功能性 GFP 突变并非来自蛋白质工程,而是通过探索自然界获得的。

产生新的荧光蛋白的进化过程需要漫长的岁月,在遥远的过去,大自然无意中发明了第一种荧光蛋白。天然荧光蛋白从远古时期的祖先序列历经数亿年的演化,才变成了如今的模样。

基于天然 GFP 核心区域几个氨基酸残基的结构,ESM3 通过一系列推理生成了新型 GFP 的候选结构。研究团队在首次实验中测试了生成的 96 种 GFP,发现其中一些会发出荧光,包括一种与自然界中的任何蛋白质都相去甚远的蛋白质——B8,但其亮度只有天然 GFP 的五十分之一,而且其发色团成熟需要一周时间,而不是一天之内,但它在序列空间的一个未被探索的区域中呈现出功能信号。在 B8 的基础上进行思维链推理,ESM3 又生成了一组 96 种蛋白质,其中有几个荧光强度与天然 GFP 相似,最亮的一个位于 C10 孔中,研究团队将其命名为——esmGFP

esmGFP 与自然界中发现的最接近的荧光蛋白相比存在 96 处突变(在 229 个氨基酸中,序列相似度为 58%)。通过类似于对自然界中新发现的蛋白质进行的分析,研究团队估计 esmGFP 相当于由进化模拟器完成的超过 5 亿年的自然演化。

由ESM3模型生成的新的绿色荧光蛋白——esmGFP

据悉,EvolutionaryScale公司正在开发 ESM3 的专用版本,以解锁前沿药物设计领域的应用,助力科学家创造新型药物。

EvolutionaryScale公司表示,相信未来的人工智能将帮助我们在最基础的层面上理解生命的复杂系统,做出改变我们对生物学认知的新发现,助力我们找到疾病治疗方法,并构建一个更可持续的世界。

https://www.science.org/doi/10.1126/science.ads0018

https://www.science.org/doi/10.1126/science.ade2574

https://www.evolutionaryscale.ai/blog/esm3-release

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

可读
2026-06-25 23:21:52
田中碧哭成泪人!日媒:多人伤病已踢出风采 海外球迷赞誉一片

田中碧哭成泪人!日媒:多人伤病已踢出风采 海外球迷赞誉一片

颜小白的篮球梦
2026-06-30 09:20:58
四年前为救儿子卖光家产,如今世界杯两扑点球成了国民英雄

四年前为救儿子卖光家产,如今世界杯两扑点球成了国民英雄

球事百科吖
2026-06-30 09:23:01
Shams:哈登拒绝执行4230万球员选项 正与骑士洽谈多年续约合同

Shams:哈登拒绝执行4230万球员选项 正与骑士洽谈多年续约合同

罗说NBA
2026-06-29 21:19:07
陈熠为何2-3被逆转出局? 赛后陈熠毫不客气说出原因, 说得很实在

陈熠为何2-3被逆转出局? 赛后陈熠毫不客气说出原因, 说得很实在

宝哥精彩赛事
2026-06-30 13:33:36
和孔令辉分手12年,被黑人驼肩上的马苏,终是为她的选择买了单

和孔令辉分手12年,被黑人驼肩上的马苏,终是为她的选择买了单

青橘罐头
2026-06-30 14:19:08
绝经后性生活怎么办?频率多少合适?

绝经后性生活怎么办?频率多少合适?

喵咪文化
2026-06-30 06:44:07
普京:如果西方认为乌克兰正在获胜,那他们就等着吧

普京:如果西方认为乌克兰正在获胜,那他们就等着吧

观察者网
2026-06-29 09:10:10
网红峡谷5人溺亡,“涨水后几乎没有撤退空间”

网红峡谷5人溺亡,“涨水后几乎没有撤退空间”

中国新闻周刊
2026-06-29 22:44:39
李若彤发文悼念

李若彤发文悼念

都市快报橙柿互动
2026-06-29 17:52:52
网友用X Money给马斯克转25美元:获本人回应后全网跟风打钱

网友用X Money给马斯克转25美元:获本人回应后全网跟风打钱

快科技
2026-06-29 11:37:24
传奇回归!板爷执教上海 面对升降级机遇 能否闯入CBA?

传奇回归!板爷执教上海 面对升降级机遇 能否闯入CBA?

你看球呢
2026-06-30 11:10:38
高市狂不了了,日本天皇发出警告,接班人已浮现,对华态度不简单

高市狂不了了,日本天皇发出警告,接班人已浮现,对华态度不简单

青烟小先生
2026-06-17 17:00:13
热死也不买中国空调?欧洲人嘴上骂着,德媒:中国正“摧毁”欧洲

热死也不买中国空调?欧洲人嘴上骂着,德媒:中国正“摧毁”欧洲

阿器谈史
2026-06-30 05:38:19
月捐扣款失败会上征信?韩红基金会再起波澜,有捐赠人称陷入恐慌

月捐扣款失败会上征信?韩红基金会再起波澜,有捐赠人称陷入恐慌

火山詩话
2026-06-29 06:01:27
亿分之一:中国共产党为什么能之青春答案

亿分之一:中国共产党为什么能之青春答案

中国日报网
2026-06-30 11:28:16
美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

一种观点
2026-06-29 15:21:59
法国队主帅德尚在母亲去世后回国,讽刺杂志一幅漫画引发激烈批评

法国队主帅德尚在母亲去世后回国,讽刺杂志一幅漫画引发激烈批评

梦仙境aa
2026-06-30 09:31:38
好友爆料赵丽颖真实近况,被传复婚带娃仅一个月,原来冯绍峰当初没撒谎

好友爆料赵丽颖真实近况,被传复婚带娃仅一个月,原来冯绍峰当初没撒谎

可乐谈情感
2026-06-30 08:03:38
以色列:打死了伊斯梅尔·马斯里

以色列:打死了伊斯梅尔·马斯里

政知新媒体
2026-06-30 08:22:31
2026-06-30 16:08:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9648文章数 145112关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

网红养生烟含有害物 涉事企业负责人系襄阳市政协常委

头条要闻

网红养生烟含有害物 涉事企业负责人系襄阳市政协常委

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

谁懂啊家人们!爹味和班味一点都没,这台底盘最硬国产大猎装太上头!

态度原创

本地
艺术
手机
时尚
军事航空

本地新闻

贵州小城的新目标:举办“村超”世界杯!

艺术要闻

乔治·莫兰迪简洁的静物画,色彩看着太舒服了!

手机要闻

小米晚上有新机、vivo明天有新机、OPPO适配iPhone、荣耀有喜事

“复古波点”又流行回来了!夏天简单穿就很时髦

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版