网易首页 > 网易号 > 正文 申请入驻

首次在实验室合成由 AI 预测的蛋白质,蛋白质语言模型 ProGen

0
分享至

编辑 | 绿萝

人工智能已经将蛋白质工程研究的时间缩短了数年。深度学习语言模型在各种生物技术应用中显示出前景,包括蛋白质设计和工程。

现在,来自 Salesforce Research、Tierra Biosciences 和加州大学的研究团队首次在实验室中合成了由 AI 模型预测的蛋白质,并发现它们与天然对应物一样有效。他们开发出一种名为 ProGen 的蛋白质工程深度学习语言模型。ProGen 接受了来自公开的已测序天然蛋白质数据库中的 2.8 亿个原始蛋白质序列的训练,从头开始生成人工蛋白质序列。最新方法有望用于研制新药。

科学家表示,这项新技术可能比获得诺贝尔奖的蛋白质设计技术定向进化更强大,它将通过加速可用于几乎任何事物的新蛋白质的开发,这些新蛋白质几乎可以用于从治疗到降解塑料的任何领域。从而为已有 50 年历史的蛋白质工程领域注入活力。

该研究以「Large language models generate functional protein sequences across diverse families」为题,于 2023 年 1 月 26 日发布在《Nature Biotechnology》上。

论文链接:https://www.nature.com/articles/s41587-022-01618-2

蛋白质工程的传统方法是对天然蛋白质序列进行迭代诱变和选择,以鉴定具有所需功能和结构特性的蛋白质。相比之下,合理或从头设计蛋白质的方法旨在提高创造具有所需特性的新蛋白质的效率和精度。

基于结构的从头设计方法采用基于生物物理原理的模拟,而协同进化方法则从进化序列数据中建立统计模型,以指定具有所需功能或稳定性的新序列。结构和共同进化的方法都有一定的局限性。

最近,深度神经网络已显示出作为蛋白质科学和工程的生成和判别模型的前景。它们学习复杂表示的能力对于有效地利用指数级增长的多样化和相对未注释的蛋白质数据来源可能是至关重要的——公共数据库包含数百万个未对齐的原始蛋白质序列

ProGen:蛋白质语言模型

受到基于深度学习的自然语言模型的成功启发,该研究团队开发了 ProGen,这是一种蛋白质语言模型,在数百万个原始蛋白质序列上训练,可生成跨多个家族和功能的人造蛋白质。

图 1:使用条件语言建模的人工蛋白质生成。(来源:论文)

ProGen 通过学习在给定原始序列中过去的氨基酸的情况下,预测下一个氨基酸的概率来迭代优化,没有明确的结构信息或成对协同进化假设。ProGen 以这种无监督的方式从一个大型、多样的蛋白质序列数据库中进行训练,学习了一种通用的、域独立的蛋白质表示,它包含局部和全局结构基序,类似于学习语义和语法规则的自然语言模型。训练后,ProGen 可以提示从头开始为任何蛋白质家族生成全长蛋白质序列,与天然蛋白质具有不同程度的相似性。

ProGen 是一个 12 亿参数的神经网络,使用包含 2.8 亿个蛋白质序列的公开数据集进行训练。ProGen 的一个关键组成部分是条件生成,即由属性标签控制的序列生成作为语言模型的输入提供。在自然语言的情况下,这些控制标签可能是风格、主题、日期和其他实体。对于蛋白质,控制标签是蛋白质家族、生物过程和分子功能等属性,可用于公共蛋白质数据库中的大部分序列。

为了创建模型,科学家们只需将 2.8 亿种不同蛋白质的氨基酸序列输入机器学习模型,让它「消化」信息几周。然后,他们通过使用来自五个溶菌酶家族的 56,000 个序列以及有关这些蛋白质的一些上下文信息来启动模型,从而对模型进行微调。

该模型迅速生成了一百万个序列,研究团队根据它们与天然蛋白质序列的相似程度以及 AI 蛋白质的潜在氨基酸「语法」和「语义」的自然程度,选择了 100 个进行测试。

图 2:生成的人工抗菌蛋白多种多样,在该实验系统中表达良好。(来源:论文)

从头开始生成人工蛋白质序列

为了评估功能,通过无细胞蛋白合成和亲和层析来合成和纯化全长基因。在 100 种天然蛋白质的阳性对照集中,72% 的表达良好。ProGen 生成的蛋白质在所有序列同一性箱中与任何已知的天然蛋白质的表达同样好。此外,使用 bmDCA7(一种基于直接耦合分析的统计模型) 设计了人工蛋白质,bmDCA 无法适应五个溶菌酶家族中的三个,并且对其余两个蛋白质家族表现出 60% 的可检测表达(30/50 蛋白质)。这些结果表明,与一批天然蛋白质相比,ProGen 可以生成结构良好折叠的人工蛋白质,即使序列对齐大小和质量限制了替代方法的成功,也能正确表达。

在第一批由 Tierra Biosciences 进行体外筛选的 100 种蛋白质中,该团队制作了五种人工蛋白质以在细胞中进行测试,并将它们的活性与鸡蛋清中发现的一种酶(称为鸡蛋清溶菌酶,HEWL)进行比较。在人类的眼泪、唾液和牛奶中发现了类似的溶菌酶,它们可以抵御细菌和真菌。

图 3:人工蛋白质序列具有功能,同时与任何已知蛋白质的同一性低至 31%,表现出与高度进化的天然蛋白质相当的催化效率,并展示与已知天然折叠相似的结构。(来源:论文)

结果表明,ProGen 生成的蛋白质序列不仅可以很好地表达,而且可以维持跨蛋白质家族的不同序列景观的酶功能。

其中两种人工酶能够以与 HEWL 相当的活性分解细菌的细胞壁,但它们的序列彼此只有约 18% 相同。这两个序列与任何已知蛋白质的同一性约为 90% 和 70%。

天然蛋白质中的一个突变就可以使其停止工作,但在另一轮筛选中,研究小组发现,即使只有 31.4% 的序列与任何已知的天然蛋白质相似,AI 生成的酶仍显示出活性。

为了解通用序列数据集和目标蛋白质家族序列对 ProGen 生成能力的相对影响,研究人员使用分支酸变位酶(CM) 和苹果酸脱氢酶(MDH)实验测量的测定数据进行了两项消融研究。

结果表明,训练策略的两个组成部分——对通用序列数据集的初始训练和对感兴趣的蛋白质家族的微调——对最终模型性能有显着贡献。使用包含许多蛋白质家族的通用序列数据集进行训练,使 ProGen 能够学习编码内在生物学特性的通用且可转移的序列表示。对感兴趣的蛋白质家族进行微调可以引导这种表示,以提高局部序列邻域的生成质量。

正在进入蛋白质设计的新时代

Salesforce Research 的研究主管 Nikhil Naik 表示,他们的目标是证明可以利用公开可用的蛋白质数据,将大型语言模型部署到蛋白质设计问题中。「既然我们已经证明 ProGen 有能力产生新的蛋白质,我们已经公开发布了这些模型,以便其他人可以在我们的研究基础上进行构建。」

「开箱即用地从头开始生成功能性蛋白质的能力,表明我们正在进入蛋白质设计的新时代,」该论文的第一作者,Profluent Bio 创始人、Salesforce Research 前研究科学家 Ali Madani 博士说,「这是蛋白质工程师可用的多功能新工具,我们期待看到治疗应用。」

本文中描述的方法的综合代码库可在:
https://github.com/salesforce/progen上公开获得。

参考内容:

https://phys.org/news/2023-01-ai-technology-generates-proteins.html

https://spectrum.ieee.org/ai-protein-design

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视主持人突然集体落泪 工作与亲情到底谁更重要 真相让人心头一紧

央视主持人突然集体落泪 工作与亲情到底谁更重要 真相让人心头一紧

草莓解说体育
2026-03-29 05:06:39
55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

睡前讲故事
2025-12-12 13:58:11
中国下重手,AI顶会NeurIPS迅速滑跪,为禁止华为等公司参会道歉

中国下重手,AI顶会NeurIPS迅速滑跪,为禁止华为等公司参会道歉

混沌录
2026-03-28 16:12:19
农村家长晒5个儿子,被网友群嘲:送外卖都费劲,还为国效力呢?

农村家长晒5个儿子,被网友群嘲:送外卖都费劲,还为国效力呢?

今朝牛马
2026-03-27 18:23:13
疯了!特朗普要把霍尔木兹改名“特朗普海峡”

疯了!特朗普要把霍尔木兹改名“特朗普海峡”

老马拉车莫少装
2026-03-28 19:41:22
46岁张柏芝三亚被拍,那一圈“软乎乎”的肉,让网友集体破防

46岁张柏芝三亚被拍,那一圈“软乎乎”的肉,让网友集体破防

手工制作阿歼
2026-03-28 11:43:19
女排3-8名确定!庄宇珊受伤福建降级,王梦洁发文,江苏拿冠军点

女排3-8名确定!庄宇珊受伤福建降级,王梦洁发文,江苏拿冠军点

排球黄金眼
2026-03-29 00:46:54
惊天逆转!杨瀚森绝杀马刺,逆转引发广泛讨论!

惊天逆转!杨瀚森绝杀马刺,逆转引发广泛讨论!

我是阿Sen
2026-03-28 14:42:52
油价破9!骂油价涨的人不知道,越南已经涨了30%!中国有三张底牌

油价破9!骂油价涨的人不知道,越南已经涨了30%!中国有三张底牌

近史博览
2026-03-29 02:23:45
大家要做好准备,若不出意外的话,下个月,楼市或将迎来4大转变

大家要做好准备,若不出意外的话,下个月,楼市或将迎来4大转变

平说财经
2026-03-28 14:39:10
俄媒:伊朗战争迫使海湾君主们重新审视世界并与美国梦彻底告别

俄媒:伊朗战争迫使海湾君主们重新审视世界并与美国梦彻底告别

茶韵浮生
2026-03-29 05:35:58
吉林女歌手与知名男演员,宣布结婚生子

吉林女歌手与知名男演员,宣布结婚生子

新浪财经
2026-03-28 22:00:57
穿过霍尔木兹海峡

穿过霍尔木兹海峡

经济观察报
2026-03-28 18:18:18
中国已无需武统?美专家:美军白忙一场,解放军已有不战而胜之法

中国已无需武统?美专家:美军白忙一场,解放军已有不战而胜之法

有牙的兔纸
2026-02-25 00:44:28
阚清子产后首登红毯,穿最多引热议,遮肉还是怕冷?

阚清子产后首登红毯,穿最多引热议,遮肉还是怕冷?

明星爆料客
2026-03-28 16:57:14
都熟知西游记,那东游记、南游记、北游记,分别都是什么书?

都熟知西游记,那东游记、南游记、北游记,分别都是什么书?

长风文史
2026-03-27 16:31:57
邵佳一赛前霸气喊话:既要态度还要结果!张玉宁:兄弟们上去就干

邵佳一赛前霸气喊话:既要态度还要结果!张玉宁:兄弟们上去就干

念洲
2026-03-28 12:47:14
特斯拉网约车停车场被曝光,大量 Model Y 标配后摄像头清洗装置!

特斯拉网约车停车场被曝光,大量 Model Y 标配后摄像头清洗装置!

新浪财经
2026-03-27 15:53:03
苹果用户7年不换机,电池崩了后ChatGPT给了个反常识解法

苹果用户7年不换机,电池崩了后ChatGPT给了个反常识解法

硬核玩家2哈
2026-03-26 14:27:05
泽连斯基:美方正施压乌克兰撤出顿巴斯

泽连斯基:美方正施压乌克兰撤出顿巴斯

财联社
2026-03-28 22:55:19
2026-03-29 06:51:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1263文章数 226关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

家居
本地
亲子
时尚
公开课

家居要闻

曲线华尔兹 现代简约

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

亲子要闻

小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

和田曦薇一样嫩嘟嘟,这3个变美技巧你一定不能错过!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版