网易首页 > 网易号 > 正文 申请入驻

超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列

0
分享至

新智元报道

编辑:好困 Aeneas

【新智元导读】这家成立三年的小初创公司,首次利用深度学习语言模型合成出了自然界中不存在的全新蛋白质,引爆蛋白质设计革命。

人工智能的应用,已经极大地加速了蛋白质工程的研究。

最近,加州伯克利的一家初出茅庐的初创公司再次取得了惊人的进步。

科学家们采用类似ChatGPT的蛋白质工程深度学习语言模型——Progen,首次实现了AI预测蛋白质的合成。

这些蛋白质不仅与已知的完全不同,相似度最低的甚至只有31.4%,但和天然蛋白一样有效。

现在,这项工作已经正式发表于Nature子刊。

这个实验也表明,自然语言处理虽然是为读写语言文本而开发的,但它也可以学习生物学的一些基本原理。

比肩诺奖的技术

对此,研究人员表示,这项新技术可能会变得比定向进化(获得诺贝尔奖的蛋白质设计技术)更加强大。

「它将通过加快开发可用于从治疗剂到降解塑料等几乎所有用途的新蛋白质,为有50年历史的蛋白质工程领域注入活力。」

这家公司名叫Profluent,由前Salesforce AI研究负责人创立,已获得900万美元的启动资金,用于建立一个集成的湿实验室,并招募机器学习科学家和生物学家。

以往,在自然界中挖掘蛋白质,或者调整蛋白质到所需功能,都十分费力。Profulent的目标是,让这个过程变得毫不费力。

他们做到了。

Madani在采访中表示,Profulent已经设计出了多个家族的蛋白质。这些蛋白质的功能与样本蛋白(exemplar proteins)一样,因此是具有高活性的酶。

这项任务非常困难,是以zero-shot的方式完成的,这意味着并没有进行多轮优化,甚至根本不提供湿实验室的任何数据。

而最终设计出的蛋白质,是通常需要数百年才能进化出来的高活性蛋白质。

基于语言模型的ProGen

作为深度神经网络的一种,条件语言模型不仅可以生成语义和语法正确且新颖多样的自然语言文本,而且还可以利用输入控制标签来指导风格、主题等等。

类似的,研究人员开发出了今天的主角——ProGen,一个12亿参数的条件蛋白质语言模型。

具体来说,基于Transformer架构的ProGen通过自注意机制来模拟残基的相互作用,并且可以根据输入控制标签生成不同的跨蛋白质家族的人工蛋白质序列。

为了创建这个模型,研究人员喂了2.8亿种不同蛋白质的氨基酸序列,并让它「消化」了几周的时间。

接着,他们又用五个溶菌酶家族的56,000个序列以及关于这些蛋白质的信息,对模型进行了微调。

Progen的算法与ChatGPT背后的模型GPT3.5类似,它学习到了蛋白质中氨基酸排序的规律,以及它们与蛋白结构和功能的关系。

很快,模型就生成了一百万个序列。

根据与天然蛋白质序列的相似程度,以及氨基酸「语法」和「语义」的自然程度,研究人员选择了100个进行测试。

其中,有66个产生了与消灭蛋清和唾液中细菌的天然蛋白质类似的化学反应。

也就是说,这些由AI生成的新蛋白质也可以杀死细菌。

更进一步,研究人员选择了反应最强烈的五种蛋白质,并将它们加入到大肠杆菌的样本中。

其中,有两种人工酶能够分解细菌的细胞壁。

通过与鸡蛋白溶菌酶(HEWL)进行比较可以发现,它们的活性与HEWL相当。

随后,研究人员又用X射线进行了成像。

尽管人工酶的氨基酸序列与现有的蛋白质有高达30%的差异,二者之间也只有18%是相同的,但它们的形状却与自然界的蛋白质相差无几,而且功能也可以与之媲美。

除此之外,对于高度进化的天然蛋白质来说,可能只需一个小小突变就会让它停止工作。

但研究人员在另一轮筛选中发现,在AI生成的酶中,即使只有31.4%的序列与已知蛋白质相同,也能表现出相当的活性以及类似的结构。

蛋白质设计,进入新时代

可以看到,ProGen的工作方式与ChatGPT很类似。

ChatGPT通过学习海量数据,可以参加MBA和律师考试、撰写大学论文。

而ProGen通过学习氨基酸如何组合成2.8亿个现有蛋白质的语法,学会了如何生成新的蛋白质。

在采访中,Madani表示,「就像ChatGPT学习英语之类的人类语言一样,我们是在学习生物和蛋白质的语言。」

「人工设计蛋白质的性能比受进化过程启发的蛋白质要好得多,」论文作者之一、加州大学旧金山分校药学院生物工程和治疗科学教授James Fraser说。

「语言模型正在学习进化的各个方面,但它与正常的进化过程不同。我们现在有能力调整这些特性的产生,以获得特定效果。比如,让一种酶具有令人难以置信的热稳定性,或嗜好酸性环境,或者不会与其他蛋白质相互作用。」

早在2020年,Salesforce Research就开发了ProGen。它基于自然语言编程,最初用于生成英语文本。

从之前的工作中,研究者们了解到,人工智能系统可以自学语法和单词的含义,以及其他使写作井井有条的基本规则。

「当你用大量数据训练基于序列的模型时,它们在学习结构和规则上的表现非常强大,」Salesforce Research人工智能研究总监、论文的资深作者Nikhil Naik博士说,「它们会了解哪些词可以同时出现,该怎样组合。」

「现在,我们已经证明了ProGen有能力生成新的蛋白质,并进行了公开发布,所有人都可以在我们的基础上进行研究。」

作为蛋白质的溶菌酶虽然非常小,最多有约300个氨基酸。

但是有20种可能的氨基酸,就有20^300种可能的组合。

这比古往今来的所有人类,乘以地球上沙粒的数量,再乘以宇宙中的原子数量的积还要多。

考虑到这近乎无限的可能性,Progen能够如此轻松地设计出有效的酶,确实很了不起。

Profluent Bio创始人、Salesforce Research前研究科学家Ali Madani博士说:「开箱即用地从头开始生成功能性蛋白质的能力,表明我们正在进入蛋白质设计的新时代。」

「这是所有蛋白质工程师都可以使用的多功能新工具,我们期待看到它被应用于治疗。」

与此同时,研究人员仍在继续改进ProGen,试图突破更多的限制和挑战。

其中之一便它非常地依赖数据。

「我们已经探索了通过加入基于结构的信息来改善序列的设计,」Naik说,「我们还在研究当你没有太多关于某个特定蛋白质家族或领域的数据时,如何提高模型的生成能力。」

值得注意的是,还有一些初创公司也在尝试相似的技术,比如Cradle,以及自生物技术孵化器Flagship Pioneering的Generate Biomedicines,不过这些研究都还未经过同行评审。

参考资料:

https://endpts.com/exclusive-profluent-debuts-to-design-proteins-with-machine-learning-in-bid-to-move-past-ai-sprinkled-on-top/

https://www.newscientist.com/article/2356597-ai-has-designed-bacteria-killing-proteins-from-scratch-and-they-work/

https://www.sciencedaily.com/releases/2023/01/230126124330.htm

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
盒马“粉木耳”擦边惹争议!网友:不是第一次了!

盒马“粉木耳”擦边惹争议!网友:不是第一次了!

LOGO研究所
2026-05-26 09:42:59
特斯拉官宣:FSD正式登陆中国!月租499至699元,买断时代结束了

特斯拉官宣:FSD正式登陆中国!月租499至699元,买断时代结束了

沙雕小琳琳
2026-05-26 02:12:37
原来没房贷车贷的加持可以这么可怕!网友:难怪领导一直催我结婚

原来没房贷车贷的加持可以这么可怕!网友:难怪领导一直催我结婚

三农老历
2026-05-26 12:49:09
人民日报证实莫言的警告:人真的会被气死!70%的重病跟情绪有关,这3个致命伤害往往来自3种身边人!

人民日报证实莫言的警告:人真的会被气死!70%的重病跟情绪有关,这3个致命伤害往往来自3种身边人!

职场火锅
2026-05-06 21:52:40
不是政变,是处决!

不是政变,是处决!

安安说
2026-05-26 11:04:20
警惕未成年发生性关系,网友说19岁男子跟13岁女孩发生关系获刑!

警惕未成年发生性关系,网友说19岁男子跟13岁女孩发生关系获刑!

灯锦年
2026-05-25 12:40:14
哇塞!八块腹肌的杨瀚森!

哇塞!八块腹肌的杨瀚森!

柚子说球
2026-05-25 23:00:33
上海市奉贤区一栋独栋大别墅295万拍卖,被房东408万又买下来

上海市奉贤区一栋独栋大别墅295万拍卖,被房东408万又买下来

天天话事
2026-05-26 09:41:31
最应被铭记的中国矿难事故:死亡数全球第一,震惊国内外

最应被铭记的中国矿难事故:死亡数全球第一,震惊国内外

网易新闻出品
2026-05-25 13:17:51
策略:明天5月27日的预判出来了,全面减仓之前,我要说两句!

策略:明天5月27日的预判出来了,全面减仓之前,我要说两句!

一担金
2026-05-26 11:52:15
太炸裂!网红白冰出轨聊天记录曝光,看完真辣眼睛

太炸裂!网红白冰出轨聊天记录曝光,看完真辣眼睛

动物奇奇怪怪
2026-05-26 14:12:57
太辣眼了!网红白冰,出轨聊天记录曝光, 其中到底有多炸裂?

太辣眼了!网红白冰,出轨聊天记录曝光, 其中到底有多炸裂?

川渝视觉
2026-05-24 20:57:57
一枚纽扣,挖出潜伏在总参大院十年的国民党王牌特工

一枚纽扣,挖出潜伏在总参大院十年的国民党王牌特工

老范谈史
2026-05-08 02:36:29
教授研究“赵太爷用哪只手打了阿Q一嘴巴”,是吃饱了撑的吗?

教授研究“赵太爷用哪只手打了阿Q一嘴巴”,是吃饱了撑的吗?

亮见
2026-05-25 19:07:12
老公偷偷改我刹车系统,我装不知道,第二天小姑子跑来找我借车

老公偷偷改我刹车系统,我装不知道,第二天小姑子跑来找我借车

千秋文化
2026-05-14 20:19:05
没有先进光刻机也能造出高端芯片,华为发表的“韬(τ)定律”是什么?

没有先进光刻机也能造出高端芯片,华为发表的“韬(τ)定律”是什么?

每日经济新闻
2026-05-25 13:46:09
惨遭屠杀!夺冠概率出炉!NBA三国杀!谁被低估了?

惨遭屠杀!夺冠概率出炉!NBA三国杀!谁被低估了?

篮球盛世
2026-05-26 15:29:43
一波未平一波又起,徐巧芯向王光慈开火,王光慈曝光重大医嘱

一波未平一波又起,徐巧芯向王光慈开火,王光慈曝光重大医嘱

DS北风
2026-05-26 09:06:05
​埃里克森随沃尔夫斯堡降级,前曼联中场遭遇生涯转折

​埃里克森随沃尔夫斯堡降级,前曼联中场遭遇生涯转折

乐道足球C
2026-05-26 15:57:43
中国铝行业爆单:下一个“煤炭”大周期?

中国铝行业爆单:下一个“煤炭”大周期?

市值Observation
2026-05-26 09:56:03
2026-05-26 17:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15311文章数 66890关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

健康
旅游
时尚
公开课
军事航空

几百块一瓶的外泌体精华,涂脸上是“智商税”吗?

旅游要闻

深挖西游文化 河南济源以经典赋能文旅融合发展

全网刷屏,华语乐坛“嫡长女”终于来了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊在阿巴斯港附近短暂交火 交战过程披露

无障碍浏览 进入关怀版