网易首页 > 网易号 > 正文 申请入驻

一次生成百万序列,AI初创基于语言模型开发人造蛋白设计系统

0
分享至

近年来,人工智能(AI)已在医学、生物学及制药领域中展示出广阔的发展前景。特别是在蛋白质设计和工程领域,基于 AI 技术创建人工的蛋白质序列已经成为现实,并可能被用于治疗各种疾病。

日前,来自 AI 研究企业 Salesforce Research 、合成生物学公司 Tierra Biosciences 和加州大学旧金山分校的一组研究人员合作开展研究,创建了一个能够从头开始生成人造酶的人工智能系统 ProGen。

ProGen 系统基于 AI 语言模型发展而来,其能够以类似“遣词造句”的方式生成跨多个蛋白质家族、且功能可预测的蛋白质序列。经检测,该系统生成的酶与自然界中发现的酶同样有效,即使这些人工生成的氨基酸序列与已知的天然蛋白质之间存在显著差异。该研究论文 Large language models generate functional protein sequences across diverse families 已发表于 Nature Biotechnology 期刊。

(来源:Nature Biotechnology)

研究人员表示,该技术可能超越获得诺贝尔奖的蛋白质定向进化技术,因为其几乎可以用于加速所有种类新蛋白质的开发工作,无论是药物开发还是塑料降解酶的制备。

“人工设计的性能比受进化过程启发的设计要好得多”,论文的作者之一,来自加州大学旧金山分校药学院的生物工程和治疗科学教授 James Fraser 表示,“当前的人工智能模型能够通过学习蛋白质进化的过程从而实现创新,但其与正常的进化过程不同,人们能够调整结构以获得特定的功能。例如,让一种酶具有超乎想象的热稳定性或耐酸性等。”

73%的人造溶菌酶具备功能性

为了开发 ProGen 系统,研究团队将来自于 19,000 个家族的 2.8 亿种不同蛋白质的氨基酸序列输入机器学习模型中,同时提供相关蛋白质特性作为控制标签,然后让系统花费数周时间来“消化”这些信息。

对于蛋白质研究领域而言,最重要的信息包括蛋白质家族、生物过程和分子功能等属性。”研究人员介绍道,通过调节这些控制标签,ProGen 能够根据所需属性生成特定的蛋白质序列,并且具备前所未有的进化序列多样性。随着输入氨基酸序列和条件标签的增多,研究者能够实现对于产生蛋白质的功能控制。

在此之后,研究者向模型提供来自五个溶菌酶家族的 56,000 个序列以及相关信息,从而对模型进行微调。基于上述现有的“学习材料”,AI 模型迅速生成了一百万个序列。根据这些序列与天然蛋白质序列的相似程度及其氨基酸序列构成的自然程度,研究团队从中选择了 100 个序列展开研究。

▲图丨基于条件语言模型的人工蛋白质生成系统(来源:Nature Biotechnology)

来自五个溶菌酶家族的所有人工蛋白质均显示出活性,并且在这些人工制造的溶菌酶中,有 73% 被发现具有抗菌功能,而在天然蛋白质中仅有 59% 具备功能性。”研究人员对此表示。

在第一批进行体外筛选的 100 种蛋白质中,研究团队选择了其中五种人工蛋白质在大肠杆菌中进行重组表达,并将它们的活性与鸡蛋清溶菌酶(HEWL)进行比较。后者主要存在于鸡蛋白、以及人类的眼泪、唾液和牛奶中,具有抵御细菌和真菌的作用。

比较数据表明,五种人工蛋白质中有两种能够以相当于 HEWL 的活性分解细菌的细胞壁,尽管它们之间仅有约 18% 的序列是相同的。另一方面,存在于自然界中的已知蛋白质与这两个序列的相似度分别为 90% 和 70% 左右。

“这一结果证实,ProGen 系统不仅能够学习生成结构稳定且‘合理’的氨基酸序列,并且其产生的序列已被证实能够在现实世界中执行其预期功能。”研究人员进一步介绍道,ProGen 生成的人工蛋白质不仅可以正确表达,并且展示出与天然折叠相类似的结构。

在另一轮筛选中,研究小组发现,即使只有 31.4% 的序列与目前已知的天然蛋白质相似,这些由 AI 生成的酶类依然显示出活性。与之相比,天然蛋白质中发生任何一个突变就有可能让其停止工作。

▲图丨人工蛋白质序列与任何已知蛋白质的同一性低至 31%(来源:Nature Biotechnology)

“该项工作表明,蛋白质可以被理解为是一种由氨基酸组成的‘语言’。就像单词一个接一个地串在一起形成句子一样,氨基酸一个接一个地串在一起形成蛋白质。”研究人员对此表示,当前的人工智能技术已经可以通过研究原始序列数据来了解酶应该如何形成,在此之后,通过 X 射线晶体学测量发现,这些人造蛋白质的原子结构完全符合其设计预期,尽管这些序列此前并不存在。

开箱即用,像处理语言文本一样从头“书写”蛋白质

在生物学领域中,按需制造蛋白质可说是其中最复杂也最具影响力的工作之一。在过去几十年间,尽管蛋白质工程研究领域经过不断发展,取得了一系列举世瞩目的成就。然而,此前的蛋白质工程实验技术仍然依赖于启发式和随机突变的方式,从而选择出可用的初始序列。

2020 年,来自硅谷的 AI 技术企业 Salesforce Research 开发了 ProGen 系统,该系统基于一种用于生成英语文本的自然语言编程发展而来,以便将自然语言处理(NLP)方法应用至蛋白质属性分类,进一步研究并生成新的蛋白质。

“当前结果证实,自然语言处理技术虽然是为读写语言文本而开发的,但其也可以用于学习一些生物学的基本原理。”研究团队认为,就像 AI 生成图片或文本的方式一样。有了足够的信息,人工智能生成的内容就可以变得类似于自然界中天然存在的事物,从而难以区分。

而对于蛋白质领域而言,其体现在设计上的广度就更加庞大。仅以溶菌酶为例,其长度最多约为 300 个氨基酸左右,但是考虑到有 20 种天然氨基酸作为制造“单元”,那么制造一个溶菌酶就存在大约 20300 种搭配。考虑到这种近乎于无限的制造可行性,使用 AI 技术轻松、快速地推动蛋白质设计工作就显得迫在眉睫。

“当你使用大量数据训练 AI 模型时,它们对于结构和制造规则方面表现出十分强大的学习能力,”Salesforce Research 的人工智能研究总监、该论文的通讯作者 Nikhil Naik 对此介绍道,“人工智能了解哪些‘单词’可以同时出现,以及它们组合在一起的可行性。”

▲图丨Profluent Bio 创始人 Ali Madani(来源:Profluent Bio)

该研究的通讯作者之一、基于 AI 技术的蛋白质设计公司 Profluent Bio 创始人 Ali Madani 博士此前曾在 Salesforce Research 担任研究科学家。任职期间,他领导了该公司的机器学习研究计划,并且担任 ProGen moonshot 的架构师,从而推进了蛋白质设计的生成建模项目。2022 年,他与加州大学旧金山分校教授 James Fraser 等人合作创立了 Profluent Bio,以跨学科合作的方式推动 AI 设计蛋白质工作的研究进展。

Madani 认为,“这种开箱即用、从头开始生成功能性蛋白质的能力表明人们正在进入蛋白质设计的新时代。其为蛋白质开发工程师提供了一种多功能的新工具,我们期待看到该技术在各种疾病治疗应用领域中的下一步发展。”

总体而言,该项研究突出了人工智能语言模型在蛋白质设计和工程中的潜力,使用深度学习语言模型对蛋白质进行精确的从头设计将在生物学、医学和环境问题中展示出发展前景。不过,研究人员同时指出,在使用 AI 语言模型进行蛋白质设计和制造时,必须考虑伦理影响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球市场开启无差别抛售,历史复盘:冲突后股市、原油、黄金怎么走

全球市场开启无差别抛售,历史复盘:冲突后股市、原油、黄金怎么走

第一财经资讯
2026-03-04 15:45:15
为什么老二总是比老大聪明?网友:资源要和老大共享,没有独宠过

为什么老二总是比老大聪明?网友:资源要和老大共享,没有独宠过

夜深爱杂谈
2026-03-02 20:00:15
别车、竖中指、故意刹车……上海高速一司机故意别车后报警,反倒把自己“送进去”了,浦东警方:罚款350元、记9分,寻衅滋事行政拘留!

别车、竖中指、故意刹车……上海高速一司机故意别车后报警,反倒把自己“送进去”了,浦东警方:罚款350元、记9分,寻衅滋事行政拘留!

纵相新闻
2026-03-03 20:32:07
炸场实锤!苹果最便宜Mac定名MacBook Neo,4000元档香到犯规

炸场实锤!苹果最便宜Mac定名MacBook Neo,4000元档香到犯规

数码Antenna
2026-03-04 11:30:45
英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

始于初见见
2026-03-02 19:33:23
伊朗战事升级,对中国5大产业影响深远,普通人别只看热闹

伊朗战事升级,对中国5大产业影响深远,普通人别只看热闹

触摸史迹
2026-03-02 21:14:00
伊朗首都德黑兰传出爆炸声

伊朗首都德黑兰传出爆炸声

界面新闻
2026-03-04 08:37:19
黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

查尔菲的笔记
2025-12-16 15:14:06
1968年,暴徒冲进研究所,打死46岁两弹一星元勋姚桐斌,下场如何

1968年,暴徒冲进研究所,打死46岁两弹一星元勋姚桐斌,下场如何

谈史论天地
2026-02-26 07:41:42
老舅:舅妈下线后劲好大,老舅这辈子娶到舅妈这样的女人,真幸运

老舅:舅妈下线后劲好大,老舅这辈子娶到舅妈这样的女人,真幸运

我是张小富
2026-01-09 23:45:57
霍尔木兹海峡受阻 沙特阿美启动红海出口替代路线

霍尔木兹海峡受阻 沙特阿美启动红海出口替代路线

智通财经
2026-03-04 10:52:08
“91女神”琪琪堪称该系列知名度最高的女生,男方只给自己打码

“91女神”琪琪堪称该系列知名度最高的女生,男方只给自己打码

挪威森林
2026-03-02 14:18:46
面对现实,美军司令慌了!公开直言:中国卫星太强了,必须得反击

面对现实,美军司令慌了!公开直言:中国卫星太强了,必须得反击

起喜电影
2026-03-04 13:34:59
舒淇在节目里第一次承认,她和冯德伦为要孩子已经折腾了整整九年

舒淇在节目里第一次承认,她和冯德伦为要孩子已经折腾了整整九年

南权先生
2025-12-05 16:25:34
中东刚乱,日本先急了,日媒警告,若伊朗难存活,日本GDP会掉3%

中东刚乱,日本先急了,日媒警告,若伊朗难存活,日本GDP会掉3%

通文知史
2026-03-03 23:55:03
美国和西班牙又打起来了,美以伊大战最终打垮的可能是北约

美国和西班牙又打起来了,美以伊大战最终打垮的可能是北约

罗富强说
2026-03-04 14:48:02
2026一路旺到底的三个生肖:不是靠运气,而是“对了节奏”!

2026一路旺到底的三个生肖:不是靠运气,而是“对了节奏”!

毅谈生肖
2026-03-04 12:33:20
重罚!曝吕迪格连续膝击最高应禁赛12场,巴萨旧将:被皇马抢劫了

重罚!曝吕迪格连续膝击最高应禁赛12场,巴萨旧将:被皇马抢劫了

夏侯看英超
2026-03-04 02:12:13
青海省西宁经济技术开发区管委会原副主任刘云洲被查

青海省西宁经济技术开发区管委会原副主任刘云洲被查

界面新闻
2026-03-04 16:04:03
伊朗的终极计划出炉,很妙!美国转头向中国摊牌,连说两个“不”

伊朗的终极计划出炉,很妙!美国转头向中国摊牌,连说两个“不”

探史
2026-03-04 12:50:53
2026-03-04 16:24:49
生辉
生辉
专注于生命科学
4127文章数 3436关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

哈梅内伊次子被指将"接班" 母亲妻儿妹妹妹夫均遇难

头条要闻

哈梅内伊次子被指将"接班" 母亲妻儿妹妹妹夫均遇难

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

谈扩内需等 人大新闻发布会回应这些热点

汽车要闻

续航更长/实用性升级 方程豹钛3/钛7闪充版3月5日亮相

态度原创

本地
数码
健康
亲子
军事航空

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

数码要闻

铠侠G2 VE10固态硬盘首测:PCIe 5.0旗舰性能新标杆

转头就晕的耳石症,能开车上班吗?

亲子要闻

新年快乐,祝大家健康平安,心想事成

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

无障碍浏览 进入关怀版