网易首页 > 网易号 > 正文 申请入驻

抗体、工业酶到基因剪刀设计,AI生物大模型ProGen3重构生命科学

0
分享至

编辑 | 萝卜皮

蛋白质是分子尺度上生命体的功能单元,负责从催化生化反应到识别外来病原体等各种活动。蛋白质的三维结构与功能活性,均可以通过 20 种氨基酸结构单元排列组合所形成的序列来描述。

蛋白质设计的挑战在于如何设计新的氨基酸序列,使其能够执行进化过程中未曾出现的功能,例如疾病的治疗方法或超稳定的工业酶。

这个设计空间大得惊人——假设将研究范围限制在 100 个氨基酸组成的短小蛋白质,研究者所需要筛选的序列条数将超过宇宙中原子的数量。很明显,科学家需要考虑另一种策略——生成式蛋白质语言模型 (PLM)。

近期,声称要用「AI 书写生物学」的生物计算公司 ProFluent 推出了 ProGen3 系列稀疏生成式 PLM,并提出了计算优化的缩放定律,用于扩展到 46B 的参数模型(基于 1.5T 氨基酸标记进行预训练)。

ProGen3 的预训练数据取自 Profluent Protein Atlas v1 的优化数据分布,该数据集包含 34 亿个全长蛋白质。

并且,研究人员首次在湿实验室中评估模型规模对 PLM 生成的序列的影响,他们发现更大的模型可以为更广泛的蛋白质家族生成可行的蛋白质。

「这并非纯粹的学术探索。我们最终会根据为社会创造实际价值的能力来评估 Profluent 的成果。扩展蛋白质语言模型实现了从生成溶菌酶等模型酶到设计像 OpenCRISPR 这样复杂、功能强大的基因组编辑器的能力飞跃。」ProFluent 团队表示。

该研究以「Scaling unlocks broader generation and deeper functional understanding of proteins」为题,于 2025 年 4 月 16 日发布在BioRxiv预印平台。

论文链接:https://www.biorxiv.org/content/10.1101/2025.04.15.649055v1

准确地说,ProGen3 是一套用于蛋白质设计的前沿生成语言模型。它不仅允许用户生成新的全长蛋白质,还能重新设计现有蛋白质的特定结构域以增强其功能。它利用稀疏架构实现了 4 倍加速,且不牺牲建模性能。

为了训练 ProGen3,研究人员构建了 Profluent Protein Atlas v1 (PPA-1),这是一个精心挑选的资源,包含 34 亿个全长蛋白质和 1.1 万亿个氨基酸标记,是目前为止最全面的高质量蛋白质数据集。他们优化了 PPA-1 以用于训练语言模型,并利用它将 ProGen3 最佳扩展至基于 1.5 万亿个标记训练的 460 亿个参数模型。

图示:确定最佳数据分布和缩放定律来训练稀疏生成 PLM ProGen3。(来源:论文)

接下来,研究团队探究了 ProGen3 模型的规模如何影响其生成真实蛋白质的能力。ProGen3-46B 产生的多样性比 ProGen3-3B 高 59%,比 ProGen3-339M 高 198%(以 30% ID 下独特的世代数衡量)。这表明,随着模型规模的扩大,它们能够更真实地呈现更广泛的生命多样性背后的生物学原理。

图示:与较小的模型相比,较大的模型可以为更加多样化的家族产生真实可用的蛋白质。(来源:论文)

研究人员使用有限的实验室数据来比对 ProGen3 的活性、表达、稳定性和结合亲和力等特性,证明比对可以优化任何规模的模型。当然,规模更大的模型获益最大,比对后 ProGen3-46B 与实验测量的蛋白质适应度的相关性从 33.1% 提高到 67.3%。

为了进一步验证 ProGen3 在现实应用中的强大实力,研究人员设计了一系列挑战任务测试 ProGen3。

挑战一:设计发现一流的抗体

在过去的二十年里,抗体已成为治疗多种疾病的关键药物。然而,治疗性抗体的发现、工程化和优化是一个耗时且昂贵的过程,通常需要动物免疫和/或多轮实验筛选。

研究人员想测试他们的蛋白质设计平台,看看它能否一次性生成在多个属性上与已获批准疗法相媲美的抗体。

于是,该团队选择了20个不同的靶点,这些靶点的已获批准药物已累计治疗了 700 万患者,并产生了 6600 亿美元的销售额。

对于每个目标,该模型生成的抗体通过计算预测可以与已批准的治疗方法精确结合相同的表位,但构成不同的物质成分。这些设计与任何已知的针对相同靶点的结合剂的同源性中位数最多为 80%,并且所有设计的每个互补决定区 (CDR) 环都存在氨基酸差异。

图示:针对 CD38 和 PKal 靶点的抗体设计。(来源:论文)

除了计算评估之外,研究人员还通过湿实验测试了针对 CD38 和 PKal 靶点的抗体设计,涵盖了从结合到可开发性等多种属性。该团队的许多设计不仅达到了针对相同表位的高度优化疗法的亲和力水平,而且还显示出显著提升的可开发性。相比之下,传统方法往往会因为优化一个属性而牺牲掉另一个属性。

设计的抗体与其治疗性对应物在整个可变区 [包括互补决定区 (CDR)] 上均存在差异。具体来说,即使 CDR 环中的一个突变也可能完全破坏结合。由于这种敏感性,目前的主要方法仅限于非 CDR 突变,并力求与母体序列仅存在几个突变(同一性 >98%)。

这些结果表明 ProGen3 能够针对各种潜在药物靶点设计高质量的抗体候选物,并且拥有探索序列和适应度景观的强大能力,甚至触及了抗体结合界面等高度敏感的相互作用。

挑战二:紧凑型基因编辑器

基因组编辑技术有望改变医学和农业,其主要途径是重新利用 CRISPR 等天然防御系统。这些系统的简单性和稳健性使其得到了广泛的应用,但在具体的应用领域仍存在许多挑战,例如,来自化脓性链球菌的 Cas9 核酸酶由 1,368 个残基组成,需要 100 个核苷酸的引导 RNA,这已经接近单个 AAV 递送系统的包装极限。

鉴于这些问题,研究人员设计了大量可编程基因编辑器,它们高度紧凑,仅含有 592 个残基,并在湿实验室中展示了功能性能。

传统 CRISPR-Cas 系统无法做到这一点,但是该团队将这些紧凑蛋白与其他效应子和组织特异性启动子结合起来,用单个 AAV 靶向之前无法靶向的靶点。

图示:生成可用于基因编辑应用的超紧凑蛋白质。(来源:论文)

总体而言,研究人员证明了,规模更大的生成式PLM是处理各种实际蛋白质设计任务的更实用的工具。持续的模型扩展可以利用呈指数级增长的蛋白质序列数据量,同时采用更复杂的稀疏性实现来保持高效。

「我们的结果表明,ProGen3-46B 已具备推进定制蛋白质设计愿景的条件,可用于药物发现、酶工程和工业生产流程优化等领域。」研究人员表示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

丫头舫
2026-05-01 22:17:59
上映多时票房只有零元,一个观众都没有,五一档最惨电影诞生了

上映多时票房只有零元,一个观众都没有,五一档最惨电影诞生了

影视高原说
2026-05-01 08:47:30
山西猥亵当事人法官已被免职

山西猥亵当事人法官已被免职

界面新闻
2026-05-02 10:23:49
全球卖疯的无人机,北京为何禁售?

全球卖疯的无人机,北京为何禁售?

碳基打工人
2026-05-01 02:41:19
新周期下的价值锚点:广汽传祺如何重构家庭出行的“长期资产”?

新周期下的价值锚点:广汽传祺如何重构家庭出行的“长期资产”?

智谷趋势
2026-05-01 18:18:23
焕然一新的广汽传祺,完成从造好车到提供美好出行生活的战略升维

焕然一新的广汽传祺,完成从造好车到提供美好出行生活的战略升维

汽车公社
2026-04-29 14:11:28
上海男篮4分惜败!结束23连胜,洛夫顿正式回归,冲击总冠军

上海男篮4分惜败!结束23连胜,洛夫顿正式回归,冲击总冠军

体坛瞎白话
2026-05-02 08:03:09
王健林时代落幕,输给了这个靠赵薇起家、截胡许家印的湖北富豪!

王健林时代落幕,输给了这个靠赵薇起家、截胡许家印的湖北富豪!

历史伟人录
2026-04-29 17:41:50
万科这颗雷,炸出了地铁公司的真面目

万科这颗雷,炸出了地铁公司的真面目

梳子姐
2026-05-01 21:31:42
我国急需改名的5座城市,起名太随意,连本地人也吐槽名字有点土

我国急需改名的5座城市,起名太随意,连本地人也吐槽名字有点土

长风文史
2026-04-30 22:08:50
再创历史!张雪机车匈牙利排位赛双车“惊艳”,53号64号进前10位

再创历史!张雪机车匈牙利排位赛双车“惊艳”,53号64号进前10位

火山詩话
2026-05-02 06:40:58
很是焦灼,东部三组系列赛均将迎来抢七大战

很是焦灼,东部三组系列赛均将迎来抢七大战

懂球帝
2026-05-02 11:37:04
年薪5470万,又一次受伤倒下!一轮耻辱的系列赛,8换1交易亏大了

年薪5470万,又一次受伤倒下!一轮耻辱的系列赛,8换1交易亏大了

篮球扫地僧
2026-05-02 11:20:17
7-7!吴宜泽第2阶段遭5连鞭后顽强逼平艾伦,袋口僵局1小时创纪录

7-7!吴宜泽第2阶段遭5连鞭后顽强逼平艾伦,袋口僵局1小时创纪录

我爱英超
2026-05-02 06:24:08
上海申花遭暴击!盖伊左脚跟腱断裂,将接受手术,或长期缺席

上海申花遭暴击!盖伊左脚跟腱断裂,将接受手术,或长期缺席

奥拜尔
2026-05-02 10:36:52
黑八!黑八没了!末节8分!史上最荒唐季后赛

黑八!黑八没了!末节8分!史上最荒唐季后赛

篮球实战宝典
2026-05-02 10:04:33
橘子洲头单人照事件。

橘子洲头单人照事件。

贴小君
2026-05-01 13:23:12
美专家无奈承认:我们没打赢伊朗,但是中国、俄罗斯、朝鲜都赢了

美专家无奈承认:我们没打赢伊朗,但是中国、俄罗斯、朝鲜都赢了

风笛悠扬声
2026-05-01 14:12:25
中国划定红线,叫停“洗澡式出海”

中国划定红线,叫停“洗澡式出海”

中国网
2026-05-02 08:35:02
惨无人道!以军用军犬强奸巴勒斯坦囚犯,全程录像,受害者:想死

惨无人道!以军用军犬强奸巴勒斯坦囚犯,全程录像,受害者:想死

史行途
2026-05-01 12:29:39
2026-05-02 11:52:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1292文章数 227关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

德国学者:欧盟现在必须"拿出点骨气" 挺身对抗特朗普

头条要闻

德国学者:欧盟现在必须"拿出点骨气" 挺身对抗特朗普

体育要闻

坎宁安大逆转:像看到了2006-08的勒布朗

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

艺术
旅游
教育
数码
公开课

艺术要闻

色块与笔触的激情之旅!

旅游要闻

看北京|北海万佛楼油菜花盛放,古建花海绘春景

教育要闻

“凭啥男士优先?”女生不满专业要求,被嘲:防的就是你这种人!

数码要闻

英特尔为酷睿Ultra 9 386H解锁LPDDR5X-9600支持,雷蛇导入

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版