网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白

0
分享至

本文提出"蛋白质动态词表"机制,融合深度生成模型与天然蛋白片段结构先验,在功能导向设计中同步提升结构可折叠性与功能对齐度。相比SOTA模型,ProDVa仅使用0.04%训练数据即可生成更多可稳定折叠的序列,且性能几乎无损。当前评估基于计算模拟,尚未经湿实验验证,未来需跨领域合作推进。


论文标题: Protein Design with Dynamic Protein Vocabulary 论文链接: https://arxiv.org/pdf/2505.18966 代码链接: https://github.com/sornkL/ProDVa

基于功能的蛋白质设计任务(function-guided protein design)旨在根据功能描述或关键词,生成符合的蛋白质序列。其核心挑战在于,如何确保从蛋白质序列庞大空间中设计的序列既满足给定功能,也能正确折叠成稳定的 3D 结构(即可折叠性好)。

近年来,蛋白质语言模型(PLMs)在该任务上展现了巨大潜力,可以根据上下文描述以氨基酸为词元生成符合功能的全新蛋白质序列。但是,PLMs 面临两个核心挑战:

  1. 20 种标准氨基酸(以及分词器自动切分的连续片段)构成的词元缺乏明确的生物学意义;

  2. 解码生成的蛋白质序列虽然符合给定功能,但可折叠性差。

现代生物信息学既存在 SwissProt [1] 等经过大规模专家标注且湿实验实证的蛋白质数据库,也存在 InterPro [2][3] 等工具能够提取完整序列中包含的功能片段。例如,LLDELLQKGYGLGSGISL 天然蛋白质片段(IPR30659)已被实证为一个 SecY 保守位点(conserved site)。

受传统蛋白质设计借鉴已知天然结构的启发,来自华东师范大学、复旦大学、中国电信人工智能研究院(TeleAI)的研究团队提出了一个新问题:PLMs 能否在设计过程中充分利用天然蛋白质功能片段来得到功能易满足、结构更合理的新蛋白质?

LLMs 动态词表生成技术 [4] 首先将任意短语表征嵌入静态词表的语义空间,然后在每个解码时刻自由选择生成词元(对应氨基酸 Token)或一整个短语(对应天然功能片段)。

结合该技术,本文提出了新型 PLM 架构 ProDVa,根据文本功能描述,动态地从蛋白质数据库中检索功能相近的氨基酸序列,通过构建对应的蛋白质动态词表(Dynamic Protein Vocabulary)设计满足要求功能的蛋白质。

一、思路验证:天然片段是提升结构稳定性的关键

作者首先通过一个简单实验验证核心直觉:蛋白质由 20 种标准氨基酸组成,其中连续的功能子序列(如结构域、活性位点等)被称为片段(fragment),它们往往决定结构与功能。

实验发现,即便将天然蛋白质片段随机插入到随机生成的氨基酸序列中(Random+),所得序列在自然蛋白的分布与可折叠性上均显著优于完全随机生成(Random)。


(a) 不同方法生成的蛋白质在ESM C embedding空间中的UMAP可视化,灰色表示天然蛋白质的分布。(b) pLDDT (predicted Local Distance Difference Test)性能对比,该指标衡量单个残基局部结构的预测准确度。 (c) PAE (Predicted Aligned Error)性能对比,该指标评估不同残基之间相对位置的预测准确度。黄色散点(Random+)比红色散点(Random)分布更广,更接近天然蛋白质,且在结构评估指标上表现显著更好。

这有力证明了:采用天然片段协助设计极具潜力。进一步,在实际应用中,如何按照用户需要,有目的地选择和拼接这些天然片段,是 ProDVa 关注的核心问题。

二、蛋白质动态词表实现智能组装

为了实现对蛋白质片段的智能组装,ProDVa 包含三个核心组件:

  1. 文本语言模型 (Text Language Model):理解用户输入的自然语言功能描述。

  2. 蛋白质语言模型 (Protein Language Model):根据输入功能描述,自回归地设计氨基酸序列。

  3. 片段编码器 (Fragment Encoder):理解天然蛋白质片段的表示。

核心创新在于蛋白质动态词表(Dynamic Protein Vocabulary)。传统 PLMs 的词表仅含 20 种标准氨基酸或分词器自动切分的连续片段,而 ProDVa 在生成时可动态引入由天然片段组成的临时词表。推理流程如下:

  1. 根据功能描述,从支持文档库检索最相似的 K 个蛋白质;

  2. 提取其中的功能片段形成任务相关的候选集;

  3. 生成时,模型可在每一步选择生成单个氨基酸 Token,或直接生成一个完整片段。

为让模型正确使用片段,训练中引入三个目标:

  1. 下一个 Token/片段预测:保证序列生成连贯;

  2. 片段类型预测:区分结构域、活性位点等类型,让编码器理解片段的生物学意义;

  3. 片段描述匹配:通过对比学习,使片段表示与功能描述在向量空间中对齐。

三、实验结果

在基于功能关键词和复杂文本描述的两类蛋白质设计任务中,ProDVa 均表现优异:

  1. 结构可折叠性显著提升:与SOTA 模型 Pinal 相比,pLDDT > 70 的比例提升 7.38%,PAE < 10 的比例提升 9.62%,意味着生成的蛋白质更可能折叠成稳定的 3D 结构。

  2. 高效的数据利用能力:在功能对齐性能几乎不损失(ProTrek Score 差0.1%)的情况下,训练数据量仅为 Pinal 的 0.04%(约 71.2 万对),显著降低训练成本。

  1. 通用性强:在无条件生成任务中,同样优于所有基线,相比 SOTA 模型 Pinal,pLDDT > 70 的比例提升 22.76%,PAE < 10 的比例提升 11.81%。

四、总结与展望

本文提出了“蛋白质动态词表”这一新机制,将深度生成模型与天然蛋白质片段的结构先验相结合,在基于功能的蛋白质设计任务中显著提升了结构可折叠性,同时保持高功能对齐度。

相比现有 SOTA 模型,ProDVa 在仅使用 0.04% 训练数据的情况下,几乎不降低功能对齐性能,却能生成更多可稳定折叠的蛋白质序列。

当然,当前所有评估方法都是使用计算机模拟的指标进行衡量,尚未通过湿实验验证其是否真的能在生物体内发挥预想的功能。我们期待未来更多跨领域合作推动其落地与验证。

参考文献

[1] Amos Bairoch and Rolf Apweiler. The swiss-prot protein sequence database and its supplement trembl in 2000. Nucleic acids research, 28(1):45–48, 2000.

[2] Matthias Blum, Antonina Andreeva, Laise Cavalcanti Florentino, Sara Rocio Chuguransky, Tiago Grego, Emma Hobbs, Beatriz Lazaro Pinto, Ailsa Orr, Typhaine Paysan-Lafosse, Irina Ponamareva, et al. Interpro: the protein sequence classification resource in 2025. Nucleic Acids Research, 53(D1):D444–D456, 2025.

[3] Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, et al. Interproscan 5: genome-scale protein function classification. Bioinformatics, 30(9):1236–1240, 2014.

[4] Yanting Liu, Tao Ji, Changzhi Sun, Yuanbin Wu, and Xiaoling Wang. Generation with dynamic vocabulary. arXiv preprint arXiv:2410.08481, 2024.

来源:公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘亦菲.竟也有这么汹涌的照片,太奔放了

刘亦菲.竟也有这么汹涌的照片,太奔放了

乡野小珥
2026-01-24 08:39:44
木头姐年度重磅报告:五大平台融合,引爆全球经济的大加速时代

木头姐年度重磅报告:五大平台融合,引爆全球经济的大加速时代

DeepTech深科技
2026-01-23 17:28:51
苹果与英特尔重启合作!2028年开始代工iPhone的A22芯片

苹果与英特尔重启合作!2028年开始代工iPhone的A22芯片

快科技
2026-01-24 12:58:13
董洁在雪地直播卖羊绒大衣 全程没吼没催 只轻声讲设计 两小时卖8亿

董洁在雪地直播卖羊绒大衣 全程没吼没催 只轻声讲设计 两小时卖8亿

乡野小珥
2026-01-24 03:04:26
破防了!老外打卡中国后集体吐槽:欧美生活简直像活在上个世纪

破防了!老外打卡中国后集体吐槽:欧美生活简直像活在上个世纪

霁寒飘雪
2026-01-24 12:03:30
台湾统一方式或出乎意料?特朗普才发现:中国的高明,自己学不来

台湾统一方式或出乎意料?特朗普才发现:中国的高明,自己学不来

风笛悠扬声
2026-01-24 11:24:26
河南小伙娶小18岁伊拉克媳妇,认识4天就结婚,彩礼花了3000万!

河南小伙娶小18岁伊拉克媳妇,认识4天就结婚,彩礼花了3000万!

凡知
2026-01-17 10:15:33
原来马斯克没说错,全球抢的不是芯片,而是中国20万一台的变压器

原来马斯克没说错,全球抢的不是芯片,而是中国20万一台的变压器

云上乌托邦
2026-01-22 13:10:38
女朋友腿粗,男生有多幸福???

女朋友腿粗,男生有多幸福???

健身S叔
2026-01-22 13:52:59
澳网第7比赛日:王欣瑜冲击16强

澳网第7比赛日:王欣瑜冲击16强

大眼瞄世界
2026-01-24 09:13:09
长沙警方通报:谭某皓等一批涉案人员,已被采取刑事强制措施

长沙警方通报:谭某皓等一批涉案人员,已被采取刑事强制措施

新京报政事儿
2026-01-23 22:03:18
米其林上海工厂改扩建二期工程正式投产,总投资30亿元

米其林上海工厂改扩建二期工程正式投产,总投资30亿元

澎湃新闻
2026-01-23 18:21:10
真核来了!全队等他归位!克雷桑抵琼倒计时,新人合影笑容已就位

真核来了!全队等他归位!克雷桑抵琼倒计时,新人合影笑容已就位

体坛小鹏
2026-01-24 10:27:38
摊牌了!帕尔默亲承曼联心迹 切尔西留不住这位曼市游子?

摊牌了!帕尔默亲承曼联心迹 切尔西留不住这位曼市游子?

奶盖熊本熊
2026-01-24 05:40:04
保姆在我家8年口罩从未摘过,我提前下班见她摘下口罩后,我惊呆

保姆在我家8年口罩从未摘过,我提前下班见她摘下口罩后,我惊呆

娱乐圈见解说
2026-01-24 09:26:19
今年财运翻身!这3个生肖苦尽甘来,赚钱比以前轻松多了!

今年财运翻身!这3个生肖苦尽甘来,赚钱比以前轻松多了!

毅谈生肖
2026-01-24 11:36:31
河北25岁小伙迎娶36岁新娘被网友吐槽 一看嫁妆网友理解了

河北25岁小伙迎娶36岁新娘被网友吐槽 一看嫁妆网友理解了

阿SIR观察
2026-01-24 08:00:18
据说:市面上90%的烤鸭都是用这种做的?你还吃吗?

据说:市面上90%的烤鸭都是用这种做的?你还吃吗?

今朝牛马
2026-01-08 18:32:41
江苏为什么叫苏大强,从农村就能看出与外省的区别。真自豪!

江苏为什么叫苏大强,从农村就能看出与外省的区别。真自豪!

特特农村生活
2026-01-24 09:37:40
潜伏境外十载,行走于刀尖之上,他便是国安首次公开披露的英雄烈士吴建国

潜伏境外十载,行走于刀尖之上,他便是国安首次公开披露的英雄烈士吴建国

桃烟读史
2026-01-13 23:59:18
2026-01-24 13:27:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

美国公布最新国防战略 对"台湾"只字未提

头条要闻

美国公布最新国防战略 对"台湾"只字未提

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

手机
旅游
数码
亲子
公开课

手机要闻

vivo V70 Elite手机曝光:骁龙8s Gen 3芯片,6500mAh电池

旅游要闻

2400道“新春大餐”邀您马上入川 游客逛自贡灯会体验“万物皆可成灯”

数码要闻

AMD锐龙9 9950X3D2处理器在EEC注册

亲子要闻

预告|识别儿童复杂疾病的早期信号

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版