网易首页 > 网易号 > 正文 申请入驻

同时生成蛋白序列和结构,David Baker团队序列空间扩散新模型

0
分享至

编辑 | KX

蛋白质去噪扩散概率模型用于从头生成蛋白质骨架,但其在引导生成具有序列特异性属性和功能特性的蛋白质方面存在局限。

为了克服这一限制,华盛顿大学 David Baker 团队,开发了一种基于RoseTTAFold的序列空间扩散模型 ProteinGenerator (PG),可同时生成蛋白质序列和结构。

从噪声序列表示开始,PG 通过迭代去噪生成序列和结构对,并以所需的序列和结构蛋白质属性为指导。

研究设计了具有不同氨基酸组成和内部序列重复的耐热蛋白质和笼状生物活性肽,例如蜂毒肽。

PG 设计轨迹可以由实验序列活性数据指导,为蛋白质功能的综合计算和实验优化提供了一种通用方法。

该研究以「Multistate and functional protein design using RoseTTAFold sequence space diffusion」为题,于 9 月 25 日发布在《Nature Biotechnology》上。

论文链接:https://www.nature.com/articles/s41587-024-02395-w

蛋白质设计

蛋白质功能源于序列和结构特征的复杂相互作用;因此,设计新的蛋白质功能需要对序列和结构空间进行推理。

许多蛋白质设计方法分步对结构和序列进行采样,通常先生成蛋白质主链,然后使用逆折叠方法生成序列。

传统方法,如 Rosetta 灵活主链蛋白质设计,在结构和序列设计之间交替进行,而最近基于深度学习的方法通常先生成主链,然后使用序列设计方法,如 ProteinMPNN (MPNN),来识别折叠成给定主链的序列。在后一类方法中,去噪扩散概率模型 (DDPM) 在连续数据领域显示出相当大的前景,它允许生成受广泛结构约束的蛋白质主链。

DDPM 通过学习对受高斯噪声破坏的样本进行去噪来近似数据分布上的概率密度函数,从而能够从高斯先验中生成高质量样本;它们在蛋白质序列中的探索较少。

PG:基于 RoseTTAFold 的序列空间扩散模型

研究人员推断,在序列空间而不是结构空间中进行扩散,可以使用基于序列的特征指导设计,并可以明确地设计包含多个状态的序列。

为了能够对序列和结构特征进行调节,研究人员从 RoseTTAFold 结构预测网络开始,将其视为从输入序列和结构信息到输出序列和结构的映射,就像 RFdiffusion 的情况一样。推断 RoseTTAFold 可以适应序列空间扩散,通过对蛋白质数据库(PDB;http://www.rcsb.org/) 中的蛋白质序列进行噪声处理,并进行训练以消除噪声,同时对结构预测精度造成损失,从而确保生成的模型对序列和结构都有深入的理解。

图示:PG 概览。(来源:论文)

PG 在无条件设计准确度方面优于早期的幻觉方法,并且在从不同的高斯混合模型中采样时会生成结构多样的蛋白质。PG 很容易设计出支撑特定结构基序的蛋白质;通过 ESM 伪困惑度测量的 PG 序列质量与从 UniProt 采样的天然序列没有区别,并且明显高于使用 6.4 亿参数序列扩散模型EvoDiff生成的序列。

使用 PG 进行无条件生成可产生氨基酸组成与天然蛋白质相似的序列-结构对。

设计多状态和功能蛋白

计算模拟和实验结果表明,PG 可以轻松从头生成各种蛋白质,这些蛋白质受到各种序列域约束的影响,包括氨基酸组成偏差、重复序列对称性、生物活性肽笼和多态设计。

富含稀有氨基酸的蛋白质的设计

为了评估 PG 在 PDB 训练分布之外推理序列结构关系的能力,研究人员试图设计富含进化欠采样氨基酸的蛋白质,这些氨基酸赋予结构或功能特性。

使用此程序生成色氨酸、半胱氨酸、缬氨酸、组氨酸和蛋氨酸的高频率(20% 组成)蛋白质,其序列与天然蛋白质的序列非常不同。对生成的设计进行筛选,以获得高 AF2 置信度 (pLDDT > 90) 和自洽性 (设计的 RMSD < 2 Å),并选取 96 个进行实验表征。

图示:具有指定序列组成的蛋白质的设计。(来源:论文)

结果表明,PG 可以推理超出天然蛋白质样序列组成的序列-结构关系,从而设计具有所需序列特性的折叠、热稳定性蛋白质。

序列重复蛋白的设计

含有序列结构单元串联拷贝的重复蛋白在自然界中普遍存在,在分子识别和信号传导中起着核心作用。

PG 可以很容易地适应生成重复蛋白,只需给定重复单元的序列长度和所需的重复次数,在每个时间步长上将重复对称性应用于噪声序列分布。

图示:使用 PG 设计序列重复蛋白。(来源:论文)

研究人员通过实验表征了 74 种带螺旋帽的重复蛋白和 86 种不带螺旋帽的重复蛋白。其中,27 种带帽的重复蛋白和 10 种不带螺旋帽的重复蛋白通过 SEC 可溶且为单体,使用圆二色性评估的 8 种蛋白中有 7 种具有预期的二级结构。解析了由四螺旋束不对称单元组成的五重复单元设计的晶体结构,发现该设计具有原子精度:设计与晶体结构的 C RMSD 为整个结构 1.38 Å,不对称单元 0.47 Å。

生物活性肽笼的设计

设计活性取决于外部输入的蛋白质对于具有空间和时间控制的治疗剂和生物传感器的设计具有相当大的意义。

给定肽序列和支架长度,PG 会生成包含肽序列作为蛋白质结构组成部分的设计,预计折叠至设计的支架的折叠时间大于 85 pLDDT,RMSD 小于 2 Å。

图示:用 PG 搭建生物活性肽和内在条形码。(来源:论文)

研究使用 PG 设计了将成孔肽蜂毒肽囚禁的蛋白质,该蛋白质可在末端环的蛋白水解裂解后有条件地释放。

尽管蜂毒素在分离时处于无序状态,PG 仍能够生成蜂毒素序列呈螺旋结构的溶液,随后对其进行了实验测试。在 13 种实验表征的设计中,有 5 种通过 SEC 可溶且单分散,通过 CD 折叠成螺旋二级结构且具有热稳定性。

多状态设计

研究人员通过对有不同结构约束的扩散轨迹之间的序列对数进行平均,设计了多状态父子蛋白质三元组(multistate parent–child protein triples),其中相同的序列在父级中完整时折叠成不同的超二级结构,而不是分裂成两个子域。

为了使 PG 适应多状态设计,向 RoseTTAFold 输入了相同序列但不同结构条件信息,并将输出对数的线性组合作为下一个时间步的输入。

图示:PG 的多态设计。(来源:论文)

除了多状态设计之外,预计 PG 能够直接基于序列进行指导的生成方法,可用于在定向进化活动中生成连续几轮序列以进行实验表征。

虽然可以使用在现有实验数据上训练的分类器直接使用贝叶斯优化和其他方法生成序列,但使用这些分类器来指导 PG 扩散轨迹具有相当大的优势,即可以利用 PG 网络中表示的丰富序列结构先验信息,这增加了生成的序列折叠和发挥作用的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒:埃及求购歼20谈判有新进展,单价1亿美元?

美媒:埃及求购歼20谈判有新进展,单价1亿美元?

兵国大事
2026-02-07 18:11:44
国乒女单包揽冠亚军!王曼昱4:2击败张本美和进决赛,会师孙颖莎

国乒女单包揽冠亚军!王曼昱4:2击败张本美和进决赛,会师孙颖莎

国乒二三事
2026-02-08 14:04:06
从明年开始,65岁以上老人的免费体检彻底变样。

从明年开始,65岁以上老人的免费体检彻底变样。

南权先生
2026-02-07 15:49:40
巨星37岁表现:库里场均27分,邓肯15分,科比17分,老詹太强了

巨星37岁表现:库里场均27分,邓肯15分,科比17分,老詹太强了

大西体育
2026-02-08 14:27:36
低至1℃!广东气温先降后升

低至1℃!广东气温先降后升

环球网资讯
2026-02-08 07:30:10
与多名女性通奸,省建筑设计研究院院长的腐败之路

与多名女性通奸,省建筑设计研究院院长的腐败之路

知识海洋搬运工
2026-02-07 23:52:46
新华社消息|日本众议院选举投票开始 执政联盟能否过半成焦点

新华社消息|日本众议院选举投票开始 执政联盟能否过半成焦点

新华社
2026-02-08 10:43:15
8日中午亚洲杯:决赛诞生莎莎冲冠 蒯曼被逆转 王曼昱大战张本美和

8日中午亚洲杯:决赛诞生莎莎冲冠 蒯曼被逆转 王曼昱大战张本美和

烟浔渺渺
2026-02-08 14:06:48
重庆2名中学生相约从33楼一跃而下,死前20分钟的朋友圈让人揪心

重庆2名中学生相约从33楼一跃而下,死前20分钟的朋友圈让人揪心

明智家庭教育
2026-02-08 12:06:44
国家电网某40年工龄员工收入曝光,没想到竟然是这个数

国家电网某40年工龄员工收入曝光,没想到竟然是这个数

微微热评
2026-02-08 01:09:44
狂送12连败!哈登首秀挣扎,骑士大逆转,米切尔35+4,威少7失误

狂送12连败!哈登首秀挣扎,骑士大逆转,米切尔35+4,威少7失误

老侃侃球
2026-02-08 13:41:37
诺奖无用论广为流行,我们正在进入晚清时代2.0?

诺奖无用论广为流行,我们正在进入晚清时代2.0?

枫冷慕诗
2026-02-07 09:15:10
王鹤棣官宣赵露思!

王鹤棣官宣赵露思!

黎兜兜
2026-02-07 17:13:25
《太平年》郭荣临终设局!张永德到死不懂,竟输给赵匡胤的大实话

《太平年》郭荣临终设局!张永德到死不懂,竟输给赵匡胤的大实话

东方不败然多多
2026-02-08 10:35:26
正常的乳房到底长什么样?(内附图解)

正常的乳房到底长什么样?(内附图解)

第十一诊室
2026-01-31 11:36:21
黄蜂灭老鹰9连胜创队史纪录 克努佩尔23+8创历史第一杰伦31+9+8

黄蜂灭老鹰9连胜创队史纪录 克努佩尔23+8创历史第一杰伦31+9+8

醉卧浮生
2026-02-08 11:04:42
错哥首秀爆登了!格林怒喷詹姆斯,拳打里夫斯!

错哥首秀爆登了!格林怒喷詹姆斯,拳打里夫斯!

贵圈真乱
2026-02-08 13:56:46
冬天常喝陈皮水,肝脏像洗澡?医生推荐3种最佳搭配

冬天常喝陈皮水,肝脏像洗澡?医生推荐3种最佳搭配

健康之光
2026-02-07 14:20:26
安德鲁前女友:爱泼斯坦没有死,而是被一辆车调包后,逃往以色列

安德鲁前女友:爱泼斯坦没有死,而是被一辆车调包后,逃往以色列

阿晪美食
2026-02-08 10:21:18
“i茅台”将于2月8日-9日维护升级,部分功能或出现短暂异常

“i茅台”将于2月8日-9日维护升级,部分功能或出现短暂异常

界面新闻
2026-02-08 13:39:52
2026-02-08 14:40:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1228文章数 223关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

印度三姐妹手机被没收后跳楼 父亲娶两姐妹同住生5孩

头条要闻

印度三姐妹手机被没收后跳楼 父亲娶两姐妹同住生5孩

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

教育
艺术
家居
时尚
房产

教育要闻

二次函数,等面积三角形,初中中考几何压轴题必考题型

艺术要闻

10秒内认全狂草的人只有1%,你敢挑战吗?

家居要闻

现代轻奢 温馨治愈系

40+女性冬季这样穿:“长外套+裙子”,保暖与洋气双向在线

房产要闻

新春三亚置业,看过这个热盘再说!

无障碍浏览 进入关怀版