网易首页 > 网易号 > 正文 申请入驻

上交大提出新注意力机制模型:利用文本描述设计蛋白质序列

0
分享至



蛋白质工程向来是生物学领域中不可忽视的一项重要领域,其中蛋白质设计关系到药物开发与酶工程等多种极具潜力的应用领域。

相较于传统设计策略,研究员或许更为眼馋如 AI 文生图这种大众化设计,直接告诉 AI 自己需要什么蛋白质,让 AI 去生成就行。而现在,上海交通大学的一支团队就成功开发出了一种全新细粒度多模态数据交互框架 ProtDAT,能够根据描述性蛋白质文本输入设计蛋白质。

该研究以「Ab-initio amino acid sequence design from protein text description with ProtDAT」为题,于 2025 年 11 月 26 日发布在《Nature Communications》。



论文链接:https://www.nature.com/articles/s41467-025-65562-w

从「文本描述」到「蛋白序列」

用过 AI 生图的大家大概可以想象这么一个画面:在纸上写下一句话,描述想要的蛋白,比如 「一个能在 37°C 下稳定、对 pH 7.4 敏感、有较强亲水界面的酶」,然后点击「生成」。几秒钟后,一串氨基酸序列出现——这可能是一种全新的蛋白。

这大概就是对 ProtDAT 比较亲切的一种描述。学术界以往的成果表明,从文本中生成蛋白质序列是可行的。受大语言模型启发,团队就一个基于任何指定文本描述训练数据集生成蛋白质序列的蛋白质设计框架,在模态融合解码器层设计了多模态交叉注意力机制(MCM),用于实现不同模态信息的细粒度蛋白质序列-文本交互。



图 1:ProtDAT 的概述。

这让 AI 能把「人类对功能的文字描述」直接映射到「分子级别、可编码的蛋白序列空间」。鉴于 ProtDAT 是一个从头开始训练的框架,这也让它解决了 PLMs 在蛋白质序列生成中因蛋白质描述文本指导不足而存在的重大问题。

ProtDAT 提出了一种新的交叉注意力机制,即 MCM,专门设计用于处理综合信息,为蛋白质设计提供直观、符合人类逻辑的路径。它将两种不同模态的交互集成在单个模型中,从基础层面建立更稳定的链接。

在 ProtDAT 框架内对瑞士蛋白数据库 Swiss-Prot 中的 20,000 对文本序列进行实验,结果表明其准确度高于实验中最佳方法的性能,pLDDT 提高了 23.34%,TM-score 提高了 76.45%,RMSD 降低了 24.41%。

MCM 测试表现

既然 ProtDAT 提出了一种全新的机制 MCM,那就来关注一下它的作用与实际测试结果。



图 2:ProtDAT 性能的综合评价。

团队观察到,随着序列长度的增加(最大至 500),平均注意力权重也在变化。标示蛋白质提示贡献度的数据虽然也在下降,但序列长度达到 1000 后,这个值稳定在了约 20%。这进一步证明文本描述在生成早期阶段确保了对关键氨基酸标记的准确指令,并在蛋白质序列增长时继续提供方向性支持。

这说明 MCM 解决了现有方法中蛋白质描述文本指导不足的问题,促进了多模态整合。而在消融实验中,ProtDAT 在多个评估维度上相较于 ProtDAT(不含 MCM)取得了显著改进。蛋白质序列与结构评估前者全面碾压后者;亚细胞定位里 MCM 的数据提升更明显;在功能相似性检索里返回值与检索指标也更为优秀。

文字生成蛋白质

论文用设计远程同源蛋白质序列、生成有天然蛋白质特征的序列等案例揭示了 MCM 这个新型注意力机制的优秀性能。实验结果表明,ProtDAT 生成的蛋白质序列有效地整合了文本信息,在结构合理性、功能性和结构相似性方面取得了显著性能,pLDDT 平均提高了 18.65,0.TM-score 提高了 26,RMSD 减少了 1.2 Å。

团队计划利用更广泛的标注蛋白质数据集扩展 ProtDAT 的语言能力,并采用不同领域的训练数据集来扩大其覆盖规模。相关研究可于 Github 获取。

https://github.com/GXY0116/ProtDAT

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马克西绝杀上篮遭杜兰特封盖,但回放显示应是干扰球

马克西绝杀上篮遭杜兰特封盖,但回放显示应是干扰球

懂球帝
2026-01-23 11:13:11
Tiktok官宣美国方案,两公司共同运营,字节保留算法知识产权

Tiktok官宣美国方案,两公司共同运营,字节保留算法知识产权

第一财经资讯
2026-01-23 08:53:35
嫣然医院房东心态崩了?从强硬要李亚鹏道歉,到开始求过个好年

嫣然医院房东心态崩了?从强硬要李亚鹏道歉,到开始求过个好年

安宁007
2026-01-22 23:02:37
没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

糊咖娱乐
2026-01-22 11:48:48
知道不好骗了,索性开始硬抢了!

知道不好骗了,索性开始硬抢了!

胖胖说他不胖
2026-01-22 16:47:14
杜宪70岁还这么漂亮,这张照片你认识几个

杜宪70岁还这么漂亮,这张照片你认识几个

喜欢历史的阿繁
2026-01-23 01:58:11
所谓“和平委员会”有哪些国家加入?名单公布

所谓“和平委员会”有哪些国家加入?名单公布

新京报政事儿
2026-01-22 22:44:37
向华强曝李亚鹏曾在香港办派对为嫣然天使基金筹款:自己捐了几百万,王菲、刘嘉玲等众星捧场

向华强曝李亚鹏曾在香港办派对为嫣然天使基金筹款:自己捐了几百万,王菲、刘嘉玲等众星捧场

扬子晚报
2026-01-22 21:34:18
26岁健美选手毕嘉琪去世,好友曝在睡梦中猝死,满身肌肉血管暴起

26岁健美选手毕嘉琪去世,好友曝在睡梦中猝死,满身肌肉血管暴起

180视角
2026-01-22 13:34:58
四大名著,终于有人敢说,这本,该踢出四大名著了

四大名著,终于有人敢说,这本,该踢出四大名著了

长风文史
2026-01-22 15:17:46
央视曝光:光鲜红薯背后的剧毒隐患!

央视曝光:光鲜红薯背后的剧毒隐患!

达文西看世界
2026-01-22 15:22:42
23岁男流量翻车了?刘大锤再曝猛料,将王星越的“体面”撕个粉碎

23岁男流量翻车了?刘大锤再曝猛料,将王星越的“体面”撕个粉碎

有趣的胡侃
2026-01-23 09:44:58
决赛预计首发:安圣再憋大招!U23国足2位置存悬念 谨防日本4猛将

决赛预计首发:安圣再憋大招!U23国足2位置存悬念 谨防日本4猛将

我爱英超
2026-01-23 06:33:30
马斯克亮相达沃斯:FSD最快2月在中国获批 Optimus明年开售

马斯克亮相达沃斯:FSD最快2月在中国获批 Optimus明年开售

凤凰网科技
2026-01-23 06:58:07
特朗普达沃斯论坛三种错!两个涉及中国!

特朗普达沃斯论坛三种错!两个涉及中国!

新民周刊
2026-01-23 09:10:13
西贝事件,我来评一下人民日报评论

西贝事件,我来评一下人民日报评论

不主流讲话
2026-01-22 18:26:20
“女硕士患精神疾病走失十余年被找回”案:两人涉嫌强奸罪被起诉

“女硕士患精神疾病走失十余年被找回”案:两人涉嫌强奸罪被起诉

大风新闻
2026-01-22 22:16:16
日本U23国脚:亚军和冠军有着天壤之别,我们要全力以赴夺冠

日本U23国脚:亚军和冠军有着天壤之别,我们要全力以赴夺冠

懂球帝
2026-01-22 15:26:16
你有刷新你三观的亲戚吗?网友:所以啊,本零零后断亲是必然的

你有刷新你三观的亲戚吗?网友:所以啊,本零零后断亲是必然的

带你感受人间冷暖
2025-12-22 00:05:14
如此忽悠群众有意思吗?

如此忽悠群众有意思吗?

笔杆论道
2026-01-23 06:33:00
2026-01-23 12:35:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1215文章数 223关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

房产
亲子
健康
教育
军事航空

房产要闻

正式官宣!三亚又一所名校要来了!

亲子要闻

没有过敏原为什么孩子还是起荨麻疹?

打工人年终总结!健康通关=赢麻了

教育要闻

143:21!高校“博士热”:学历内卷下硕士生的困境与破局

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版