网易首页 > 网易号 > 正文 申请入驻

仅输入prompt,准确率超90%,UC伯克利等提出蛋白质多模态框架

0
分享至

编辑丨coisini

机器学习在蛋白质发现领域展现出深远的潜力,相关工具已快速应用于科学流程的辅助与加速。当前,AI 辅助的蛋白质设计主要利用蛋白质的序列和结构信息,而为了描述蛋白质的高级功能,人们以文本形式整理了海量知识,这种文本数据能否助力蛋白质设计任务尚未得到探索。

为了填补这一空白,来自加州大学伯克利分校(UC Berkeley)、加州理工学院(California Institute of Technology)等机构的研究者提出了一个利用文本描述进行蛋白质设计的多模态框架 ——ProteinDT。该框架包含三个连续步骤:对齐两种模态表征的 ProteinCLAP、从文本模态生成蛋白质表征的 Facilitator,以及根据表征生成蛋白质序列的解码器。

论文地址:https://www.nature.com/articles/s42256-025-01011-z

研究概览

受基础模型突破的启发,计算化学领域已证明结合药物文本描述与化学结构信息的多模态机制能有效促进小分子药物发现,这为蛋白质领域如何运用多模态机制推动蛋白质工程与生成提出了新命题。

为解答这一问题,研究团队开创了利用文本描述进行蛋白质设计的新范式。

具体而言,该研究致力于挖掘蛋白质的两种模态:蛋白质序列与文本描述。蛋白质序列由 20 种氨基酸(又称残基)组成,决定了蛋白质的折叠方式与功能特性;而第二模态则是公开数据源(如 UniProt)记录的文本描述,蕴含丰富的蛋白质知识,包括参与的生物过程、执行的分子功能以及定位的细胞组分。两种模态分别聚焦于表达内部生化组成与领域专家总结的高阶知识,因此探索两者的融合对完成更具挑战性的蛋白质设计任务(如零样本泛化)具有重要意义。

该研究提出了文本驱动的蛋白质设计框架 ProteinDT,其核心流程如下:

(1) 对比性语言 - 蛋白质预训练(ProteinCLAP)步骤,旨在对齐文本序列与蛋白质序列的表征空间。该步骤通过从 UniProt 的 Swiss-Prot 子集提取的 441,000 个文本 - 蛋白质对数据集 SwissProtCLAP,采用对比学习范式实现双模态表征对齐;

(2) ProteinFacilitator 模型从文本模态生成蛋白质序列表征,采用高斯分布估计条件分布;

(3) 用于蛋白质生成的解码器模型是一个条件生成模型,基于上一步产生的表征信息生成蛋白质序列。

实验结果

为了验证 ProteinDT 的多功能特性,研究团队设计了三项下游任务:

文本生成蛋白质任务,通过 ProteinDT 流程根据目标蛋白质特性的文本描述 prompt 生成蛋白质序列,最优检索准确率可超 90%。

零样本文本引导的蛋白质编辑任务,输入为文本 prompt 和蛋白质序列。研究团队提出两种编辑方法:潜在空间插值法在序列级表征空间进行插值;潜在优化法直接优化 token 级表征。两种方法均注入文本模态信息,并将学得的表征用于蛋白质生成。实验显示 ProteinDT 在 12 项编辑任务(涵盖结构感知、稳定性优化及肽段结合编辑等)中均取得最佳命中率,定性分析结果进一步证明了其有效性。

蛋白质属性预测任务,用于评估 ProteinCLAP 学习表征的稳健性与泛化能力。与六种前沿蛋白质序列表征方法相比,ProteinDT 在四项基准测试中表现最优。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
机器人“芯脏”第一股,北向资金逆势加仓95%,军工唯一低估龙头

机器人“芯脏”第一股,北向资金逆势加仓95%,军工唯一低估龙头

财报翻译官
2026-01-10 12:27:01
新华鲜报·正风反腐丨查处“四风”问题超25万起!风腐同查同治扎实推进

新华鲜报·正风反腐丨查处“四风”问题超25万起!风腐同查同治扎实推进

新华社
2026-01-09 16:25:03
1950年,无锡一位带8个娃的母亲走投无路,给毛主席写了封信:我是您恩师的儿媳妇

1950年,无锡一位带8个娃的母亲走投无路,给毛主席写了封信:我是您恩师的儿媳妇

清风鉴史
2026-01-04 23:43:12
她才是下棋人!谢杏芳9年前设局,如今林丹在家沦为“编外人员”

她才是下棋人!谢杏芳9年前设局,如今林丹在家沦为“编外人员”

地球记
2026-01-08 22:42:11
秦海璐春晚彩排被偶遇,穿大衣戴墨镜气场全开,网友:被帅一脸!

秦海璐春晚彩排被偶遇,穿大衣戴墨镜气场全开,网友:被帅一脸!

木子爱娱乐大号
2026-01-09 21:45:16
U23亚洲杯一战成名!上海海港千万报价杨希,西海岸急售套现!

U23亚洲杯一战成名!上海海港千万报价杨希,西海岸急售套现!

田先生篮球
2026-01-09 14:07:27
52票赞成47票反对!美国投票结果公布;美国或将失去联大投票权

52票赞成47票反对!美国投票结果公布;美国或将失去联大投票权

南宗历史
2026-01-09 10:24:03
央视直播泰伊大战!中国一旦输袋鼠出线渺茫!中场绞肉机霸气宣言

央视直播泰伊大战!中国一旦输袋鼠出线渺茫!中场绞肉机霸气宣言

刀锋体育
2026-01-10 09:40:15
楼市大局已定?2026年的房价,已出现4大迹象!

楼市大局已定?2026年的房价,已出现4大迹象!

猫叔东山再起
2026-01-09 09:10:03
马克龙另辟蹊径,痛批美国霸权,给G7下死命令,欲借中国破局

马克龙另辟蹊径,痛批美国霸权,给G7下死命令,欲借中国破局

乐天闲聊
2026-01-10 15:31:47
59年彭德怀申请搬离中南海,毛主席指示杨尚昆:找一处好点的房子

59年彭德怀申请搬离中南海,毛主席指示杨尚昆:找一处好点的房子

舆图看世界
2026-01-07 11:15:03
中韩为何没有发表联合声明,访华回国后的李在明,要心里有数

中韩为何没有发表联合声明,访华回国后的李在明,要心里有数

钦点历史
2026-01-09 15:24:57
国家商务部发布,车贩子好日子到头了!

国家商务部发布,车贩子好日子到头了!

达文西看世界
2026-01-09 11:03:13
买洗碗机老公砸家反转!曝妻子太作,没工作还负债,更多隐情被扒

买洗碗机老公砸家反转!曝妻子太作,没工作还负债,更多隐情被扒

揽星河的笔记
2026-01-09 22:18:03
52票赞成,47票反对,美参议院推进决议限制特朗普对委动武,多名共和党议员“反水”!特朗普怒斥:削弱总统权力!委内瑞拉:不屈服

52票赞成,47票反对,美参议院推进决议限制特朗普对委动武,多名共和党议员“反水”!特朗普怒斥:削弱总统权力!委内瑞拉:不屈服

每日经济新闻
2026-01-09 13:25:05
新妻优香出道即王炸!31岁无滤镜美肌碾压少女,麦爹这次捡到宝了

新妻优香出道即王炸!31岁无滤镜美肌碾压少女,麦爹这次捡到宝了

碧波万览
2026-01-10 02:55:03
特雷杨缺席!鹈鹕大胜奇才结束9连败 墨菲35分锡安31分奎因三双

特雷杨缺席!鹈鹕大胜奇才结束9连败 墨菲35分锡安31分奎因三双

醉卧浮生
2026-01-10 10:30:44
追梦:博古特是勇士王朝奠基人,他的伤停导致了73胜勇士失利

追梦:博古特是勇士王朝奠基人,他的伤停导致了73胜勇士失利

懂球帝
2026-01-10 15:52:10
任素汐下半身欲望失控,终为自己的风流行为买单

任素汐下半身欲望失控,终为自己的风流行为买单

车窗起雾q
2026-01-01 20:12:16
真没想到!风电龙头竟然承包了半壁航天供应链

真没想到!风电龙头竟然承包了半壁航天供应链

君临财富
2026-01-09 18:44:16
2026-01-10 16:16:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1203文章数 223关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

特朗普为何如此想要格陵兰岛 美联社用同个词解释3次

头条要闻

特朗普为何如此想要格陵兰岛 美联社用同个词解释3次

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

赵樱子称和蒋毅试婚三天:像试面膜

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

亲子
健康
数码
公开课
军事航空

亲子要闻

幼儿园元旦晚会 男子看见落单的,小男孩一脸失落主动将其抱起

这些新疗法,让化疗不再那么痛苦

数码要闻

AI助眠灯、木板智能开关……CES2026上的智能家居太野了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

无障碍浏览 进入关怀版