网易首页 > 网易号 > 正文 申请入驻

清华AIR等提出ESM-AA,首个从氨基酸到原子尺度的蛋白质语言模型

0
分享至

来自清华大学AIR、北京大学、南京大学的研究团队提出了 ESM-AA 模型。该模型在蛋白质语言建模领域取得了重要进展,提供了一套整合多尺度信息的统一建模方案。

它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。模型的出色性能展示了多尺度统一建模在克服现有局限和解锁新能力方面的巨大潜力。

作为基座模型,ESM-AA 获得了多位学者的关注与广泛讨论(截图见下方),被认为有潜力基于 ESM-AA 开发出可与 AlphaFold3、RoseTTAFold All-Atom 相竞争的模型,为研究不同生物结构间的相互作用开辟了新的道路。当前论文已被 ICML 2024 录⽤。

研究背景

蛋白质是各种生命活动的关键执行者。深入理解蛋白质及其与其他生物结构的相互作用是生物科学中的核心议题,这对靶向药物筛选、酶工程等领域具有显著的实际意义。

因此,如何更好地理解与建模蛋白质也成为了目前 AI4Science 领域的一个研究热点。

近日来,包括Deepmind、华盛顿大学 Baker 组在内的各大前沿研究机构也针对蛋白质全原子建模问题展开了深入研究,提出了包括 AlphaFold 3、RoseTTAFold All-Atom 等针对蛋白质以及其他生命活动相关分子的全原子尺度建模模型,可以在很高的精度下实现对蛋白质结构、分子结构以及受体-配体结构等全原子尺度的精确预测。

虽然这些模型对于全原子尺度的结构建模取得了重大进展,目前主流的蛋白语言模型仍然无法实现全原子尺度的蛋白质理解与表示学习。

多尺度,下一代蛋白质模型的「必经之路」

以 ESM-2为代表的蛋白质表示学习模型,它们以氨基酸作为构建模型的唯一尺度,这对于专注于处理蛋白质的情境而言是一种合理的方法。

然而,要全面理解蛋白质的本质,关键在于阐述它们与其他生物结构(如小分子、DNA、RNA 等)之间的相互作用。

面对这种需求,需要描述不同结构间复杂的相互作用,单一尺度的建模策略难以提供有效的全面覆盖。

为了克服这一缺陷,蛋白质模型正在经历一场向多尺度模型转变的深刻革新。例如,5月初发表在《Science》杂志上的 RoseTTAFold All-Atom 模型,作为 RoseTTAFold 的后续产品,引入了多尺度概念。

这一模型不仅仅局限于蛋白质结构预测,还拓展到了蛋白质与分子/核酸的对接、蛋白翻译后修饰等更广泛的研究领域。

同时,DeepMind 最新发布的 AlphaFold3 也采用了多尺度建模策略,支持预测多种蛋白复合物的结构,其表现令人瞩目,无疑将对人工智能和生物学领域产生重大影响。

ESM All-Atom,多尺度的蛋白质语言模型基座

图 1:ESM-AA 模型的整体架构

RoseTTAFold All-Atom 和 AlphaFold3 对多尺度概念的成功应用启发了一个重要思考,即:作为蛋白质基座模型的蛋白语言模型应如何采纳多尺度技术。基于此,该团队提出了多尺度蛋白质语言模型 ESM All-Atom(ESM-AA)。

简要来说,ESM-AA 通过将部分氨基酸「展开」(Unzip)为对应的原子组成引入了多尺度概念。随后,通过混合蛋白数据与分子数据进行预训练,这使得模型具备了同时处理不同尺度生物结构的能力。

此外,为了帮助模型更好地学习优质的原子尺度信息,ESM-AA 还会利用原子尺度的分子结构数据进行训练。而且通过引入图 2 所示的多尺度位置编码机制,ESM-AA 模型可以很好地对不同尺度的信息进行区分,确保模型能够精确理解残基层面与原子层面的位置与结构信息。

图 2:多尺度位置编码

多尺度预训练目标

为了帮助模型学习多尺度信息,该团队为 ESM-AA 模型设计了多种预训练目标。ESM-AA 的多尺度预训练目标包括掩码语言建模(MLM)和成对距离恢复(PDR)。如图 3(a) 所示,MLM 通过遮盖氨基酸和原子,要求模型根据周围的上下文进行预测,这一训练任务可以在氨基酸和原子两个尺度上进行。而 PDR 则要求模型准确预测不同原子之间的欧几里得距离,以训练模型理解原子级的结构信息(如图 3(b) 所示)。

图 3:多尺度预训练任务

实验验证

性能评估

ESM-AA 模型在多种蛋白-小分子基准任务上进行微调和评估,包括酶-底物亲和力回归任务(结果展示于图 4)、酶-底物对分类任务(结果展示于图 4)和药物-靶标亲和力回归任务(结果展示于图 5)。

结果显示,ESM-AA 在这些任务中优于之前的模型,表明其在氨基酸和原子尺度上充分发挥了蛋白质预训练语言模型的潜力。

图 4:酶-底物亲和力回归任务以及酶-底物对分类任务性能比较

图 5:药物-靶标亲和力回归任务性能比较

此外,ESM-AA 模型也在蛋白质接触预测、蛋白功能分类以及分子性质预测等任务上测试了性能。

结果显示,在处理仅涉及蛋白质的任务时,ESM-AA 的表现与 ESM-2 相当;在分子任务上,ESM-AA 模型的性能优于大多数基准模型,与 Uni-Mol 的表现相近。

这表明,ESM-AA 在获取强大分子知识的过程中并未牺牲对蛋白质的理解能力,也进一步说明了 ESM-AA 模型成功复用了 ESM-2 模型的知识,而无需被从头开始重新开发,显著降低了模型训练成本。

可视化分析

为了进一步分析 ESM-AA 在蛋白-小分子基准任务上表现优异的原因,该论文展示了 ESM-AA 模型以及 ESM-2+Uni-Mol 模型组合在该任务中抽取的样本表征分布的可视化结果。

如图6 所示,ESM-AA 模型所学习的蛋白和小分子表示之间更为紧凑,这预示着两者处于同一表示空间,这是 ESM-AA 模型优于 ESM-2+Uni-Mol 模型的原因,进一步说明了多尺度统一分子建模的优势。

图 6:蛋白/分子表示的可视化分析

结语

清华 AIR 团队开发的 ESM-AA 是首个融合氨基酸与原子信息处理的蛋白质预训练语言模型。模型通过整合多尺度信息,展现出稳健且卓越的性能,为解决生物结构间相互作用难题提供了新途径。

ESM-AA不仅促进了对蛋白质更深层次的理解,还在多项生物分子任务中表现出色,证明了其在保持蛋白质理解能力的同时可以有效融合分子层面知识,降低了模型训练的成本,为 AI 辅助的生物科学研究开辟了新方向。

论文标题:ESM All-Atom:Multi-Scale Protein Language Model for Unified Molecular Modeling

Github开源地址:https://github.com/zhengkangjie/ESM-AA

论文链接:https://arxiv.org/abs/2403.12995

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
诸葛平平同志逝世

诸葛平平同志逝世

新京报政事儿
2025-09-14 12:36:24
好消息来了!铁路部门出“新规”:60岁以上老人享受5大“特权”

好消息来了!铁路部门出“新规”:60岁以上老人享受5大“特权”

白马惊天剑
2025-09-14 10:05:32
浅析:中国DSS161手榴弹亮点在哪里?八年前就已经指出发展方向

浅析:中国DSS161手榴弹亮点在哪里?八年前就已经指出发展方向

hawk26讲武堂
2025-09-13 13:17:59
时间,或许是宇宙唯一真正的 “货币”!

时间,或许是宇宙唯一真正的 “货币”!

宇宙时空
2025-09-13 13:47:59
上午10点!3比3申花不到12小时,山东泰山作出决定,期待有好结果

上午10点!3比3申花不到12小时,山东泰山作出决定,期待有好结果

璞玉话体坛
2025-09-13 21:13:48
安帅:我没义务一年只管一个球员,执教完巴西后只会执教皇马

安帅:我没义务一年只管一个球员,执教完巴西后只会执教皇马

雷速体育
2025-09-14 07:17:17
为何美国现在要拼命围攻中国?五年后,中国将不再忌惮任何国家!

为何美国现在要拼命围攻中国?五年后,中国将不再忌惮任何国家!

亿通电子游戏
2025-09-14 06:14:04
再过5年,180万的房产大概值多少钱?孙宏斌与王健林说法一致

再过5年,180万的房产大概值多少钱?孙宏斌与王健林说法一致

博览历史
2025-09-13 18:28:03
王晶不再隐瞒!张柏芝婚变主因不是王菲,而是让她3年怀孕5次的人

王晶不再隐瞒!张柏芝婚变主因不是王菲,而是让她3年怀孕5次的人

查尔菲的笔记
2025-08-19 18:51:25
5名河南犹太裔女孩赴以色列,称此生不归,8年后结局如何?

5名河南犹太裔女孩赴以色列,称此生不归,8年后结局如何?

南冥那只猫
2025-09-11 08:20:45
故事:2万战败日本关东军,竟带1万妇女消失在长白山,77年不知所踪

故事:2万战败日本关东军,竟带1万妇女消失在长白山,77年不知所踪

古怪奇谈录
2025-02-24 16:32:08
涉嫌严重违纪违法,杨当本被查

涉嫌严重违纪违法,杨当本被查

FM93浙江交通之声
2025-09-14 12:55:50
十大元帅的后代,谁的军衔最高?

十大元帅的后代,谁的军衔最高?

顾史
2025-06-23 21:36:45
对比西贝厨房,张兰直播麻六记后厨炒菜过程,打脸西贝CEO!

对比西贝厨房,张兰直播麻六记后厨炒菜过程,打脸西贝CEO!

轩逸阿II
2025-09-13 12:04:12
连续5个涨停板!股民:无法想象的强!

连续5个涨停板!股民:无法想象的强!

数据挖掘分析
2025-09-14 15:10:57
2岁宝宝梅毒阳性,婆婆大骂儿媳,不料全家血检结果让人难以置信

2岁宝宝梅毒阳性,婆婆大骂儿媳,不料全家血检结果让人难以置信

二十一号故事铺
2024-08-15 01:10:02
钱多有何用?儿子涉毒女儿拾荒流浪,71岁成龙晚年凄凉,无人同情

钱多有何用?儿子涉毒女儿拾荒流浪,71岁成龙晚年凄凉,无人同情

有范又有料
2025-09-09 15:22:11
数名院士呼吁:糖尿病患者停止食用,比甜食还升糖,趁早撤下餐桌

数名院士呼吁:糖尿病患者停止食用,比甜食还升糖,趁早撤下餐桌

刘哥谈体育
2025-09-14 18:15:14
近5轮仅1胜!迈阿密国际少赛跌至美职联东部第8 暂未进入季后赛区

近5轮仅1胜!迈阿密国际少赛跌至美职联东部第8 暂未进入季后赛区

直播吧
2025-09-14 13:10:43
蒙古铁骑:冷兵器时代的战力天花板

蒙古铁骑:冷兵器时代的战力天花板

翰林冷知识
2025-09-13 11:15:36
2025-09-14 20:12:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1085文章数 218关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

美政府突袭抓人后 韩企表示将延迟投产:缺人缺设备

头条要闻

美政府突袭抓人后 韩企表示将延迟投产:缺人缺设备

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

彪悍那英,大女人与旧妻子

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

数码
手机
旅游
公开课
军事航空

数码要闻

原热旗下首款 TWS 产品“OriG in 原点”耳机 9 月 23 日发布

手机要闻

魅族 22 搭载 Flyme AIOS 2,全新 AI 按键支持快捷功能一键启动

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄无人机飞入波兰 美国务卿:不可接受

无障碍浏览 进入关怀版