网易首页 > 网易号 > 正文 申请入驻

Science子刊 | 量化超10万条聚集数据,BIST训练AI研究蛋白质聚集

0
分享至

编辑 | 萝卜皮

淀粉样蛋白的蛋白质聚集是 50 多种临床疾病的主要特征,影响着超过 5 亿人的生活。这些疾病包括常见的神经退行性疾病和最常见的痴呆症等等。

同时,蛋白质聚集也是生物技术中的一个重要问题,例如在酶、抗体和其他蛋白质治疗剂的生产中。淀粉样蛋白在生物功能和疾病中的重要性促使人们投入了大量的研究,但其形成的决定因素和机制仍然知之甚少。

当前已知的根据序列预测聚集的方法都是在规模较小且存在偏差的实验数据集上进行训练和评估的。

在最新的研究中,西班牙 BIST(Barcelona Institute of Science and Technology)的研究人员通过实验量化超过 10 万条蛋白质序列的聚集情况,直接解决了数据短缺的问题。

这个前所未有的数据集揭示了现有计算方法性能的局限性。

同时,他们用这个数据集训练了 CANYA,一个能够准确预测序列聚集情况的卷积-注意力混合神经网络。

研究人员采用基因组神经网络可解释性分析,来揭示 CANYA 的决策过程和学习语法。分析结果表明,CANYA 拥有对随机序列空间进行大规模实验分析的强大能力,能够可解释且稳健地预测聚集现象。

该研究以「Massive experimental quantification allows interpretable deep learning of protein aggregation」为题,于 2025 年 4 月 30 日发布在《Science Advances》。

为了直接弥补蛋白质聚集相关的数据缺口,BIST 的研究团队曾经开发了一种大规模并行选择分析方法,能够在一次实验中检测和量化数千种不同的蛋白质聚集情况。

这使研究人员能够量化淀粉样 β 肽(该肽的聚集是阿尔茨海默病的标志)中所有可能的替换、插入和缺失所导致的聚集速率变化。所得测量结果与体外成核动力学速率常数高度吻合。

然而,这些数据集仅限于测试单个序列细微变化的影响,限制了其用于通用模型构建的实用性。

在最新的研究中,BIST 的研究人员将这种方法应用于更大规模,并量化了超过 100,000 个完全随机序列肽段的聚集情况。他们使用由此产生的海量数据集来评估现有的聚集预测方法,发现与之前在可能存在偏差的数据集上的表现不同,这些方法在更广阔的序列空间中仅具有中等程度的预测能力。

图示:量化 >100,000 个随机肽的聚集。(来源:论文)

鉴于先前的方法无法准确预测数据集内的聚集状态,研究人员构建了一个新模型来捕捉序列-聚集评分格局。

具体来说,他们开发了一个混合神经网络,称为 CANYA(Convolution Attention Network for amYloid Aggregation,即淀粉样蛋白聚集的卷积注意力网络)。

图示:CANYA。(来源:论文)

虽然该神经网络的解释性不如之前的模型,但是 CANYA 的架构不仅简单,而且具有生物学上的启发性。

CANYA 基于这样的观察:已知淀粉样蛋白由相互作用的短序列(例如堆叠的 β 折叠)组成,并将此信息视为模型的归纳偏差。首先,将序列传递到卷积层以找到「基序」,然后这些基序通过注意层以了解基序的位置效应并鼓励这些基序相互作用。

此外,研究人员根据 80 种已知淀粉样蛋白原纤维结构中二级结构长度的分布来设置卷积层的滤波器长度。虽然这类模型在蛋白质研究中不太常用,但卷积-注意力混合模型已在基因组学中得到应用,并被发现在寻找基序及其相互作用方面具有良好的归纳偏差。

研究人员对 CANYA 进行了 100 次训练,使用了超过 100,000 个合成序列及其各自的聚集状态,从而了解序列聚集概况。与大规模计算密集型神经网络不同,CANYA 仅包含三层(涵盖 17,491 个参数),在普通的 CPU 上训练只需不到一小时。

图示:CANYA 在各种预测任务中性能稳定。(来源:论文)

尽管很简单,并且只观察到了可能序列空间的一小部分,CANYA 还是显著改善了对保留测试序列聚集状态的预测(NNK 实验 1 至 3 的平均 AUROC 分别为 = 0.710、0.650、0.769),优于之前的方法(最大 AUROC CamSol、NNK1 = 0.617、NNK2 = 0.537 和 NNK3 = 0.673)。并且 CANYA 的预测准确度明显高于仅使用氨基酸组成或计数在同一数据集上训练的简单线性模型。

为了了解不同方法的性能差异,研究人员检查了性能次佳的方法(CamSol)和 CANYA 之间的序列得分。结果表明,非聚集序列的最大差异出现在含有色氨酸的疏水序列中,而聚集序列的最大差异出现在富含半胱氨酸或天冬酰胺且脂肪族残基较少的序列中。

这说明了探索广阔序列空间的实用性,也表明 CANYA 能够将序列内的物理化学特性情境化(例如,在疏水序列中,CANYA 会在存在大分子或破坏性残基的情况下调整其分数)。

图示:计算机实验揭示了 CANYA 的聚集语法。(来源:论文)

至关重要的是,该团队开发 CANYA 的目标是解释聚集语法,而非最大化预测能力。为了选择一个能够揭示这种习得语法的模型,研究人员使用最近开发的可解释性指标对每个经过训练的 CANYA 实例进行评分。

简而言之,该指标考察了训练模型时使用的模体丰富度,并将其与训练序列中所有等长 k 聚体(k=3)的集合进行比较。强富集(即与背景训练序列的差异)表明模型可能在后续的可解释性分析中产生更清晰的分辨率。

虽然测试序列的精确召回曲线下面积 (AUPR) 在实验间比 AUROC 更一致(平均 AUPR NNK1 = 0.434,NNK2 = 0.452,NNK3 = 0.415),但是没有发现预测性能与该可解释性指标之间存在相关性(平均 AUPR 与可解释性得分的相关性 r = −0.059,P 值 = 0.6847)。因此,研究人员选择了使用可解释性得分最高的训练模型。

图示:CANYA 发现物理化学聚集基序。(来源:论文)

总体而言,CANYA 提供了一个稳健且可解释的神经网络模型,用于理解和预测淀粉样蛋白形成蛋白。更广泛地说,该研究结果不仅提供了一个非常庞大且经过良好校准的数据集来训练和评估 CANYA 以外的模型,而且还展示了对随机蛋白质序列空间进行大规模实验分析的实用性。

论文链接:https://www.science.org/doi/10.1126/sciadv.adt5111

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这回马斯克,“硅谷钢铁侠”的脸,算是被自己亲手打肿了!

这回马斯克,“硅谷钢铁侠”的脸,算是被自己亲手打肿了!

云中浮生
2026-02-02 15:09:57
哈登接连缺阵快船比赛,泰伦卢居然如此回应,不外乎三点原因

哈登接连缺阵快船比赛,泰伦卢居然如此回应,不外乎三点原因

姜大叔侃球
2026-02-03 11:09:16
14死198伤只是开始?中日航线全停,高市赌局翻车,美国兜不住底

14死198伤只是开始?中日航线全停,高市赌局翻车,美国兜不住底

智慧生活笔记
2026-02-03 15:02:18
最新:乌克兰反攻赫尔松左岸!击沉俄罗斯军船

最新:乌克兰反攻赫尔松左岸!击沉俄罗斯军船

项鹏飞
2026-02-02 17:30:53
假如中国输了,美国就赢了吗?大错特错!

假如中国输了,美国就赢了吗?大错特错!

南权先生
2026-02-03 15:44:18
炸了!直线拉升,掀“涨停潮”!

炸了!直线拉升,掀“涨停潮”!

中国基金报
2026-02-03 12:37:51
赵薇胃癌传闻真相大白,再迎坏消息连累李湘

赵薇胃癌传闻真相大白,再迎坏消息连累李湘

观察者海风
2026-01-26 20:24:53
战争打响,伊朗唯一活路是把一万枚导弹当成“一次性打火机”!

战争打响,伊朗唯一活路是把一万枚导弹当成“一次性打火机”!

百态人间
2026-01-29 15:41:40
泽连斯基:2月4日和5日将在阿联酋阿布扎比举行适当级别三方会谈

泽连斯基:2月4日和5日将在阿联酋阿布扎比举行适当级别三方会谈

百态人间
2026-02-03 15:31:09
49年解放军开炮轰击英舰,斯大林惊了:毛泽东既有傲骨,更有虎胆

49年解放军开炮轰击英舰,斯大林惊了:毛泽东既有傲骨,更有虎胆

舆图看世界
2026-02-03 07:10:03
绍伊古急飞北京谈撤侨?这次事情真的很严重

绍伊古急飞北京谈撤侨?这次事情真的很严重

李荣茂
2026-02-03 06:19:47
从60家店到全线崩盘!这家网红书店凉透了,为啥却没人同情?

从60家店到全线崩盘!这家网红书店凉透了,为啥却没人同情?

青眼财经
2026-02-02 23:23:17
徐波生了300个孩子?揭露了人类社会的本质问题

徐波生了300个孩子?揭露了人类社会的本质问题

历史总在押韵
2025-11-17 00:05:07
汪东兴提反对意见,邓公起身质问:为什么你每次开会都唱反调?

汪东兴提反对意见,邓公起身质问:为什么你每次开会都唱反调?

瀚霖学史
2025-10-24 09:04:10
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

洲洲影视娱评
2026-02-02 17:11:05
山东省启动2026年独生子女奖励申报!发放标准、条件、材料?看看

山东省启动2026年独生子女奖励申报!发放标准、条件、材料?看看

虎哥闲聊
2026-02-03 08:55:29
杜月笙临终吐露真言:混好江湖靠的根本不是利益互换,而是这三点

杜月笙临终吐露真言:混好江湖靠的根本不是利益互换,而是这三点

小港哎历史
2026-01-31 17:00:03
38岁男子深山探险失联,妻子说“不用找”,救援队找到营地后傻眼了

38岁男子深山探险失联,妻子说“不用找”,救援队找到营地后傻眼了

今天说故事
2025-08-22 10:23:55
李世民和武则天圆房那夜,创下历史最高记录,至今也未被打破

李世民和武则天圆房那夜,创下历史最高记录,至今也未被打破

谈史论天地
2026-01-30 15:05:03
大S周年祭遗照曝光,具俊晔设计雕像被群嘲,葛思齐再发声惹众怒

大S周年祭遗照曝光,具俊晔设计雕像被群嘲,葛思齐再发声惹众怒

壹月情感
2026-02-03 13:05:16
2026-02-03 16:28:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1225文章数 223关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

北京菜百近200人排队卖金 有人一次性卖出200万元金条

头条要闻

北京菜百近200人排队卖金 有人一次性卖出200万元金条

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

小S致词:感谢具俊晔陪伴大S的最后3年

财经要闻

精神病医院骗保内幕调查:住院相当于坐牢

汽车要闻

问界M6官图首发 以年轻化设计叩击25-30万级市场

态度原创

游戏
教育
房产
公开课
军事航空

《FF7重制版》官方作弊器引发硬核玩家不满

教育要闻

想去美国,美签到底咋办?不同的签证有不同申请流程

房产要闻

大盘最低杀到8000+/㎡!海口59盘,最新房价曝光!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版