网易首页 > 网易号 > 正文 申请入驻

Science子刊 | 量化超10万条聚集数据,BIST训练AI研究蛋白质聚集

0
分享至

编辑 | 萝卜皮

淀粉样蛋白的蛋白质聚集是 50 多种临床疾病的主要特征,影响着超过 5 亿人的生活。这些疾病包括常见的神经退行性疾病和最常见的痴呆症等等。

同时,蛋白质聚集也是生物技术中的一个重要问题,例如在酶、抗体和其他蛋白质治疗剂的生产中。淀粉样蛋白在生物功能和疾病中的重要性促使人们投入了大量的研究,但其形成的决定因素和机制仍然知之甚少。

当前已知的根据序列预测聚集的方法都是在规模较小且存在偏差的实验数据集上进行训练和评估的。

在最新的研究中,西班牙 BIST(Barcelona Institute of Science and Technology)的研究人员通过实验量化超过 10 万条蛋白质序列的聚集情况,直接解决了数据短缺的问题。

这个前所未有的数据集揭示了现有计算方法性能的局限性。

同时,他们用这个数据集训练了 CANYA,一个能够准确预测序列聚集情况的卷积-注意力混合神经网络。

研究人员采用基因组神经网络可解释性分析,来揭示 CANYA 的决策过程和学习语法。分析结果表明,CANYA 拥有对随机序列空间进行大规模实验分析的强大能力,能够可解释且稳健地预测聚集现象。

该研究以「Massive experimental quantification allows interpretable deep learning of protein aggregation」为题,于 2025 年 4 月 30 日发布在《Science Advances》。

为了直接弥补蛋白质聚集相关的数据缺口,BIST 的研究团队曾经开发了一种大规模并行选择分析方法,能够在一次实验中检测和量化数千种不同的蛋白质聚集情况。

这使研究人员能够量化淀粉样 β 肽(该肽的聚集是阿尔茨海默病的标志)中所有可能的替换、插入和缺失所导致的聚集速率变化。所得测量结果与体外成核动力学速率常数高度吻合。

然而,这些数据集仅限于测试单个序列细微变化的影响,限制了其用于通用模型构建的实用性。

在最新的研究中,BIST 的研究人员将这种方法应用于更大规模,并量化了超过 100,000 个完全随机序列肽段的聚集情况。他们使用由此产生的海量数据集来评估现有的聚集预测方法,发现与之前在可能存在偏差的数据集上的表现不同,这些方法在更广阔的序列空间中仅具有中等程度的预测能力。

图示:量化 >100,000 个随机肽的聚集。(来源:论文)

鉴于先前的方法无法准确预测数据集内的聚集状态,研究人员构建了一个新模型来捕捉序列-聚集评分格局。

具体来说,他们开发了一个混合神经网络,称为 CANYA(Convolution Attention Network for amYloid Aggregation,即淀粉样蛋白聚集的卷积注意力网络)。

图示:CANYA。(来源:论文)

虽然该神经网络的解释性不如之前的模型,但是 CANYA 的架构不仅简单,而且具有生物学上的启发性。

CANYA 基于这样的观察:已知淀粉样蛋白由相互作用的短序列(例如堆叠的 β 折叠)组成,并将此信息视为模型的归纳偏差。首先,将序列传递到卷积层以找到「基序」,然后这些基序通过注意层以了解基序的位置效应并鼓励这些基序相互作用。

此外,研究人员根据 80 种已知淀粉样蛋白原纤维结构中二级结构长度的分布来设置卷积层的滤波器长度。虽然这类模型在蛋白质研究中不太常用,但卷积-注意力混合模型已在基因组学中得到应用,并被发现在寻找基序及其相互作用方面具有良好的归纳偏差。

研究人员对 CANYA 进行了 100 次训练,使用了超过 100,000 个合成序列及其各自的聚集状态,从而了解序列聚集概况。与大规模计算密集型神经网络不同,CANYA 仅包含三层(涵盖 17,491 个参数),在普通的 CPU 上训练只需不到一小时。

图示:CANYA 在各种预测任务中性能稳定。(来源:论文)

尽管很简单,并且只观察到了可能序列空间的一小部分,CANYA 还是显著改善了对保留测试序列聚集状态的预测(NNK 实验 1 至 3 的平均 AUROC 分别为 = 0.710、0.650、0.769),优于之前的方法(最大 AUROC CamSol、NNK1 = 0.617、NNK2 = 0.537 和 NNK3 = 0.673)。并且 CANYA 的预测准确度明显高于仅使用氨基酸组成或计数在同一数据集上训练的简单线性模型。

为了了解不同方法的性能差异,研究人员检查了性能次佳的方法(CamSol)和 CANYA 之间的序列得分。结果表明,非聚集序列的最大差异出现在含有色氨酸的疏水序列中,而聚集序列的最大差异出现在富含半胱氨酸或天冬酰胺且脂肪族残基较少的序列中。

这说明了探索广阔序列空间的实用性,也表明 CANYA 能够将序列内的物理化学特性情境化(例如,在疏水序列中,CANYA 会在存在大分子或破坏性残基的情况下调整其分数)。

图示:计算机实验揭示了 CANYA 的聚集语法。(来源:论文)

至关重要的是,该团队开发 CANYA 的目标是解释聚集语法,而非最大化预测能力。为了选择一个能够揭示这种习得语法的模型,研究人员使用最近开发的可解释性指标对每个经过训练的 CANYA 实例进行评分。

简而言之,该指标考察了训练模型时使用的模体丰富度,并将其与训练序列中所有等长 k 聚体(k=3)的集合进行比较。强富集(即与背景训练序列的差异)表明模型可能在后续的可解释性分析中产生更清晰的分辨率。

虽然测试序列的精确召回曲线下面积 (AUPR) 在实验间比 AUROC 更一致(平均 AUPR NNK1 = 0.434,NNK2 = 0.452,NNK3 = 0.415),但是没有发现预测性能与该可解释性指标之间存在相关性(平均 AUPR 与可解释性得分的相关性 r = −0.059,P 值 = 0.6847)。因此,研究人员选择了使用可解释性得分最高的训练模型。

图示:CANYA 发现物理化学聚集基序。(来源:论文)

总体而言,CANYA 提供了一个稳健且可解释的神经网络模型,用于理解和预测淀粉样蛋白形成蛋白。更广泛地说,该研究结果不仅提供了一个非常庞大且经过良好校准的数据集来训练和评估 CANYA 以外的模型,而且还展示了对随机蛋白质序列空间进行大规模实验分析的实用性。

论文链接:https://www.science.org/doi/10.1126/sciadv.adt5111

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙金龙、黄润秋看望慰问周生贤

孙金龙、黄润秋看望慰问周生贤

中国环境新闻工作者协会
2026-02-07 20:48:14
首次发现!青藏高原地下可能存在→

首次发现!青藏高原地下可能存在→

环球时报国际
2026-02-07 20:20:18
契丹人有多讲究?签订澶渊之盟后,100多年和北宋几乎秋毫无犯

契丹人有多讲究?签订澶渊之盟后,100多年和北宋几乎秋毫无犯

历史摆渡
2026-02-02 20:05:03
彻底打脸!阿森纳水货大爆发:替补双响,近8场6球状态封神

彻底打脸!阿森纳水货大爆发:替补双响,近8场6球状态封神

球事百科吖
2026-02-08 08:48:48
白鹿张凌赫分手实锤?女方翻白眼不理睬,男方眼神卑微疑负了对方

白鹿张凌赫分手实锤?女方翻白眼不理睬,男方眼神卑微疑负了对方

小徐讲八卦
2026-02-07 08:19:32
我考上北大姑姑送我一银行卡,我妈去银行核对,得知余额后她愣了

我考上北大姑姑送我一银行卡,我妈去银行核对,得知余额后她愣了

张道陵秘话
2026-01-09 23:23:29
“联系大使馆!必须派飞机!”

“联系大使馆!必须派飞机!”

百态人间
2026-02-05 15:35:32
当不成总统了?特朗普“后院失火”,希拉里重出江湖,奥巴马被查

当不成总统了?特朗普“后院失火”,希拉里重出江湖,奥巴马被查

志宏教授
2026-02-08 10:09:33
米切尔向女友承诺:我会为骑士夺得总冠军,之后就娶你

米切尔向女友承诺:我会为骑士夺得总冠军,之后就娶你

科学发掘
2026-02-07 14:41:45
爸爸去哪儿6个孩子现状:有人进国家队,有人出家,有人出国断联

爸爸去哪儿6个孩子现状:有人进国家队,有人出家,有人出国断联

观察鉴娱
2025-11-04 09:35:35
民进党无法掌控“中选会”?陆配李贞秀案台官方只喊话不出手

民进党无法掌控“中选会”?陆配李贞秀案台官方只喊话不出手

海峡导报社
2026-02-07 08:46:04
10.7追责:杀害以色列女兵的哈马斯被斩首

10.7追责:杀害以色列女兵的哈马斯被斩首

桂系007
2026-02-05 05:10:02
奶茶店特别告示激怒网友:喝杯奶茶,怎么突然这么多“规矩”?

奶茶店特别告示激怒网友:喝杯奶茶,怎么突然这么多“规矩”?

饮界
2026-02-07 10:37:33
安徽女孩远嫁美国生3娃,8年后崩溃闹离婚,如今近况令人唏嘘!

安徽女孩远嫁美国生3娃,8年后崩溃闹离婚,如今近况令人唏嘘!

二大爷观世界
2026-02-06 18:15:48
比芯片断供还难受,美日垄断全世界90%市场,我们连高仿都造不出

比芯片断供还难受,美日垄断全世界90%市场,我们连高仿都造不出

搜史君
2026-02-07 13:35:11
李亚鹏直播时发飙,只因助理带货链接没做好,直播中无果直接发火

李亚鹏直播时发飙,只因助理带货链接没做好,直播中无果直接发火

一盅情怀
2026-02-07 17:48:33
国家安全部:NFC可能成为信息泄露乃至危害国家安全的渠道

国家安全部:NFC可能成为信息泄露乃至危害国家安全的渠道

上观新闻
2026-02-02 07:09:04
新血压标准已公布,高血压不再是120/80mmHg,愿你的血压在它之下

新血压标准已公布,高血压不再是120/80mmHg,愿你的血压在它之下

熊猫医学社
2026-02-06 11:35:03
陈幸同为何输给张本美和?邱贻可毫不避讳说出原因,说的非常实在

陈幸同为何输给张本美和?邱贻可毫不避讳说出原因,说的非常实在

林子说事
2026-02-08 07:25:04
难受,公司宣布全员停发工资!

难受,公司宣布全员停发工资!

黯泉
2026-02-07 22:03:18
2026-02-08 11:04:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1228文章数 223关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

媒体:特朗普发奥巴马视频 美国"欣赏"该视频的人不少

头条要闻

媒体:特朗普发奥巴马视频 美国"欣赏"该视频的人不少

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

家居
时尚
亲子
本地
艺术

家居要闻

现代轻奢 温馨治愈系

真爱大牌|| 过年5分钟搞定好气色,用了一整年才来分享

亲子要闻

外婆为了让宝宝穿罩衣拿舅舅现场示范

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

艺术要闻

10秒内认全狂草的人只有1%,你敢挑战吗?

无障碍浏览 进入关怀版