
细胞衰老(cellular senescence)是细胞在应激刺激后进入的一种不可逆增殖停滞状态,它一方面在肿瘤抑制与组织修复中发挥保护作用,另一方面也会通过慢性炎症、组织功能衰退等途径推动多种年龄相关疾病进展,因此,如何在更大尺度上识别衰老相关分子、刻画其调控网络并发现可干预靶点,一直是衰老生物学与转化医学关注的核心问题。传统的衰老鉴定往往依赖SA-β-gal染色、转录组 、 蛋白组标志物或功能性实验验证,虽然可靠,但普遍存在周期长、成本高、可扩展性有限的瓶颈,尤其当研究者希望在全基因组 、 全蛋白组层面进行筛查时,实验路径往往难以支撑高通量需求。
基于这一现实挑战, 重庆市妇幼保健院刘禄斌、林俐团队与重庆医科大学附属第一医院谭彬团队在Aging Cell发表了研究工作SenSeqNet: A Deep Learning Framework for Cellular Senescence Detection From Protein Sequences,提出了一种反向思路:不再把衰老预测的入口放在细胞表型或转录组上,而是直接从蛋白质序列这一“最普适、最可规模化”的信息源出发,构建一个能够识别“衰老相关蛋白序列特征”的深度学习框架SenSeqNet。
![]()
蛋白质序列本质上是一种生物学“语言”,其中隐含了结构域组成、二级结构倾向、无序区与短线性基序等多层次的功能线索,近年来蛋白语言模型(protein language model)在大规模序列上学习到的嵌入表示,已被证明能够携带丰富的结构与功能信息。 SenSeqNet 的核心策略正是将ESM-2这类蛋白语言模型生成的序列嵌入作为高维“语义表示”,再结合混合的LSTM–CNN结构同时捕捉长程依赖与局部模式,从而在仅输入蛋白序列的条件下,实现对细胞衰老相关性的预测。
为了让模型学到的确实是与衰老机制相关的信号而不是数据偏差,我们在数据构建上尽量采取高置信、可解释的路线:正样本主要来自 CellAge 数据库中经实验验证可诱导衰老的基因集合,并进一步纳入SASP Atlas、 SenMayo 、 SenPy 生理背景的数据以增强生物学相关性;负样本则选取与衰老机制区分度较高的功能类别作为对照,并在蛋白序列层面进行严格去冗余与分割,尽可能降低同源序列带来的“信息泄漏”与过拟合风险。在模型评估中, SenSeqNet 在独立测试上取得了86.43%的准确率以及在外部验证集上达到了77.55%的真阳性率。更重要的是,我们并不满足于“预测得准”,而希望回答一个更关键的问题:模型是否捕捉到了与已知衰老生物学一致的规律。为此,我们对模型高置信预测得到的候选基因进行了功能富集与通路层面的检验,结果显示这些候选集合在经典衰老相关通路呈现出显著的富集倾向,支持 SenSeqNet 并非仅仅在标签层面做预测,而是学习到了与生物学机制相契合的调控程序。
总体而言,这项工作提供了一个可扩展的新入口:当研究者只有蛋白序列、缺乏系统性实验数据,或者希望在大规模蛋白层面先进行“第一轮筛查”时, SenSeqNet 能够作为高通量、低门槛的计算工具,为后续机制研究与实验验证提供更聚焦的候选清单;同时,这一框架也为“衰老信号是否以可被序列模型捕捉的方式编码在蛋白中”这一问题提供了新的证据。
原文链接:https://onlinelibrary.wiley.com/doi/10.1111/acel.70344
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.