![]()
作者丨论文团队
编辑丨ScienceAI
衰老是具体而实在的:它既体现在皱纹增多、体力下降这些多数人能感受到的变化上,也发生在身体内部细胞和分子水平的缓慢累积之中。过去十多年里,科学家逐渐认识到,DNA 甲基化作为一种稳定而系统的表观遗传标记,能够记录个体真实的生物学衰老状态,并与多种慢性疾病的发生风险密切相关。因此,表观遗传时钟(Epigenetic Clock)不仅被视为衡量「人老得快还是慢」的工具,也逐渐成为评估衰老干预效果、预测疾病风险、以及开展个体化健康管理的重要量化手段。
然而,一个长期制约该领域发展的核心难题在于泛化能力。不同研究队列、不同测序平台、不同预处理流程乃至不同组织来源之间,都会引入显著的技术差异和系统偏移。许多经典的衰老时钟(Aging Clock)在原始研究数据中表现良好,但一旦应用到新的数据集或真实临床场景,预测精度便明显下降。这使得表观遗传时钟在临床转化、跨队列研究以及长期健康随访中的应用受到限制。
在这一现实背景下,上海科学智能研究院(下称上智院)与复旦大学人类表型组研究院、复旦大学人工智能创新与产业研究院(下称复旦大学 AI³ 院)、无限光年技术有限公司(下称无限光年)等进行联合研究,提出了一个稳健的基于成对学习的甲基化年龄与疾病风险预测框架 MAPLE(A Robust Computational Framework forMethylationAge and Disease-riskPredictionBased onPairwiseLEarning),从方法学上引入成对学习思想缓解了高维小样本条件下的过拟合问题,并为跨平台、跨组织的统一建模提供了可行路径。
在全部 31 项测试中,MAPLE 的平均绝对误差为 1.6 年,显著优于多种现有主流方法,并且在疾病识别上曲线下面积均值达 0.97,对疾病前驱状态检测也达到 0.85,显示其精准识别早期风险的能力。MAPLE 不仅在数值精度上取得了突破,更重要的是在方法层面提供了一种可泛化的表观遗传建模范式,为衰老干预评估、慢性病早筛以及长期健康管理奠定了更加可靠的量化基础。
![]()
论文题目:A robust computational framework for methylation age and disease-risk prediction based on pairwise learning
论文地址:https://www.nature.com/articles/s43588-025-00939-x
代码地址:
https://aistudio.ai4s.com.cn/galaxy-model/partner/galaxy-model-frontend/model/1221437
https://github.com/Drizzle-Zhang/MAPLE
该研究成果已发表于 Nature Computational Science。上智院研究员张雨、无限光年算法科学家姚易辰,为共同第一作者。复旦大学金力院士,上智院首席科学家、复旦大学特聘教授漆远,上智院领域科学家何莹,无限光年联合创始人、复旦大学 AI³ 院研究员徐盈辉,为共同通讯作者。无限光年实习生唐元昊,上智院生命科学方向负责人、复旦大学 AI³ 院研究员程远,为共同作者。
研究项目由星河启智科学智能开放平台(https://aistudio.ai4s.com.cn/)和复旦大学 CFFF 智算平台提供技术和算力支持。
不再直接「算年龄」,而是先理解样本之间的相对衰老关系
既往的表观遗传衰老模型大多遵循一个直接的建模范式:从单一样本的甲基化谱出发,预测一个对应的「绝对年龄」或「绝对风险分数」。这种做法在数据条件理想、训练与测试分布高度一致时往往有效,但在真实研究和临床应用中却面临明显挑战。
其根本原因在于,甲基化数据高度敏感于测序平台、预处理流程以及组织来源等非生物因素。在这种情况下,模型往往更容易学习到「样本来自哪个实验体系」,而非真正反映个体衰老或疾病风险状态的生物学信号,导致跨队列、跨组织应用时性能迅速下降。
针对这一问题,研究团队在方法学上采取了不同的建模视角:不再要求模型直接输出绝对数值,而是让模型先学习样本之间的相对关系 —— 哪一个样本更老、哪一个样本疾病风险更高。通过在训练阶段构建大量样本对,模型被迫关注那些在不同数据来源中始终保持一致的变化趋势,从而有效弱化技术噪声和系统偏差的影响。
成对学习策略带来了两个直接收益。一方面,它显著降低了平台和预处理差异对模型的干扰,提高了跨数据集的稳定性;另一方面,通过样本成对组合,模型在有限样本规模下获得了更充分的监督信号,有效缓解了高维小样本条件下的过拟合问题。
![]()
衰老不仅能「算得准」,还能「对得上生物学」
在系统评估中,该方法在来自不同研究、不同测序芯片、不同数据标准化流程以及多种组织类型的 31 组独立测试中展现出高度稳定的性能。整体来看,其甲基化年龄预测的中位绝对误差约为 1.6 年,显著优于多种现有主流方法;即使在非血液组织(如脑、肌肉、脂肪和皮肤)中,预测精度依然保持在较高水平,显示出良好的跨组织泛化能力。
![]()
除了数值精度,该框架在生物学解释层面同样表现突出。通过对模型关注的关键甲基化位点进行分析,研究发现这些位点在不同独立研究之间具有高度一致性,其关联基因显著富集于发育调控、组织重塑、免疫调节、神经功能及认知等经典衰老相关生物过程。这表明,模型并非仅依赖统计相关性进行拟合,而是优先捕捉具有明确生物学意义的调控信号。
进一步的人群与疾病分析显示,该方法能够识别一系列细微但具有生物学指向性的衰老特征。例如,在女性人群中,模型捕捉到围绝经期附近出现的显著衰老节律变化;在吸烟、肥胖、唐氏综合征、HIV 感染以及阿尔茨海默病等人群中,模型一致检测到明显的衰老加速信号。值得注意的是,在阿尔茨海默病分析中,该方法在脑组织中识别出的衰老加速特征,在血液样本中并不显著,提示其具备区分组织特异性衰老信号的能力。
这些结果共同表明,该框架不仅在预测层面表现稳定,也能够真实反映衰老相关的生物学过程。
![]()
从衰老测量走向疾病风险预测
衰老评估的最终价值,并不止于刻画「生物年龄」,而在于揭示疾病风险的累积与演变。基于同一成对学习框架,研究团队进一步将模型扩展至心血管疾病和 2 型糖尿病等常见慢性疾病的风险评估任务,使表观遗传信号能够直接服务于疾病风险建模。
在多项独立测试中,该方法能够有效区分健康人群、疾病前驱状态以及确诊患者。在心血管疾病任务中,模型在疾病识别和动脉粥样硬化等前疾病状态的识别性能均明显优于传统风险模型;在 2 型糖尿病相关分析中,模型同样能够区分系统性胰岛素抵抗、前驱糖尿病等状态与确诊患者,显示出对疾病连续进展过程的良好刻画能力。
更进一步的分析表明,这种性能优势并非仅来自年龄信息的叠加。即便在控制不同人群年龄分布后,模型的判别能力依然保持稳定,说明其捕捉到的是与疾病发生和进展直接相关的表观遗传变化。模型所强调的关键甲基化位点,其关联基因在血管结构重塑、免疫炎症反应、代谢调控和胰岛素信号通路等疾病相关生物过程中显著富集,提示模型不仅能够区分疾病状态,也在分子层面识别出与病理机制一致的信号。
这一特性使得该框架在慢性病早筛、风险分层以及长期健康管理等场景中具备潜在应用价值,同时也为将表观遗传信息更系统地纳入疾病生物学研究提供了新的计算工具。
![]()
结语
总体而言,MAPLE 的意义并不局限于在既有基准上取得更优的预测指标,更在于为表观遗传建模提供了一种可推广的方法论范式。通过成对学习,模型将建模重心从不稳定的「绝对数值预测」转向更具跨数据集一致性的「相对关系学习」,在高维、样本规模受限且来源高度异质的甲基化数据条件下,有效缓解了过拟合与批次效应对模型泛化能力的制约。这一设计使模型能够在不同测序平台、预处理流程和组织来源之间提取稳定的生物学信号,为基于表观遗传信息的衰老时钟和疾病风险预测工具走向真实世界应用奠定了方法学基础。
从更长远的科学智能发展视角来看,MAPLE 也为机制发现与方法融合打开了空间。一方面,模型在不同数据集中稳定聚焦的关键甲基化位点,为解析衰老与疾病相关的调控通路提供了更高信噪比的候选集合;另一方面,该框架具有良好的可扩展性,随着纵向随访队列和多组学数据的不断积累,该框架将被应用在更多的表观遗传数据检测场景,有望成为连接分子层面衰老过程、疾病演进机制与干预评估之间的重要计算桥梁。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.