自然：生成式AI实现个体千种疾病风险的全景预测|肿瘤|流行病学

分享至

摘要

医疗决策的核心在于通过理解患者健康状况以预测并干预疾病进程。人工智能（AI）虽可通过学习大规模健康记录中的疾病进展模式辅助此任务，但其规模化潜力尚未充分探索。本研究通过改进GPT架构，开发了能模拟疾病进展及竞争关系的模型Delphi-2M。该模型在40万英国生物样本库数据上训练，并于参数固定条件下，使用190万丹麦人群数据成功验证。结果显示：Delphi-2M在保持与单疾病模型相当准确度的同时，实现了对上千种疾病发生率的同步预测；其生成能力还可合成未来健康轨迹，提供20年疾病负担估计并训练无需真实数据的AI模型。本研究通过可解释AI方法，揭示了疾病聚类的时间依赖性影响，同时暴露了模型习得的数据偏差。研究表明，基于Transformer的模型适用于健康预测与生成任务，能处理大规模人口数据，揭示疾病事件时间关联，为精准医学策略提供重要依据。

关键词：生成式人工智能，共病（Multimorbidity），疾病轨迹预测（Disease Trajectory Prediction），Transformer，精准医学（Precision Medicine），健康轨迹建模，合成健康数据（Synthetic Health Data），个性化健康风险（Personalized Health Risk）

魏云初丨作者

赵思怡丨审校

论文题目：Learning the natural history of human disease with generative transformers 论文链接：https://www.nature.com/articles/s41586-025-09529-3 发表时间：2025年9月17日论文来源：Nature

当医疗遇见大语言模型

——从“治疗过去”到“预演未来”

在传统医疗中，医生通过分析患者的病史、体征和检查结果，试图拼凑出健康的未来图景。然而，人类的疾病进程充满复杂性：急性发作与慢性疾病交织，多种合并症集群出现，且不同人群的疾病轨迹因遗传、生活方式和社会经济因素差异显著。

现有的预测模型多局限于单一疾病，而国际疾病分类（ICD-10）中上千种诊断代码的关联性与时序动态，始终是流行病学研究的难点。近年来，大语言模型在自然语言处理领域的突破，为这一难题提供了全新思路。正如ChatGPT通过分析上文预测下文，疾病进展同样可视为一种“健康语言”：每一次诊断如同一个词汇，其序列隐含了个体健康的“语法规则”。基于这一类比，研究团队改造了GPT架构，开发出Delphi-2M模型，开创性地实现了对全谱系疾病的生成式预测。

读懂“健康语言”：

Transformer的医疗化改造

健康数据与自然语言有着相似之处，但也存在本质区别。为了适应医疗数据的特殊性，研究团队首先创新了数据的表示方法。

他们构建了一个专用的“健康词汇表”。它将个体的健康轨迹转化为由ICD-10诊断代码、性别、体重指数（BMI）、吸烟与饮酒等生活方式标签组成的序列。为解决个体健康记录中长时间无诊断事件的间隔，研究引入“无事件”占位标记，以保留时间连续性并捕捉基线风险随时间的动态变化。最终构建的词汇表涵盖了1258种不同的健康状态。

随后，针对新的数据表示方法，对标准Transformer架构进行了三项关键性改造：

连续时间编码：研究人员用基于正弦-余弦函数的连续年龄编码，替代了传统Transformer中为文本设计的离散位置编码。这一革新使模型能精准理解疾病发生的具体时间点，解决了医疗时间轴连续且不规则的核心挑战。
双重预测输出头：模型在预测“下一个疾病是什么”之外，增加了一个独立的输出头，用于预测“到下一个事件还有多久”。这种同步输出“什么”与“何时”的能力，是Delphi-2M能够生成完整、连续的健康轨迹，而非孤立预测点的关键。
同步事件注意力掩码：在医疗记录中，多个诊断常被同时记录。团队修改了Transformer的因果注意力掩码，防止模型混淆同一时间点记录的不同事件，确保了时间依赖关系的准确建模。

通过“数据表示”与“架构改造”的紧密结合，Delphi-2M才真正获得了“理解”复杂“健康语言”的能力。

随后，研究团队对模型的泛化性能进行了系统评估：模型在40万英国生物样本库参与者数据上训练，保留10万用于验证，并在190万丹麦国民健康登记数据中进行外部测试——所有参数在跨国家测试中完全保持不变。

图1：a.Delphi-2M模型健康词汇表示；b.Delphi-2M模型训练与验证策略；c.Delphi-2M模型架构。

精准预测：全疾病谱系的表现

Delphi-2M在疾病预测方面展现出令人印象深刻的能力。对水痘、哮喘、抑郁症等十种典型疾病的预测曲线，与真实年龄-性别分层发生率吻合。对于败血症等个体差异显著的疾病，模型能识别出风险显著高于平均水平的亚群，展现出个性化预测潜力。

以AUC（受试者工作特征曲线下面积）作为性能指标进行评估。Delphi-2M在内部验证集中的平均AUC达0.76，97%的诊断预测优于随机猜测。其中，经年龄分层校正后的死亡预测AUC高达0.97，显示模型对终末事件的敏锐识别能力。

特别值得关注的是模型在不同疾病大类中的稳定表现。通过跨ICD-10章节的分析（其“章节”是按疾病类型划分的最高级别分类），研究人员证实模型在心血管疾病、呼吸系统疾病、肿瘤等不同疾病大类中均保持稳定性能。这表明模型具备广泛的预测泛化能力，其应用潜力不局限于某些特定疾病领域。

除个体风险识别外，Delphi-2M在时间维度上也展现出持久的预测能力。即使预测时间延长至10年，模型平均AUC仅从0.76降至0.70，证明其长期预测价值。与常规临床风险评分相比，Delphi-2M在心血管疾病和痴呆症预测上表现相当，在死亡风险预测上更优。

图2：a.十种典型疾病的模型预测曲线与真实年龄-性别分层发生率的对比；b.模型预测下一个诊断的平均AUC性能及分布；c、d.模型在不同ICD-10章节中的稳定表现；e.模型平均AUC随预测时间范围延长的变化曲线；f.Delphi-2M对特定疾病的预测AUC与现有的临床风险评分对比。注：AUC是一个衡量预测准确度的通用指标，数值越高代表预测越准确。

从预测到“预演”：生成式能力的突破

Delphi-2M的核心创新在于其生成能力。它不仅能预测单一疾病风险，还能按时间顺序模拟个体未来可能遭遇的多种健康事件，即生成健康轨迹。这意味着，模型的输出从对单一事件的静态预测，升级为了对个体未来健康状态的时序化模拟。

为了验证这种生成轨迹的可靠性，研究团队以60岁为时间节点，为6.3万名参与者生成后续健康轨迹。结果显示，模拟数据在70-75岁年龄段的疾病分布与真实数据密切吻合。在定量评估上，相比仅依赖年龄性别的基线模型，Delphi-2M的条件生成将疾病标记正确预测率从12-13%提升至14-17%。这初步证明了生成轨迹不仅整体分布合理，在个体层面也具备更精准的预测能力。

更重要的是，这种生成式能力为理解风险因素提供了全新的动态视角。通过模拟不同吸烟、饮酒、BMI人群的未来疾病负担，模型清晰"预演"了生活方式对健康的长期影响。例如，在模拟轨迹中，吸烟者群体的慢性呼吸道疾病发生率随时间显著上升，这一发现与经典的流行病学结果相符，从而在数据层面验证了模型模拟的现实指导意义。

除了深化认知，该生成能力还有一个极具潜力的实用价值——合成数据的创造。实验表明，完全基于合成数据训练的模型，在真实验证集上仍达到0.74的AUC，仅比原模型低3个百分点。这一结果强有力地证实，合成数据再现了真实数据的核心统计规律。因此，该方法为医疗AI开发中克服数据隐私与孤岛壁垒，提供了一条创新的技术路径。

图3：a.模型从60岁开始采样生成多种可能的未来健康轨迹；b.模型生成的轨迹(Sampled) 与真实观测数据(Observed)的疾病分布；c.在轨迹生成任务中，Delphi-2M相比仅依赖年龄性别的基线模型，在各个时间点能更准确地预测出具体的疾病标记；d.不同吸烟状态的人群，在模拟的未来轨迹中，其慢性呼吸道疾病负担的显著差异；e.与b相同，针对从出生开始的模拟进行评估；f.使用UBK数据与模型合成数据训练的模型，二者的AUC性能对比。

可解释性：理解模型的“思考”逻辑

对于医疗AI来说，可解释性是其赢得临床信任的关键。Delphi-2M通过多层次的分析，让我们得以窥见其内部的“思考”逻辑。

在结构层面，模型的内部表示自发形成了有意义的疾病图谱。在嵌入空间中，相同ICD-10章节的疾病（如糖尿病相关视网膜病变与神经病变）会自动聚类。更具启示性的是，具有高急性死亡风险的疾病（如心肌梗死、败血症）与死亡标记聚集。这表明模型无需显式指导，便通过学习疾病在数据中的联合分布，掌握了它们之间的临床关联——这本质上是基于其统计共现关系，而非因果机制。

在因果层面，该模型分析量化了特定病史对未来风险的驱动作用。例如，分析显示消化系统疾病史可使胰腺癌风险提升19倍，而一旦确诊胰腺癌，死亡风险激增近万倍。研究进一步揭示了这种影响的时间依赖性：妊娠相关疾病的影响集中在5年内，而精神疾病和肿瘤的相互影响则持续更久。

在动态层面，注意力机制展现了模型处理时间依赖性的精巧能力。模型对癌症诊断保持长达数年的“关注”，反映出其长期死亡风险的把握；而对败血症等急性事件，其注意力快速衰减，这与临床观察到的风险变化模式一致。这种动态注意力权重，是模型能够自适应地权衡历史事件重要性的核心。

图4：a.不同章节疾病编码在嵌入空间中的UMAP可视化图；b.消化系统疾病史等因素如何逐步将胰腺癌风险显著推高；c.不同疾病在短期(如5年内) 和长期(如10年后)的相互影响强度；d.基于SHAP值的死亡率预测影响程度随诊断后时间的变化分析

局限与挑战：前进路上的障碍

Delphi-2M也面临一些挑战。训练数据的选择偏差是一个主要问题：英国生物样本库参与者以白人、高教育程度人群为主，导致模型在少数族裔和低收入群体中预测性能下降。招募时40-70岁的年龄范围造成“永生偏倚”——忽略了招募前死亡个案，间接影响高死亡率疾病的预测准确性。

此外，数据模态的单一性也限制了模型潜力。当前模型仅基于诊断代码和基础生活方式信息，尚未整合基因组学、影像学、处方记录等关键数据。这限制了模型洞察疾病的深层生物学机制的能力，特别是在强遗传成分的疾病或依赖影像学检查的早期病变方面。

跨医疗系统的泛化能力虽有展示但仍不完美。在丹麦数据测试中，模型AUC从0.76降至0.67，虽保持良好相关性，但仍揭示国家间医疗体系差异对预测的影响。这提示未来应用需进行本地化校准。

未来展望：AI重塑医疗的无限可能

尽管存在挑战，Delphi-2M的出现无疑开辟了新的可能性。它的架构为整合多模态数据留下丰富接口。未来可纳入处方记录、基因组学、穿戴设备数据，构建更全面的健康嵌入空间。同时，模型直接处理临床文本的潜力，将打破结构化数据的限制。

在应用层面，Delphi类模型可朝两个方向发展：临床决策支持识别传统年龄标准之外的高风险个体，优化筛查资源配置；公共卫生规划，通过聚合个体预测，模拟区域性疾病负担变迁，为医疗资源布局提供数据支撑。

研究人员展望，未来几年内患者可能直接受益——医生借助类似工具就能告知患者：“你未来可能面临几个主要风险，有几件事现在可以改变结果”。

Delphi-2M的出现，标志着疾病预测从“单疾病、静态评估”迈向“全谱系、动态生成”的新范式。通过将源自自然语言处理的Transformer架构创造性应用于健康轨迹建模，我们不仅获得了预测疾病的能力，更拥有了“预演”未来的独特视角。

在人工智能与医疗深度融合的时代，这种能够揭示疾病演进内在模式的模型，或许终将为我们制定更精准、更个性化的健康决策提供关键依据。

参考文献

[1] Shmatko, A., Jung, A.W., Gaurav, K. et al. Learning the natural history of human disease with generative transformers. Nature (2025). https://doi.org/10.1038/s41586-025-09529-3

[2] Garg, M. et al. Disease prediction with multi-omics and biomarkers empowers case-control genetic discoveries in the UK Biobank. Nat. Genet. 56, 1821–1831 (2024).

[3] Fry, A. et al. Comparison of sociodemographic and health-related characteristics of UK Biobank participants with those of the general population. Am. J. Epidemiol. 186, 1026–1034 (2017).

[4] Sudlow, C. et al. UK biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. PLoS Med. 12, e1001779 (2015).

[5] Anatürk, M. et al. Development and validation of a dementia risk score in the UK Biobank and Whitehall II cohorts. BMJ Ment. Health 26, e300719 (2023).

[6] Schmidt, M. et al. The Danish National Patient Registry: a review of content, data quality, and research potential. Clin. Epidemiol. 7, 449–490 (2015).

[7] Helweg-Larsen, K. The Danish register of causes of death. Scand. J. Publ. Health 39, 26–29 (2011).Danish National Health Registry. 2018. Population-wide health records.

大模型与生物医学：

AI + Science第二季读书会

生物医学是一个复杂且富有挑战性的领域，涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入，使得我们能够从前所未有的角度去观察和理解这个领域的问题，加速科学研究的步伐，提高医疗服务的效率和效果。这种交叉领域的合作，标志着我们正在向科技与生物医学深度融合的新时代迈进，对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。

集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩，华盛顿大学博士研究生屠鑫明，共同发起，共学共研相关文献，探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：

-一年一度特惠-

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.