![]()
摘要
医疗决策的核心在于通过理解患者健康状况以预测并干预疾病进程。人工智能(AI)虽可通过学习大规模健康记录中的疾病进展模式辅助此任务,但其规模化潜力尚未充分探索。本研究通过改进GPT架构,开发了能模拟疾病进展及竞争关系的模型Delphi-2M。该模型在40万英国生物样本库数据上训练,并于参数固定条件下,使用190万丹麦人群数据成功验证。结果显示:Delphi-2M在保持与单疾病模型相当准确度的同时,实现了对上千种疾病发生率的同步预测;其生成能力还可合成未来健康轨迹,提供20年疾病负担估计并训练无需真实数据的AI模型。本研究通过可解释AI方法,揭示了疾病聚类的时间依赖性影响,同时暴露了模型习得的数据偏差。研究表明,基于Transformer的模型适用于健康预测与生成任务,能处理大规模人口数据,揭示疾病事件时间关联,为精准医学策略提供重要依据。
关键词:生成式人工智能,共病(Multimorbidity),疾病轨迹预测(Disease Trajectory Prediction),Transformer,精准医学(Precision Medicine),健康轨迹建模,合成健康数据(Synthetic Health Data),个性化健康风险(Personalized Health Risk)
魏云初丨作者
赵思怡丨审校
![]()
论文题目:Learning the natural history of human disease with generative transformers 论文链接:https://www.nature.com/articles/s41586-025-09529-3 发表时间:2025年9月17日 论文来源:Nature
当医疗遇见大语言模型
——从“治疗过去”到“预演未来”
在传统医疗中,医生通过分析患者的病史、体征和检查结果,试图拼凑出健康的未来图景。然而,人类的疾病进程充满复杂性:急性发作与慢性疾病交织,多种合并症集群出现,且不同人群的疾病轨迹因遗传、生活方式和社会经济因素差异显著。
现有的预测模型多局限于单一疾病,而国际疾病分类(ICD-10)中上千种诊断代码的关联性与时序动态,始终是流行病学研究的难点。近年来,大语言模型在自然语言处理领域的突破,为这一难题提供了全新思路。正如ChatGPT通过分析上文预测下文,疾病进展同样可视为一种“健康语言”:每一次诊断如同一个词汇,其序列隐含了个体健康的“语法规则”。基于这一类比,研究团队改造了GPT架构,开发出Delphi-2M模型,开创性地实现了对全谱系疾病的生成式预测。
读懂“健康语言”:
Transformer的医疗化改造
健康数据与自然语言有着相似之处,但也存在本质区别。为了适应医疗数据的特殊性,研究团队首先创新了数据的表示方法。
他们构建了一个专用的“健康词汇表”。它将个体的健康轨迹转化为由ICD-10诊断代码、性别、体重指数(BMI)、吸烟与饮酒等生活方式标签组成的序列。为解决个体健康记录中长时间无诊断事件的间隔,研究引入“无事件”占位标记,以保留时间连续性并捕捉基线风险随时间的动态变化。 最终构建的词汇表涵盖了1258种不同的健康状态。
随后,针对新的数据表示方法,对标准Transformer架构进行了三项关键性改造:
连续时间编码:研究人员用基于正弦-余弦函数的连续年龄编码,替代了传统Transformer中为文本设计的离散位置编码。这一革新使模型能精准理解疾病发生的具体时间点,解决了医疗时间轴连续且不规则的核心挑战。
双重预测输出头:模型在预测“下一个疾病是什么”之外,增加了一个独立的输出头,用于预测“到下一个事件还有多久”。这种同步输出“什么”与“何时”的能力,是Delphi-2M能够生成完整、连续的健康轨迹,而非孤立预测点的关键。
同步事件注意力掩码:在医疗记录中,多个诊断常被同时记录。团队修改了Transformer的因果注意力掩码,防止模型混淆同一时间点记录的不同事件,确保了时间依赖关系的准确建模。
通过“数据表示”与“架构改造”的紧密结合,Delphi-2M才真正获得了“理解”复杂“健康语言”的能力。
随后,研究团队对模型的泛化性能进行了系统评估:模型在40万英国生物样本库参与者数据上训练,保留10万用于验证,并在190万丹麦国民健康登记数据中进行外部测试——所有参数在跨国家测试中完全保持不变。
![]()
图1:a.Delphi-2M模型健康词汇表示;b.Delphi-2M模型训练与验证策略;c.Delphi-2M模型架构。
精准预测:全疾病谱系的表现
Delphi-2M在疾病预测方面展现出令人印象深刻的能力。对水痘、哮喘、抑郁症等十种典型疾病的预测曲线,与真实年龄-性别分层发生率吻合。对于败血症等个体差异显著的疾病,模型能识别出风险显著高于平均水平的亚群,展现出个性化预测潜力。
以AUC(受试者工作特征曲线下面积)作为性能指标进行评估。Delphi-2M在内部验证集中的平均AUC达0.76,97%的诊断预测优于随机猜测。其中,经年龄分层校正后的死亡预测AUC高达0.97,显示模型对终末事件的敏锐识别能力。
特别值得关注的是模型在不同疾病大类中的稳定表现。通过跨ICD-10章节的分析(其“章节”是按疾病类型划分的最高级别分类),研究人员证实模型在心血管疾病、呼吸系统疾病、肿瘤等不同疾病大类中均保持稳定性能。这表明模型具备广泛的预测泛化能力,其应用潜力不局限于某些特定疾病领域。
除个体风险识别外,Delphi-2M在时间维度上也展现出持久的预测能力。即使预测时间延长至10年,模型平均AUC仅从0.76降至0.70,证明其长期预测价值。与常规临床风险评分相比,Delphi-2M在心血管疾病和痴呆症预测上表现相当,在死亡风险预测上更优。
![]()
图2:a.十种典型疾病的模型预测曲线与真实年龄-性别分层发生率的对比;b.模型预测下一个诊断的平均AUC性能及分布;c、d.模 型在不同ICD-10章节中的稳定表现;e.模型平均AUC随预测时间范围延长的变化曲线;f.Delphi-2M对特定疾病的预测AUC与现有的临床风险评分对比。注:AUC是一个衡量预测准确度的通用指标,数值越高代表预测越准确。
从预测到“预演”:生成式能力的突破
Delphi-2M的核心创新在于其生成能力。它不仅能预测单一疾病风险,还能按时间顺序模拟个体未来可能遭遇的多种健康事件,即生成健康轨迹。这意味着,模型的输出从对单一事件的静态预测,升级为了对个体未来健康状态的时序化模拟。
为了验证这种生成轨迹的可靠性,研究团队以60岁为时间节点,为6.3万名参与者生成后续健康轨迹。结果显示,模拟数据在70-75岁年龄段的疾病分布与真实数据密切吻合。在定量评估上,相比仅依赖年龄性别的基线模型,Delphi-2M的条件生成将疾病标记正确预测率从12-13%提升至14-17%。这初步证明了生成轨迹不仅整体分布合理,在个体层面也具备更精准的预测能力。
更重要的是,这种生成式能力为理解风险因素提供了全新的动态视角。通过模拟不同吸烟、饮酒、BMI人群的未来疾病负担,模型清晰"预演"了生活方式对健康的长期影响。例如,在模拟轨迹中,吸烟者群体的慢性呼吸道疾病发生率随时间显著上升,这一发现与经典的流行病学结果相符,从而在数据层面验证了模型模拟的现实指导意义。
除了深化认知,该生成能力还有一个极具潜力的实用价值——合成数据的创造。 实验表明,完全基于合成数据训练的模型,在真实验证集上仍达到0.74的AUC,仅比原模型低3个百分点。这一结果强有力地证实,合成数据再现了真实数据的核心统计规律。因此,该方法为医疗AI开发中克服数据隐私与孤岛壁垒,提供了一条创新的技术路径。
![]()
图3:a.模型从60岁开始采样生成多种可能的未来健康轨迹;b.模型生成的轨迹(Sampled) 与真实观测数据(Observed)的疾病分布;c.在轨迹生成任务中,Delphi-2M相比仅依赖年龄性别的基线模型,在各个时间点能更准确地预测出具体的疾病标记;d.不同吸烟状态的人群,在模拟的未来轨迹中,其慢性呼吸道疾病负担的显著差异;e.与b相同,针对从出生开始的模拟进行评估;f.使用UBK数据与模型合成数据训练的模型,二者的AUC性能对比。
可解释性:理解模型的“思考”逻辑
对于医疗AI来说,可解释性是其赢得临床信任的关键。Delphi-2M通过多层次的分析,让我们得以窥见其内部的“思考”逻辑。
在结构层面,模型的内部表示自发形成了有意义的疾病图谱。在嵌入空间中,相同ICD-10章节的疾病(如糖尿病相关视网膜病变与神经病变)会自动聚类。更具启示性的是,具有高急性死亡风险的疾病(如心肌梗死、败血症)与死亡标记聚集。这表明模型无需显式指导,便通过学习疾病在数据中的联合分布,掌握了它们之间的临床关联——这本质上是基于其统计共现关系,而非因果机制。
在因果层面,该模型分析量化了特定病史对未来风险的驱动作用。例如,分析显示消化系统疾病史可使胰腺癌风险提升19倍,而一旦确诊胰腺癌,死亡风险激增近万倍。研究进一步揭示了这种影响的时间依赖性:妊娠相关疾病的影响集中在5年内,而精神疾病和肿瘤的相互影响则持续更久。
在动态层面,注意力机制展现了模型处理时间依赖性的精巧能力。模型对癌症诊断保持长达数年的“关注”,反映出其长期死亡风险的把握;而对败血症等急性事件,其注意力快速衰减,这与临床观察到的风险变化模式一致。这种动态注意力权重,是模型能够自适应地权衡历史事件重要性的核心。
![]()
图4:a.不同章节疾病编码在嵌入空间中的UMAP可视化图;b.消化系统疾病史等因素如何逐步将胰腺癌风险显著推高;c.不同疾病在短期(如5年内) 和长期(如10年后)的相互影响强度;d.基于SHAP值的死亡率预测影响程度随诊断后时间的变化分析
局限与挑战:前进路上的障碍
Delphi-2M也面临一些挑战。训练数据的选择偏差是一个主要问题:英国生物样本库参与者以白人、高教育程度人群为主,导致模型在少数族裔和低收入群体中预测性能下降。招募时40-70岁的年龄范围造成“永生偏倚”——忽略了招募前死亡个案,间接影响高死亡率疾病的预测准确性。
此外,数据模态的单一性也限制了模型潜力。当前模型仅基于诊断代码和基础生活方式信息,尚未整合基因组学、影像学、处方记录等关键数据。这限制了模型洞察疾病的深层生物学机制的能力,特别是在强遗传成分的疾病或依赖影像学检查的早期病变方面。
跨医疗系统的泛化能力虽有展示但仍不完美。在丹麦数据测试中,模型AUC从0.76降至0.67,虽保持良好相关性,但仍揭示国家间医疗体系差异对预测的影响。这提示未来应用需进行本地化校准。
未来展望:AI重塑医疗的无限可能
尽管存在挑战,Delphi-2M的出现无疑开辟了新的可能性。它的架构为整合多模态数据留下丰富接口。未来可纳入处方记录、基因组学、穿戴设备数据,构建更全面的健康嵌入空间。同时,模型直接处理临床文本的潜力,将打破结构化数据的限制。
在应用层面,Delphi类模型可朝两个方向发展:临床决策支持识别传统年龄标准之外的高风险个体,优化筛查资源配置;公共卫生规划,通过聚合个体预测,模拟区域性疾病负担变迁,为医疗资源布局提供数据支撑。
研究人员展望,未来几年内患者可能直接受益——医生借助类似工具就能告知患者:“你未来可能面临几个主要风险,有几件事现在可以改变结果”。
Delphi-2M的出现,标志着疾病预测从“单疾病、静态评估”迈向“全谱系、动态生成”的新范式。通过将源自自然语言处理的Transformer架构创造性应用于健康轨迹建模,我们不仅获得了预测疾病的能力,更拥有了“预演”未来的独特视角。
在人工智能与医疗深度融合的时代,这种能够揭示疾病演进内在模式的模型,或许终将为我们制定更精准、更个性化的健康决策提供关键依据。
参考文献
[1] Shmatko, A., Jung, A.W., Gaurav, K. et al. Learning the natural history of human disease with generative transformers. Nature (2025). https://doi.org/10.1038/s41586-025-09529-3
[2] Garg, M. et al. Disease prediction with multi-omics and biomarkers empowers case-control genetic discoveries in the UK Biobank. Nat. Genet. 56, 1821–1831 (2024).
[3] Fry, A. et al. Comparison of sociodemographic and health-related characteristics of UK Biobank participants with those of the general population. Am. J. Epidemiol. 186, 1026–1034 (2017).
[4] Sudlow, C. et al. UK biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. PLoS Med. 12, e1001779 (2015).
[5] Anatürk, M. et al. Development and validation of a dementia risk score in the UK Biobank and Whitehall II cohorts. BMJ Ment. Health 26, e300719 (2023).
[6] Schmidt, M. et al. The Danish National Patient Registry: a review of content, data quality, and research potential. Clin. Epidemiol. 7, 449–490 (2015).
[7] Helweg-Larsen, K. The Danish register of causes of death. Scand. J. Publ. Health 39, 26–29 (2011).Danish National Health Registry. 2018. Population-wide health records.
大模型与生物医学:
AI + Science第二季读书会
生物医学是一个复杂且富有挑战性的领域,涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入,使得我们能够从前所未有的角度去观察和理解这个领域的问题,加速科学研究的步伐,提高医疗服务的效率和效果。这种交叉领域的合作,标志着我们正在向科技与生物医学深度融合的新时代迈进,对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。
集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩,华盛顿大学博士研究生屠鑫明,共同发起,共学共研相关文献, 探讨基础模型在生物医学等科学领域的应用、影响和展望。 读书会已完结,现在报名可加入社群并解锁 回放 视频权限。
详情请见:
-一年一度特惠-
![]()
1.
2.
3.
4.
5.
6.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.