*仅供医学专业人士阅读参考
人工智能(AI)的出现为我们提供了许多此前从未想过的问题解决方案,包括通过既往的个体健康信息来预测未来的疾病风险。
今日,《自然》杂志发表了一个全新的医疗大模型Delphi-2M,研究者们创新地利用大语言模型(LLM)来理解人类的疾病演变,基于40万人的健康数据训练了模型,使用190万人外部数据验证,建立了可高精度预测未来20年中超过1000种疾病发生率的大模型Delphi-2M。
个体的健康轨迹可以以一系列由ICD-10编码和相应的年龄来表示,这其实和语言很类似,也是一种序列。因此,研究者想到,将ICD-编码等信息拆解成token,也可以利用大语言模型来解读。
在本研究中,研究者将ICD-10编码,再加上参与者的性别、BMI、吸烟饮酒信息,共计1258个信息作为tokens,为避免某些年龄段数据量太稀疏,在空白期中每隔5年添加一个“无事件”token。数据来自英国生物库,402799个参与者(80%)数据作为训练数据,100639个参与者(20%)数据作为验证和优化数据。此外,研究者还使用193万名丹麦国民的疾病登记数据作为外部验证。
Delphi-2M在GPT-2的基础上设计,适应医疗预测需求改进了时间编码方式等细节,以提升不同年龄和性别群体中的表现。
Delphi-2M预测效果良好,能有效识别不同疾病的年龄和性别分层的发生趋势,例如水痘等疾病在婴幼儿期高发,哮喘/抑郁等疾病在各年龄段间平稳,多数疾病在老年期发病率快速上升,乳腺癌/糖尿病/抑郁症等疾病性别差异显著。
模型预测的曲线下面积(AUC)平均值为0.76,说明整体效果良好;对于97%的疾病,AUC都能达到0.5以上,说明具有一定的预测效率;模型对死亡的预测是最准确的,AUC高达0.97。
Delphi-2M对短期(几周内的急性病)和长期疾病都有预测能力,预测10年后疾病的平均AUC仍有0.7,说明Delphi-2M可以用于长期的健康风险评估。
研究者选择了几种有代表性的疾病,对比了Delphi-2M和临床预测模型的表现。在心血管疾病、痴呆的预测上,Delphi-2M与常用风险评分相当,预测死亡效果较临床评分更好;预测糖尿病上,Delphi-2M不如HbA1c;同时预测多种疾病,研究者对比的是另一个使用英国生物库数据,基于67个生物标志物训练的机器学习模型,结果Delphi-2M更优。
具有高精度的同时,Delphi-2M能够同时预测超过1000种疾病,可以说是非常通用了。
研究者认为,进一步补充生物标志物、基因组特征、可穿戴设备等数据,能够进一步提升模型对部分疾病的预测能力。
Delphi-2M是一个生成式模型,不仅能够预测特定疾病的发生,还能够模拟个体未来几十年的健康变化轨迹,这是传统流行病学模型很难做到的。根据过往健康信息,Delphi-2M能够提供长达20年的潜在疾病负担估计。
此外,Delphi-2M还采用了SHAP方法来解释每个输入对结果的影响,也就是能够反向追查患病原因。
总而言之,Delphi-2M提供了与其他流行病学模型不同的见解,具有对疾病轨迹和发展模型预测的独特能力。目前,Delphi-2M还处于实验室阶段,研究者预计,Delphi-2M有足够的潜力参与医疗决策,包括预防医学、临床决策支持、辅助制定医疗保健规划等等。
参考资料:
[1]Shmatko, A., Jung, A.W., Gaurav, K. et al. Learning the natural history of human disease with generative transformers. Nature (2025). https://doi.org/10.1038/s41586-025-09529-3
本文作者丨代丝雨
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.