网易首页 > 网易号 > 正文 申请入驻

Nature | 谢伟迪/孙锟/余永国/张娅团队开发首个可追溯罕见病AI诊断系统,能识别超2900种疾病

0
分享至

罕见病指患病率低于1/2000的疾病,目前已发现超7000种,其中约80%由遗传因素导致,全球累计影响超3亿人。由于罕见病临床表现异质性强、单病种发病率低且临床医生认知不足,导致诊断极其困难;患者平均需经历5年以上的“诊断历程”才能确诊,期间伴随反复转诊、误诊和不必要的干预,严重影响治疗与预后并带来沉重身心与经济负担。

近年来,人工智能(AI)系统的迅速进展为疾病诊断提供了变革性潜力,但现有罕见病AI诊断工具面临多学科知识融合不足、训练数据稀缺、知识更新滞后、推理过程不可追溯等问题,基于智能体的大语言模型(LLM)则为解决上述问题提供了新方向。它能协同多种工具与知识库、整合各类资源,并具备模块化和可解释的特点,可实现透明、可追溯的临床诊断流程。

近日,上海交通大学谢伟迪孙锟余永国张娅团队在Nature上发表题为“An agentic system for rare disease diagnosis with traceable reasoning”的文章,团队合作开发了一个基于LLM的多智能体系统DeepRare,专为罕见病鉴别诊断提供决策支持。该系统能整合文本、表型、基因等多源临床数据,结合40余种专业工具与最新医学知识库,生成排序的诊断假设,并提供透明、可追溯至权威医学证据的完整推理过程。在覆盖多地区、14个医学专科、2,919种罕见病的9个数据集DeepRare展现出优越性能:在基于人类表型本论(HPO)的任务中,平均Recall@1达57.18%,优于次优方法23.79%;在多模态测试中,其在168例病例上的Recall@1为69.1%,显著高于传统工具Exomiser。专家评审显示,DeepRare推理链与临床判断的一致性达95.4%,证实其推理过程的有效性与可追溯性。总之,该研究不仅推动了罕见病诊断的发展,也为LLM智能系统赋能临床诊疗提供了重要范式。


DeepRare架构采用三层设计第一层是基于LLM(默认采用DeepSeek-V3)的中央主机,配备记忆库,负责统筹整个诊断流程并整合各类证据进行决策;第二层是多个专用智能体服务器,各自管理专属工具集,执行表型/基因型分析、标准化处理、知识与病例检索等专项任务;第三层为异质的网络级医疗资源层,集成PubMed、Orphanet、OMIM等权威医学数据库和网络资源,为诊断提供可追溯的核心证据。

DeepRare支持文本、HPO表型、VCF基因数据等多模态输入,先由中央主机分解任务并检索证据,生成初步诊断假设;再通过自反思循环验证、修正或推翻假设,迭代优化直至得出可靠结论;最终输出一个排序后的候选疾病列表,并为每个诊断提供清晰、可追溯至具体医学证据的推理过程。


图1. DeepRare框架

为全面评估DeepRare的性能,研究团队构建了迄今最全面的罕见病诊断基准之一,共纳入9个罕见病诊断数据集的6,401例临床病例,其中7个为公共数据集,病例来源覆盖亚洲、北美洲、欧洲等地区,涉及2,919种罕见病、14个医学专科。研究设置了三类对照基线,包括传统罕见病诊断工具、通用LLM、推理增强LLM、医学专用LLM以及其他智能体系统;并以首检召回率(Recall@1)、前三检召回率(Recall@3)等为核心评估指标。

在基于HPO的诊断任务中,DeepRare平均Recall@1达57.18%,Recall@3达65.25%,远超次优方法(推理LLM)及传统模型。实验得出四点关键结论:LLM方法优于传统工具;推理增强LLM表现更佳;通用LLM因参数规模与数据多样性反超医学微调模型;DeepRare的多智能体架构显著优于所有单一模型方法。

在多个公开数据集(RareBench-MME、MyGene2、MIMIC-IV-Rare)上,DeepRare的各项召回指标均大幅领先现有最优方法;在新华医院内部临床数据集上,与多款可本地部署的大模型相比,DeepRareRecall@1Recall@3分别达到58%和71%显著优于其他方法


图2. 按HPO进行跨数据集评估及DeepRare性能比较

研究团队将测试病例划分为14个医学专科,分析了DeepRare在不同领域的诊断性能。结果显示,DeepRare在几乎所有专科均显著优于对比方法。在内分泌系统类别,Top-1诊断准确率达60%,在消化系统类别,Top-1准确率达49%,均远高于次优方法。值得注意的是,DeepRare在不同专科间存在性能差异在肾脏和泌尿系统表现最佳,准确率达66%;而在肺和呼吸系统相对较差,准确率仅为31%。

接下来,研究团队对2,919种疾病按病例数量进行分层分析。对于病例数>10的疾病,DeepRave的Recall@1均高于所有基线模型;对于病例数≤10的“长尾”疾病,DeepRare31.8%实现了高诊断准确率,远超通用及医疗专用LLM。

为验证DeepRare的真实临床价值,研究团队在新华医院163例罕见病临床病例中,将其与5位资深罕见病专家进行比较。DeepRareRecall@1达64.4%、Recall@5达78.5%,均超越医生平均水平,成为首个在罕见病表型分析与诊断中表现超越人类专家的计算模型

研究团队还评估了DeepRare整合HPO与基因检测数据的诊断性能。在新华医院、湖南医院病例中,整合基因信息后,DeepRareRecall@1分别提升至69.1%63.6%,显著高于经典外显子分析工具Exomiser,证实其在罕见病综合分析中的优越性能。


图3. DeepRare的诊断性能

研究团队邀请10位罕见病副主任医师对DeepRare在180例随机病例生成的推理链进行盲法评估,以分析其推理过程的可靠性。结果显示,DeepRare参考证据的平均准确率达95.4%,且在各数据集上均保持高性能。失败案例分析发现,DeepRare最主要的失败原因是推理权重错误,其次是表型模拟诊断,推理事实错误和证据关联错误仅各占2.5%。


图4. 人类专家对DeepRare可追溯推理链验证

为验证DeepRare设计的有效性,研究团队进行了消融实验。结果显示,更换DeepRare中央主机的底层LLM对系统性能无影响,体现了架构的通用性;与基础LLM相比,智能体系统带来了平均28%以上的Recall@1性能提升。对内部模块的分析表明,无论是相似病例检索、网络知识整合还是自反思模块,均为最终性能贡献了不可或缺的力量,整合所有模块的完整系统表现最优。


图5. 消融实验

综上所述,DeepRare突破了传统罕见病诊断工具可解释性差、泛化能力不足等痛点,实现了诊断推理的全流程可追溯,其性能在多维度验证中均超越现有方法,在临床病例中表现甚至优于资深罕见病专家。DeepRare的成功证明了智能体系统在处理复杂医学问题上的巨大潜力,为未来开发集诊断、治疗、预后预测于一体的综合罕见病管理平台奠定基础。

参考文献:

Zhao, W., Wu, C., Fan, Y. et al. An agentic system for rare disease diagnosis with traceable reasoning. Nature (2026). https://doi.org/10.1038/s41586-025-10097-9

01

02

03

GWAS荟萃分析结果发布

04

05

快点亮"在看”吧!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果即将全面开放 NFC 功能!实在是等太久了

苹果即将全面开放 NFC 功能!实在是等太久了

XCiOS俱乐部
2026-02-28 22:27:50
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
顾军已任辽宁省政府党组成员

顾军已任辽宁省政府党组成员

澎湃新闻
2026-03-01 20:18:28
中国男篮险胜中国台北!郭士强抱住陈盈骏与王晗,全员呐喊庆祝!

中国男篮险胜中国台北!郭士强抱住陈盈骏与王晗,全员呐喊庆祝!

篮球资讯达人
2026-03-01 18:12:11
比熬夜可怕十倍的10个坏习惯,一定要抛弃!

比熬夜可怕十倍的10个坏习惯,一定要抛弃!

深度知局
2026-02-26 21:39:44
伊朗被美国诱骗,哈梅内伊被内奸出卖,新接班人出现?

伊朗被美国诱骗,哈梅内伊被内奸出卖,新接班人出现?

兵国大事
2026-03-01 21:13:30
又给全球上一课!美国都没发现?500万大军藏75年,7艘航母藏东海

又给全球上一课!美国都没发现?500万大军藏75年,7艘航母藏东海

华人星光
2026-01-28 11:35:47
3500亿订单被取消!美方想要围堵芯片,却意外炸出中方底牌

3500亿订单被取消!美方想要围堵芯片,却意外炸出中方底牌

刘旷
2026-02-28 17:52:18
59年毛泽东突然回韶山老家,见父母坟墓陈旧破烂,却强调:不要修

59年毛泽东突然回韶山老家,见父母坟墓陈旧破烂,却强调:不要修

谈古论今历史有道
2026-03-01 14:55:03
陈慧琳曝大儿子每天都在家里健身,吐槽儿子“他瘦的跟蚂蚱一样”

陈慧琳曝大儿子每天都在家里健身,吐槽儿子“他瘦的跟蚂蚱一样”

韩小娱
2026-03-01 16:15:27
人没本事,一看就知:没本事的人,每到春节,就会有3个通病

人没本事,一看就知:没本事的人,每到春节,就会有3个通病

聚焦最新动态
2026-02-28 09:53:49
基辛格生前大胆预测:第三次世界大战爆发,敢打美国的国家就3个

基辛格生前大胆预测:第三次世界大战爆发,敢打美国的国家就3个

古史青云啊
2026-02-17 22:44:51
被停职审查、转移格力资产、搞办公室恋情,71 岁董明珠身上的谣言越来越离谱

被停职审查、转移格力资产、搞办公室恋情,71 岁董明珠身上的谣言越来越离谱

互联网思维
2026-02-28 23:34:40
研究发现:只要空腹血糖没超这个值,该吃吃该喝喝,别自己吓自己

研究发现:只要空腹血糖没超这个值,该吃吃该喝喝,别自己吓自己

展望云霄
2026-03-01 18:47:39
特斯拉正式起诉车管所,全网炸锅了!

特斯拉正式起诉车管所,全网炸锅了!

财经三分钟pro
2026-02-27 11:03:33
哈梅内伊遇害,伊朗会怎么报复?

哈梅内伊遇害,伊朗会怎么报复?

红星新闻
2026-03-01 11:51:17
伊朗犯下10月7日的致命失误,导致其失去一切

伊朗犯下10月7日的致命失误,导致其失去一切

山河路口
2026-03-01 20:25:18
特朗普警告:若伊朗报复,美方将采取“前所未有的强力措施”回应

特朗普警告:若伊朗报复,美方将采取“前所未有的强力措施”回应

中国网
2026-03-01 15:19:29
上海老太摔倒1小时无人敢扶,路人:怕讹!刚到医院就赖上护士!

上海老太摔倒1小时无人敢扶,路人:怕讹!刚到医院就赖上护士!

生活魔术专家
2026-03-01 17:49:56
洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

阿龙美食记
2026-02-28 10:49:43
2026-03-01 21:48:49
测序中国 incentive-icons
测序中国
基因行业领航新媒体
264文章数 16关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

全球1/5"石油动脉"被切断 海运行业遭遇急性运营危机

头条要闻

全球1/5"石油动脉"被切断 海运行业遭遇急性运营危机

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

数码
时尚
亲子
艺术
教育

数码要闻

英特尔至强600系列处理器规格揭秘,最高睿频4.8GHz!

今年春天最流行的4件卫衣,照着穿就很好看

亲子要闻

宝蓝和爸爸为了给宝蓝叔叔庆祝生日,一起做了漂亮美味的蛋糕~

艺术要闻

2025年第二届少儿美术教师作品展 | 油画选刊

教育要闻

中考数学重难点,二次函数压轴题每天学,难住不少同学!

无障碍浏览 进入关怀版