网易首页 > 网易号 > 正文 申请入驻

《Science》震撼发布:AI大模型临床推理竟超过医生,急诊真实案例验证!

0
分享至

临床推理是医生日常工作的核心——面对一份杂乱无章的患者病历,从主诉、病史、查体到化验结果,各类碎片信息往往不完整、顺序混乱,甚至互相矛盾,医生需要在极短时间内梳理出核心线索,判断最可能的诊断,同时决定下一步的检查与治疗方案。从 1959 年 Ledley 和 Lusted 在Science发表里程碑论文开始,复杂临床诊断推理病例就被定为医学 AI 系统评估的金标准,这一标准沿用至今已超 65 年,从早期的贝叶斯系统、符号规则式系统,到后来的自然语言症状检查器,无一不把New England Journal of Medicine(简称NEJM)的临床病理病例讨论会(CPC)作为终极测试标杆。

但传统的医学 AI 测试大多采用 “选择题” 形式,与真实医疗场景相去甚远,近年来大语言模型(LLM)发展迅猛,它们能否真正应对真实世界的临床 “杂讯”,始终是医学 AI 领域最核心的关切。


日前,一项发表于顶刊Science的大规模研究,为这个问题给出了颠覆性的答案。来自哈佛医学院、贝斯以色列女执事医疗中心、斯坦福大学等机构的医生与计算机科学家团队,全面评估了 OpenAI o1 系列大语言模型在医生日常核心工作中的表现,以数百名不同年资的临床医生作为基线对照,完成了 6 项覆盖不同临床场景的推理任务测试,更首次在未经任何预处理的急诊科真实病例中,完成了 AI 与人类医生的双盲正面较量。

研究最终证实:在鉴别诊断、临床推理文书撰写、诊疗方案制定、急诊紧急决策等诸多核心临床推理任务上,这款大语言模型的表现不仅全面超越了 GPT-4 等前代 AI 模型,更普遍优于人类医生基线,尤其是在信息最稀疏、决策最紧急的急诊分诊阶段,AI 的优势最为显著。

这项研究的共同资深作者、哈佛医学院生物医学信息学助理教授 Arjun Manrai 表示:“我们用几乎每一个行业基准测试检验了这个 AI 模型,它都超越了之前的模型和我们设定的医生基线。但这并不意味着 AI 必然会改善医疗现状,它该如何、在何处部署仍有待充分研究,我们迫切需要开展严格的前瞻性试验,来评估 AI 对临床实践的真实影响。”

为了全面还原真实临床工作的挑战,研究团队整合了从 1950 年代沿用至今的医生培训与评估标准,设计了层层递进的测试体系,且与多数既往研究不同,团队在测试前从未对真实世界的临床数据做任何 “平滑处理”——急诊病例完全按照电子健康档案中的原始样貌输入模型,没有做任何清洗、结构化或信息补全。研究的共同资深作者、贝斯以色列女执事医疗中心临床研究员 Adam Rodman 直言:“我们没有对数据进行任何预处理,模型只是直接处理健康档案中现有的原始数据。”

在行业金标准NEJM CPC 病例测试中,研究团队纳入了 2021 至 2024 年发表的 143 例复杂疑难病例,两名评估医生对结果的判定一致性达 84%,组内相关系数 κ=0.66。

结果显示,o1-preview 模型在 78.3% 的病例中,将正确诊断纳入了鉴别诊断列表,首条诊断即为正确诊断的比例达到 52%;如果算上高度接近、具备明确临床参考价值的诊断,模型的整体准确率更是高达 97.9%。在与前代模型的头对头对比中,针对既往研究用于评估 GPT-4 的 70 例完全相同病例,o1-preview 给出精准或高度接近诊断的比例达 88.6%,显著高于 GPT-4 的 72.9%(P=0.015)。其中 68.6% 的病例两者表现一致,24.3% 的病例 o1-preview 表现更优,仅 7.1% 的病例 GPT-4 略胜一筹。而在诊断检查方案的选择上,136 例 CPC 病例的测试结果显示,o1-preview 在 87.5% 的病例中选对了下一步核心检查,另有 11% 的病例中,模型给出的检查方案被临床医生判定为具备明确帮助,仅有 1.5% 的方案无临床价值。


在NEJM Healer 临床推理课程的标准化病例测试中,模型的表现更是拉开了与人类医生的差距。研究采用了 20 例该课程的虚拟患者接诊病例,使用经过临床验证的 R-IDEA 评分体系(10 分制,用于评估临床推理文书的 4 个核心维度)进行打分,两名医生的评分一致性高达 99%,κ=0.89。

最终结果显示,o1-preview 在 80 个评分项中,有 78 项拿到了满分,满分率远超 GPT-4(47/80,P<0.0001)、主治医师(28/80,P<0.0001)和住院医师(16/72,P<0.0001)。而在临床安全最核心的 “绝对不能漏诊” 的危急重症识别环节,o1-preview 的识别率中位数达到 0.92,与 GPT-4、主治医师、住院医师无显著统计学差异,牢牢守住了临床诊疗的安全底线。

在更贴近临床日常的诊疗管理与决策测试中,模型同样展现出碾压性优势。在 Grey Matters 临床管理病例测试里,5 例基于真实病例设计、由 25 名专家医生制定共识评分标准的临床场景中,o1-preview 的单病例得分中位数达 89%,而 GPT-4 仅为 42%,有 GPT-4 辅助的医生为 41%,仅使用常规诊疗资源的医生更是只有 34%。经混合效应模型校正后,o1-preview 的得分比单用 GPT-4 高出 41.0 个百分点,比有 GPT-4 辅助的医生高 41.9 个百分点,比仅使用常规资源的医生高 48.4 个百分点,所有差异均具备极显著的统计学意义(P<0.001)。

而在 6 例从未公开发布的里程碑式经典诊断病例测试中(避免了模型 “记忆答案” 的可能),o1-preview 的得分中位数达 97%,依然高于 GPT-4 的 92%、有 GPT-4 辅助的医生的 76%,以及仅使用常规资源的医生的 74%,展现出极强的泛化能力。即便是在基层诊疗场景的诊断概率推理任务中,面对全国代表性样本的 553 名医务人员,o1-preview 在验前和验后概率估算上的表现也与 GPT-4 相当且整体小幅占优,人类医生的估算结果变异度则远高于两款大模型,在心肌缺血病例的验后概率估算中,o1-preview 更是大幅超越了 GPT-4 和所有人类医务人员。

而这项研究最重磅、也最颠覆认知的发现,来自于真实世界急诊科病例的双盲测试。研究纳入了波士顿顶级三甲学术医疗中心急诊科的 76 例真实病例,按照临床流程分为三个关键诊疗节点:急诊初始分诊、急诊医生首诊、患者收入普通病房/ICU,在每个节点,模型仅能获取该时间点临床医生可得到的原始病历信息,完全还原了真实诊疗中信息逐步完善、决策环环相扣的过程。

研究采用严格的双盲设计:o1、GPT-4o 和两名主治医师分别给出最多 5 项鉴别诊断,另外两名主治医师在完全不知道诊断意见来自 AI 还是人类的情况下,使用统一标准进行评分。最终的盲法验证结果超出了所有人的预期:两名评分医生猜对诊断来源的准确率仅为 15.2% 和 3.1%,绝大多数时候,他们根本无法区分眼前的诊断意见,到底是来自 AI 还是资深临床医生。

测试结果显示,在三个诊疗节点中,o1 的诊断准确率全程超越了两名人类主治医师和 GPT-4o,尤其是在初始分诊这个信息最少、决策最紧急、临床难度最高的节点,两者的差距最为显著。在初始分诊阶段,o1 给出精准或高度接近诊断的比例达 67.1%,而两名主治医师分别仅为 55.3% 和 50.0%;到了急诊医生首诊阶段,随着临床信息的补充,o1 的准确率升至 72.4%,两名医生分别为 61.8% 和 52.6%;最终到患者入院决策阶段,o1 的准确率进一步升至 81.6%,依然高于两名医生的 78.9% 和 69.7%。这一结果彻底颠覆了 “AI 只擅长处理结构化、完整数据” 的传统认知——信息越不完整、临床决策越紧急,AI 的临床推理优势反而越明显。这项结果甚至让研究团队都感到意外,Rodman 坦言:“我原本以为这会是一个有趣的实验,但效果不会那么好,结果完全不是那样。”

研究共同第一作者 Peter Brodeur 表示:“AI 模型的能力正在飞速提升。过去我们使用多项选择题来评估模型,现在它们在这类测试中的得分已经接近 100%,我们已经无法再通过这种方式追踪它们的进步,因为已经触碰到了测试的上限。” 这项研究的核心意义也正在于此:它用覆盖从经典教学病例到真实急诊场景的全面测试,证实了 LLM 已经突破了沿用 65 年的医学 AI 评估金标准,在临床推理这个医生的核心能力上,已经超越了大多数人类医生的基准线,传统的 “选择题式” 医学能力测试,已经出现了严重的 “天花板效应”,医学 AI 领域亟需建立全新的、基于真实临床场景的评估体系。

与此同时,研究团队也反复、明确地强调,这项结果绝不意味着 AI 系统已经准备好自主行医,更不代表医生可以从诊断过程中被移除。Brodeur 特别指出:“一个模型可能把最可能的诊断弄对了,但也可能建议不必要的检查,从而让患者暴露于伤害之中。人类在评估诊疗表现和安全性方面,应始终是最终的基线。”

研究也客观披露了当前的局限性:这项研究仅评估了文本形式的临床推理任务,而真实的临床诊疗是多维度的,医生会通过患者的语气神态、查体的视听信息、影像学判读等多种非文本信号做出决策,现有大模型在非文本信息的推理上仍有明显局限;测试主要集中在内科和急诊医学领域,无法代表外科、妇产科等需要不同技能体系的专科场景;急诊实验仅验证了 AI 在固定诊疗节点给出第二诊疗意见的能力,尚未还原急诊分诊、紧急处置、患者收住院等全流程的真实决策场景;同时在部分核心安全测试中,比如 “不能漏诊” 的危急重症识别,o1 对比前代模型和人类医生,并未展现出稳定的显著优势。

总而言之,这项发表在Science上的研究,标志着医学 AI 正式迈入了全新的阶段:AI 不再只是医生的 “文献检索工具” 或 “病历书写助手”,它已经具备了超越人类医生平均水平的临床推理能力,能够在信息不完整的紧急临床场景中,为诊疗决策提供高质量的第二意见。未来,人类医生的角色,也将逐步从繁琐的 “信息整合与推理者”,转变为 AI 诊疗建议的监督者、医患沟通的主导者,以及最终诊疗决策的制定者。而研究团队最核心的呼吁也始终清晰:当前最迫切的,是尽快开展前瞻性、多中心的随机对照临床试验,在真实的临床诊疗流程中,严谨评估 AI 工具对患者结局、医疗安全、诊疗效率的真实影响,同时建立完善的 AI 临床应用监测框架,确保这项技术能安全、规范地融入临床体系,真正惠及患者。

参考文献:

Peter G. Brodeur et al, Performance of a large language model on the reasoning tasks of a physician, Science (2026). DOI: 10.1126/science.adz4433.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
学医后才明白,预防骨质疏松最好的习惯,不是晒太阳,而是3件事

学医后才明白,预防骨质疏松最好的习惯,不是晒太阳,而是3件事

垚垚分享健康
2026-05-04 19:15:04
官方:CCTV16转播“兴泰杯”中国U16vs乌兹别克斯坦U16

官方:CCTV16转播“兴泰杯”中国U16vs乌兹别克斯坦U16

懂球帝
2026-05-09 11:50:45
“不给6套房加1个亿,不搬”,钉子户张新国坚守14年,终败给现实

“不给6套房加1个亿,不搬”,钉子户张新国坚守14年,终败给现实

红梦史说
2025-07-11 11:23:39
民航人要注意“汉坦病毒”,一空姐被感染

民航人要注意“汉坦病毒”,一空姐被感染

中国民航人
2026-05-08 12:10:03
哀悼!985名校二级教授逝世,年仅48岁!

哀悼!985名校二级教授逝世,年仅48岁!

双一流高校
2026-05-09 00:10:53
俄罗斯警告各国撤离基辅!西方集体无视:使馆,一个都不撤!

俄罗斯警告各国撤离基辅!西方集体无视:使馆,一个都不撤!

陈莓特色体育解说
2026-05-09 16:43:45
7800亿军购大结局!郑丽文惨败,傅崐萁倒戈,卢秀燕笑到最后

7800亿军购大结局!郑丽文惨败,傅崐萁倒戈,卢秀燕笑到最后

史料布籍
2026-05-09 17:00:47
杜锋弃用陈家政、王洪泽!点解?分析有3个原因

杜锋弃用陈家政、王洪泽!点解?分析有3个原因

体育哲人
2026-05-09 16:44:16
9.9元手机壳抽检合格率不足5% 铅超标1550倍 使用有肾衰竭致癌风险

9.9元手机壳抽检合格率不足5% 铅超标1550倍 使用有肾衰竭致癌风险

快科技
2026-05-08 14:10:45
海力士工服成韩国相亲市场“脱单战袍”?

海力士工服成韩国相亲市场“脱单战袍”?

Vista氢商业
2026-05-09 19:01:52
千年难遇的美人,太漂亮了,没有一点毛病,太完美了

千年难遇的美人,太漂亮了,没有一点毛病,太完美了

情感大头说说
2026-04-24 12:46:24
国乒男队复仇成功3-0韩国,半决赛直播时间变更了,请注意

国乒男队复仇成功3-0韩国,半决赛直播时间变更了,请注意

开成运动会
2026-05-08 23:36:11
德云社弟子大洗牌!3人自断后路,岳云鹏边缘,烧饼一哥地位稳了

德云社弟子大洗牌!3人自断后路,岳云鹏边缘,烧饼一哥地位稳了

白面书誏
2026-05-08 15:52:08
1966年毛主席在滴水洞留下诗作,凡读懂其中玄机之人皆惊恐万分

1966年毛主席在滴水洞留下诗作,凡读懂其中玄机之人皆惊恐万分

人生录
2026-05-07 16:15:09
伊朗必败:为什么“胜利论”只是自欺欺人的幻觉

伊朗必败:为什么“胜利论”只是自欺欺人的幻觉

民间胡扯老哥
2026-05-05 06:46:18
红场阅兵首现拒邀国,中方出席人选引关注,外交部明确回应

红场阅兵首现拒邀国,中方出席人选引关注,外交部明确回应

谛听骨语本尊
2026-05-09 14:45:21
苹果闹钟今日没响!五月第一批迟到的人出现了

苹果闹钟今日没响!五月第一批迟到的人出现了

CNMO科技
2026-05-09 11:38:12
美国务卿:美国主张维持台湾现状

美国务卿:美国主张维持台湾现状

俄罗斯卫星通讯社
2026-05-09 15:12:07
菲律宾万万想不到!精心安排在"仁爱礁"的破船 ,却助力了中国

菲律宾万万想不到!精心安排在"仁爱礁"的破船 ,却助力了中国

泠泠说史
2026-04-11 20:01:18
77岁曹查理自曝在东莞养老,住35平米房月租1300元,在香港没房产

77岁曹查理自曝在东莞养老,住35平米房月租1300元,在香港没房产

一盅情怀
2026-05-09 15:28:11
2026-05-09 19:39:00
普陀动物世界
普陀动物世界
感恩相识 感恩你对我的关注
979文章数 13069关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

王菲出新歌首用陕西话唱戏腔 时隔24年与张艺谋再合作

头条要闻

王菲出新歌首用陕西话唱戏腔 时隔24年与张艺谋再合作

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

存储芯片上演造富潮

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

亲子
时尚
房产
手机
公开课

亲子要闻

别被骗,沈阳铁西公布147所合规幼儿园,孩子免费上托咋报销

初夏穿搭秘籍:让你轻松变身时尚达人!

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

手机要闻

OPPO Reno16系列配置曝光:全系2亿像素+金属中框,5月亮相

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版