《Science》震撼发布：AI大模型临床推理竟超过医生，急诊真实案例验证！|分诊|全国肿瘤

分享至

临床推理是医生日常工作的核心——面对一份杂乱无章的患者病历，从主诉、病史、查体到化验结果，各类碎片信息往往不完整、顺序混乱，甚至互相矛盾，医生需要在极短时间内梳理出核心线索，判断最可能的诊断，同时决定下一步的检查与治疗方案。从 1959 年 Ledley 和 Lusted 在Science发表里程碑论文开始，复杂临床诊断推理病例就被定为医学 AI 系统评估的金标准，这一标准沿用至今已超 65 年，从早期的贝叶斯系统、符号规则式系统，到后来的自然语言症状检查器，无一不把New England Journal of Medicine（简称NEJM）的临床病理病例讨论会（CPC）作为终极测试标杆。

但传统的医学 AI 测试大多采用 “选择题” 形式，与真实医疗场景相去甚远，近年来大语言模型（LLM）发展迅猛，它们能否真正应对真实世界的临床 “杂讯”，始终是医学 AI 领域最核心的关切。

日前，一项发表于顶刊Science的大规模研究，为这个问题给出了颠覆性的答案。来自哈佛医学院、贝斯以色列女执事医疗中心、斯坦福大学等机构的医生与计算机科学家团队，全面评估了 OpenAI o1 系列大语言模型在医生日常核心工作中的表现，以数百名不同年资的临床医生作为基线对照，完成了 6 项覆盖不同临床场景的推理任务测试，更首次在未经任何预处理的急诊科真实病例中，完成了 AI 与人类医生的双盲正面较量。

研究最终证实：在鉴别诊断、临床推理文书撰写、诊疗方案制定、急诊紧急决策等诸多核心临床推理任务上，这款大语言模型的表现不仅全面超越了 GPT-4 等前代 AI 模型，更普遍优于人类医生基线，尤其是在信息最稀疏、决策最紧急的急诊分诊阶段，AI 的优势最为显著。

这项研究的共同资深作者、哈佛医学院生物医学信息学助理教授 Arjun Manrai 表示：“我们用几乎每一个行业基准测试检验了这个 AI 模型，它都超越了之前的模型和我们设定的医生基线。但这并不意味着 AI 必然会改善医疗现状，它该如何、在何处部署仍有待充分研究，我们迫切需要开展严格的前瞻性试验，来评估 AI 对临床实践的真实影响。”

为了全面还原真实临床工作的挑战，研究团队整合了从 1950 年代沿用至今的医生培训与评估标准，设计了层层递进的测试体系，且与多数既往研究不同，团队在测试前从未对真实世界的临床数据做任何 “平滑处理”——急诊病例完全按照电子健康档案中的原始样貌输入模型，没有做任何清洗、结构化或信息补全。研究的共同资深作者、贝斯以色列女执事医疗中心临床研究员 Adam Rodman 直言：“我们没有对数据进行任何预处理，模型只是直接处理健康档案中现有的原始数据。”

在行业金标准NEJM CPC 病例测试中，研究团队纳入了 2021 至 2024 年发表的 143 例复杂疑难病例，两名评估医生对结果的判定一致性达 84%，组内相关系数 κ=0.66。

结果显示，o1-preview 模型在 78.3% 的病例中，将正确诊断纳入了鉴别诊断列表，首条诊断即为正确诊断的比例达到 52%；如果算上高度接近、具备明确临床参考价值的诊断，模型的整体准确率更是高达 97.9%。在与前代模型的头对头对比中，针对既往研究用于评估 GPT-4 的 70 例完全相同病例，o1-preview 给出精准或高度接近诊断的比例达 88.6%，显著高于 GPT-4 的 72.9%（P=0.015）。其中 68.6% 的病例两者表现一致，24.3% 的病例 o1-preview 表现更优，仅 7.1% 的病例 GPT-4 略胜一筹。而在诊断检查方案的选择上，136 例 CPC 病例的测试结果显示，o1-preview 在 87.5% 的病例中选对了下一步核心检查，另有 11% 的病例中，模型给出的检查方案被临床医生判定为具备明确帮助，仅有 1.5% 的方案无临床价值。

在NEJM Healer 临床推理课程的标准化病例测试中，模型的表现更是拉开了与人类医生的差距。研究采用了 20 例该课程的虚拟患者接诊病例，使用经过临床验证的 R-IDEA 评分体系（10 分制，用于评估临床推理文书的 4 个核心维度）进行打分，两名医生的评分一致性高达 99%，κ=0.89。

最终结果显示，o1-preview 在 80 个评分项中，有 78 项拿到了满分，满分率远超 GPT-4（47/80，P<0.0001）、主治医师（28/80，P<0.0001）和住院医师（16/72，P<0.0001）。而在临床安全最核心的 “绝对不能漏诊” 的危急重症识别环节，o1-preview 的识别率中位数达到 0.92，与 GPT-4、主治医师、住院医师无显著统计学差异，牢牢守住了临床诊疗的安全底线。

在更贴近临床日常的诊疗管理与决策测试中，模型同样展现出碾压性优势。在 Grey Matters 临床管理病例测试里，5 例基于真实病例设计、由 25 名专家医生制定共识评分标准的临床场景中，o1-preview 的单病例得分中位数达 89%，而 GPT-4 仅为 42%，有 GPT-4 辅助的医生为 41%，仅使用常规诊疗资源的医生更是只有 34%。经混合效应模型校正后，o1-preview 的得分比单用 GPT-4 高出 41.0 个百分点，比有 GPT-4 辅助的医生高 41.9 个百分点，比仅使用常规资源的医生高 48.4 个百分点，所有差异均具备极显著的统计学意义（P<0.001）。

而在 6 例从未公开发布的里程碑式经典诊断病例测试中（避免了模型 “记忆答案” 的可能），o1-preview 的得分中位数达 97%，依然高于 GPT-4 的 92%、有 GPT-4 辅助的医生的 76%，以及仅使用常规资源的医生的 74%，展现出极强的泛化能力。即便是在基层诊疗场景的诊断概率推理任务中，面对全国代表性样本的 553 名医务人员，o1-preview 在验前和验后概率估算上的表现也与 GPT-4 相当且整体小幅占优，人类医生的估算结果变异度则远高于两款大模型，在心肌缺血病例的验后概率估算中，o1-preview 更是大幅超越了 GPT-4 和所有人类医务人员。

而这项研究最重磅、也最颠覆认知的发现，来自于真实世界急诊科病例的双盲测试。研究纳入了波士顿顶级三甲学术医疗中心急诊科的 76 例真实病例，按照临床流程分为三个关键诊疗节点：急诊初始分诊、急诊医生首诊、患者收入普通病房/ICU，在每个节点，模型仅能获取该时间点临床医生可得到的原始病历信息，完全还原了真实诊疗中信息逐步完善、决策环环相扣的过程。

研究采用严格的双盲设计：o1、GPT-4o 和两名主治医师分别给出最多 5 项鉴别诊断，另外两名主治医师在完全不知道诊断意见来自 AI 还是人类的情况下，使用统一标准进行评分。最终的盲法验证结果超出了所有人的预期：两名评分医生猜对诊断来源的准确率仅为 15.2% 和 3.1%，绝大多数时候，他们根本无法区分眼前的诊断意见，到底是来自 AI 还是资深临床医生。

测试结果显示，在三个诊疗节点中，o1 的诊断准确率全程超越了两名人类主治医师和 GPT-4o，尤其是在初始分诊这个信息最少、决策最紧急、临床难度最高的节点，两者的差距最为显著。在初始分诊阶段，o1 给出精准或高度接近诊断的比例达 67.1%，而两名主治医师分别仅为 55.3% 和 50.0%；到了急诊医生首诊阶段，随着临床信息的补充，o1 的准确率升至 72.4%，两名医生分别为 61.8% 和 52.6%；最终到患者入院决策阶段，o1 的准确率进一步升至 81.6%，依然高于两名医生的 78.9% 和 69.7%。这一结果彻底颠覆了 “AI 只擅长处理结构化、完整数据” 的传统认知——信息越不完整、临床决策越紧急，AI 的临床推理优势反而越明显。这项结果甚至让研究团队都感到意外，Rodman 坦言：“我原本以为这会是一个有趣的实验，但效果不会那么好，结果完全不是那样。”

研究共同第一作者 Peter Brodeur 表示：“AI 模型的能力正在飞速提升。过去我们使用多项选择题来评估模型，现在它们在这类测试中的得分已经接近 100%，我们已经无法再通过这种方式追踪它们的进步，因为已经触碰到了测试的上限。” 这项研究的核心意义也正在于此：它用覆盖从经典教学病例到真实急诊场景的全面测试，证实了 LLM 已经突破了沿用 65 年的医学 AI 评估金标准，在临床推理这个医生的核心能力上，已经超越了大多数人类医生的基准线，传统的 “选择题式” 医学能力测试，已经出现了严重的 “天花板效应”，医学 AI 领域亟需建立全新的、基于真实临床场景的评估体系。

与此同时，研究团队也反复、明确地强调，这项结果绝不意味着 AI 系统已经准备好自主行医，更不代表医生可以从诊断过程中被移除。Brodeur 特别指出：“一个模型可能把最可能的诊断弄对了，但也可能建议不必要的检查，从而让患者暴露于伤害之中。人类在评估诊疗表现和安全性方面，应始终是最终的基线。”

研究也客观披露了当前的局限性：这项研究仅评估了文本形式的临床推理任务，而真实的临床诊疗是多维度的，医生会通过患者的语气神态、查体的视听信息、影像学判读等多种非文本信号做出决策，现有大模型在非文本信息的推理上仍有明显局限；测试主要集中在内科和急诊医学领域，无法代表外科、妇产科等需要不同技能体系的专科场景；急诊实验仅验证了 AI 在固定诊疗节点给出第二诊疗意见的能力，尚未还原急诊分诊、紧急处置、患者收住院等全流程的真实决策场景；同时在部分核心安全测试中，比如 “不能漏诊” 的危急重症识别，o1 对比前代模型和人类医生，并未展现出稳定的显著优势。

总而言之，这项发表在Science上的研究，标志着医学 AI 正式迈入了全新的阶段：AI 不再只是医生的 “文献检索工具” 或 “病历书写助手”，它已经具备了超越人类医生平均水平的临床推理能力，能够在信息不完整的紧急临床场景中，为诊疗决策提供高质量的第二意见。未来，人类医生的角色，也将逐步从繁琐的 “信息整合与推理者”，转变为 AI 诊疗建议的监督者、医患沟通的主导者，以及最终诊疗决策的制定者。而研究团队最核心的呼吁也始终清晰：当前最迫切的，是尽快开展前瞻性、多中心的随机对照临床试验，在真实的临床诊疗流程中，严谨评估 AI 工具对患者结局、医疗安全、诊疗效率的真实影响，同时建立完善的 AI 临床应用监测框架，确保这项技术能安全、规范地融入临床体系，真正惠及患者。

参考文献：

Peter G. Brodeur et al, Performance of a large language model on the reasoning tasks of a physician, Science (2026). DOI: 10.1126/science.adz4433.

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.