Science | 大型语言模型在医生临床推理任务中的表现评估|急诊|医学|病理|神经系统疾病

Science | 大型语言模型在医生临床推理任务中的表现评估

2026-05-09 04:07:59　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：DrugAI）

DRUGONE

65年前，复杂临床病例推理被提出作为评估医学计算系统能力的“黄金标准”，这一标准至今仍广泛使用。在本研究中，研究人员系统评估了大型语言模型（LLM）在医生临床推理任务中的表现，并与数百名医生进行了直接比较。

研究共包含五类经典医学推理实验，同时还开展了一项真实世界研究：在大型三级医疗中心急诊科中，将AI生成的“第二意见”与专家医生意见进行盲法比较。

结果显示，在所有实验中，LLM均超越医生基线表现，并显著优于前代AI临床决策支持系统。研究人员认为，大模型已经在多个维度上超越传统临床推理基准，这意味着医疗系统迫切需要开展前瞻性临床试验，以评估AI在真实医疗流程中的应用价值。

人工智能辅助诊断的研究可以追溯到20世纪50年代。当时研究人员提出，应通过复杂临床病例来评估计算系统的诊断能力，而《新英格兰医学杂志》（NEJM）的临床病理会议病例（Clinicopathological Conferences, CPCs）逐渐成为该领域最经典的测试标准。

几十年来，研究人员开发了大量差异诊断系统，包括基于贝叶斯推断、符号规则和症状检索的方法，但这些系统通常只能在有限任务中发挥作用。

近年来，大语言模型的快速发展改变了这一局面。LLM不仅在医学执照考试中表现优异，还在数学、编程和复杂推理任务中展现出强大能力。然而，目前大多数医学AI研究仍存在明显局限：很多研究仅关注单一诊断任务，使用的是经过精心整理的标准化病例，而且缺乏与真实医生的直接比较。

随着模型性能不断接近甚至超过传统基准，研究人员认为，必须重新建立“人类医生基线”，并在更加真实和复杂的医疗场景中评估AI能力。

方法

研究人员系统设计了六类不同的临床推理实验，以全面评估OpenAI o1系列模型的医学推理能力。

首先，研究人员使用NEJM CPC病例评估模型生成差异诊断和下一步检查计划的能力。随后，利用NEJM Healer课程病例评估其临床推理表达能力，并通过Grey Matters病例和经典诊断挑战测试管理决策与复杂诊断能力。

此外，研究人员还测试了模型在概率推理任务中的表现，包括诊断前概率与诊断后概率估计。最后，在Beth Israel Deaconess Medical Center急诊科中，研究人员选取真实患者病例，在不同诊疗阶段（分诊、急诊医生评估、住院阶段）比较AI与资深医生的差异诊断表现。

所有模型输出均由独立医生采用标准化评分体系进行盲法评估，以确保结果客观可靠。

图1：六类医学推理评估任务与整体实验设计。

结果

NEJM临床病理病例中的差异诊断能力

研究人员首先测试了o1-preview在NEJM CPC病例中的表现。结果显示，该模型能够在78.3%的病例中将正确诊断纳入差异诊断列表，而在52%的病例中，模型给出的第一诊断就是最终正确答案。

如果进一步放宽标准，将“非常接近的诊断”也视为正确，则准确率达到97.9%。

与此前研究中的GPT-4相比，o1-preview在相同70个病例上的准确率从72.9%提升至88.6%，差异具有统计学意义。

研究人员还发现，模型在训练截止日期前后的病例上表现并无显著差异，说明其并非简单依赖记忆，而是具备一定泛化推理能力。

图2：LLM与传统差异诊断系统在NEJM CPC病例中的性能比较。

检查方案与临床推理表达能力

除了诊断本身，研究人员还评估了模型选择“下一步检查”的能力。结果显示，在87.5%的病例中，模型能够选择正确的下一步诊断检查，而在另外11%的病例中，其建议也被认为具有帮助。

随后，在NEJM Healer临床推理课程病例中，研究人员利用R-IDEA评分体系评估模型的推理表达能力。

结果显示，o1-preview在80个病例中有78个获得满分，显著优于GPT-4、主治医生以及住院医师。研究人员认为，这说明模型不仅能够给出正确答案，还能生成结构完整、逻辑清晰的临床推理过程。

管理决策与复杂诊断推理能力

在Grey Matters病例中，研究人员重点测试模型在复杂临床管理问题中的表现。

结果显示，o1-preview的中位得分达到89%，远高于GPT-4以及使用GPT-4辅助的医生。

研究人员进一步指出，这意味着LLM不仅能够完成“诊断”，还具备一定程度的管理与治疗推理能力。

在另一组经典诊断挑战病例中，o1-preview的中位得分达到97%，同样高于医生和早期模型。

图3：LLM、医生与GPT-4在复杂诊断和管理推理任务中的比较。

概率推理能力

研究人员还测试了模型在诊断概率估计任务中的表现，包括疾病的诊断前概率和诊断后概率推断。

结果显示，o1-preview整体略优于GPT-4，并且医生之间的概率估计波动明显大于模型。

尤其在心肌缺血病例中，o1-preview在诊断后概率推断上显著优于医生和GPT-4，显示出较强的贝叶斯式推理能力。

真实急诊病例中的“第二意见”能力

研究中最重要的部分，是在真实急诊病例上的盲法比较实验。

研究人员从大型学术医学中心急诊科随机选择76个病例，并在三个关键诊疗阶段进行评估：

初始急诊分诊、急诊医生评估以及住院/ICU阶段。

结果显示，o1在所有阶段均优于或至少不低于两位资深内科医生和GPT-4o。

尤其在“初始急诊分诊”阶段，模型优势最明显。此时患者信息最少、决策时间最紧迫，也是临床最具挑战性的阶段。

在这一阶段，o1能够在67.1%的病例中给出“正确或非常接近”的诊断，高于两位医生的55.3%和50.0%。

随着患者信息逐渐增加，人类医生与模型的表现均有所提高，但o1始终保持领先。

更有趣的是，在盲法实验中，医生几乎无法判断差异诊断来自AI还是人类，这说明模型输出已经高度接近真实临床推理表达。

图4：真实急诊病例中AI与医生的盲法诊断比较。

图5：不同诊疗阶段中AI与医生诊断能力变化趋势。

研究人员认为，这项研究表明，大语言模型已经在多个医学推理任务中达到甚至超过医生水平，尤其是在差异诊断、临床推理和管理决策等方面。

与早期AI系统不同，LLM不仅能够检索知识，还能进行复杂推理，并在信息不完整的情况下给出合理判断。这一点在急诊场景尤为重要，因为医生必须在有限时间和有限信息条件下做出决策。

研究人员强调，AI最大的潜在价值可能并不是“替代医生”，而是作为一种实时临床决策支持工具，帮助减少误诊、延误和医疗资源不足问题。

不过，研究人员也指出了多个局限。首先，本研究主要评估文本推理，而真实医学还包含大量非文本信息，例如医学影像、声音、患者表情和体征等。目前的大模型在这些非文本推理任务中仍存在不足。

其次，当前研究主要集中在内科和急诊领域，尚未覆盖外科等需要复杂操作决策的场景。此外，急诊实验中的任务更接近“第二意见系统”，而不是完整临床决策流程。

研究人员进一步指出，随着模型不断升级，传统医学AI评估基准可能已经逐渐“饱和”。未来研究需要更加真实、动态和多模态的评估体系，并重点研究“医生—AI协作”模式，而不仅仅是单纯比较谁更准确。

总体而言，研究人员认为，大语言模型已经在临床推理能力上达到一个历史性节点。65年前提出的“复杂病例推理”这一AI医学评估标准，如今可能首次被真正超越。这意味着医学领域需要尽快进入新的阶段：从“模型能力验证”转向“真实临床部署与协作研究”。

整理 | DrugOne团队

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Science | 大型语言模型在医生临床推理任务中的表现评估

美国政府强力下场 苹果英特尔达成代工协议

年轻女子190元买榴莲仅退款被拘留 代收点离家3公里

年轻女子190元买榴莲仅退款被拘留 代收点离家3公里

成立128年后，这支升班马首夺顶级联赛冠军

张艺谋《印象刘三姐》全裸镜头引争议

Meta疯狂拥抱人工智能：员工苦不堪言

全系智能泊车 铂智3X年款升级限时权益价9.48万起

态度原创

北京师范大学第1专业，就业现状与报考性价比分析！#金榜同行人

豪掷6.8亿拿地！何猷君大手笔投资三亚！

用苏绣的方式，打开江西婺源

美伊突然再次交火 伊朗外长：战争准备程度是1000%

美国政府强力下场苹果英特尔达成代工协议

年轻女子190元买榴莲仅退款被拘留代收点离家3公里

年轻女子190元买榴莲仅退款被拘留代收点离家3公里

全系智能泊车铂智3X年款升级限时权益价9.48万起

美伊突然再次交火伊朗外长：战争准备程度是1000%