来源:市场资讯
(来源:DrugAI)
DRUGONE
65年前,复杂临床病例推理被提出作为评估医学计算系统能力的“黄金标准”,这一标准至今仍广泛使用。在本研究中,研究人员系统评估了大型语言模型(LLM)在医生临床推理任务中的表现,并与数百名医生进行了直接比较。
研究共包含五类经典医学推理实验,同时还开展了一项真实世界研究:在大型三级医疗中心急诊科中,将AI生成的“第二意见”与专家医生意见进行盲法比较。
结果显示,在所有实验中,LLM均超越医生基线表现,并显著优于前代AI临床决策支持系统。研究人员认为,大模型已经在多个维度上超越传统临床推理基准,这意味着医疗系统迫切需要开展前瞻性临床试验,以评估AI在真实医疗流程中的应用价值。
![]()
人工智能辅助诊断的研究可以追溯到20世纪50年代。当时研究人员提出,应通过复杂临床病例来评估计算系统的诊断能力,而《新英格兰医学杂志》(NEJM)的临床病理会议病例(Clinicopathological Conferences, CPCs)逐渐成为该领域最经典的测试标准。
几十年来,研究人员开发了大量差异诊断系统,包括基于贝叶斯推断、符号规则和症状检索的方法,但这些系统通常只能在有限任务中发挥作用。
近年来,大语言模型的快速发展改变了这一局面。LLM不仅在医学执照考试中表现优异,还在数学、编程和复杂推理任务中展现出强大能力。然而,目前大多数医学AI研究仍存在明显局限:很多研究仅关注单一诊断任务,使用的是经过精心整理的标准化病例,而且缺乏与真实医生的直接比较。
随着模型性能不断接近甚至超过传统基准,研究人员认为,必须重新建立“人类医生基线”,并在更加真实和复杂的医疗场景中评估AI能力。
方法
研究人员系统设计了六类不同的临床推理实验,以全面评估OpenAI o1系列模型的医学推理能力。
首先,研究人员使用NEJM CPC病例评估模型生成差异诊断和下一步检查计划的能力。随后,利用NEJM Healer课程病例评估其临床推理表达能力,并通过Grey Matters病例和经典诊断挑战测试管理决策与复杂诊断能力。
此外,研究人员还测试了模型在概率推理任务中的表现,包括诊断前概率与诊断后概率估计。最后,在Beth Israel Deaconess Medical Center急诊科中,研究人员选取真实患者病例,在不同诊疗阶段(分诊、急诊医生评估、住院阶段)比较AI与资深医生的差异诊断表现。
所有模型输出均由独立医生采用标准化评分体系进行盲法评估,以确保结果客观可靠。
![]()
图1:六类医学推理评估任务与整体实验设计。
结果
NEJM临床病理病例中的差异诊断能力
研究人员首先测试了o1-preview在NEJM CPC病例中的表现。结果显示,该模型能够在78.3%的病例中将正确诊断纳入差异诊断列表,而在52%的病例中,模型给出的第一诊断就是最终正确答案。
如果进一步放宽标准,将“非常接近的诊断”也视为正确,则准确率达到97.9%。
与此前研究中的GPT-4相比,o1-preview在相同70个病例上的准确率从72.9%提升至88.6%,差异具有统计学意义。
研究人员还发现,模型在训练截止日期前后的病例上表现并无显著差异,说明其并非简单依赖记忆,而是具备一定泛化推理能力。
![]()
图2:LLM与传统差异诊断系统在NEJM CPC病例中的性能比较。
检查方案与临床推理表达能力
除了诊断本身,研究人员还评估了模型选择“下一步检查”的能力。结果显示,在87.5%的病例中,模型能够选择正确的下一步诊断检查,而在另外11%的病例中,其建议也被认为具有帮助。
随后,在NEJM Healer临床推理课程病例中,研究人员利用R-IDEA评分体系评估模型的推理表达能力。
结果显示,o1-preview在80个病例中有78个获得满分,显著优于GPT-4、主治医生以及住院医师。研究人员认为,这说明模型不仅能够给出正确答案,还能生成结构完整、逻辑清晰的临床推理过程。
管理决策与复杂诊断推理能力
在Grey Matters病例中,研究人员重点测试模型在复杂临床管理问题中的表现。
结果显示,o1-preview的中位得分达到89%,远高于GPT-4以及使用GPT-4辅助的医生。
研究人员进一步指出,这意味着LLM不仅能够完成“诊断”,还具备一定程度的管理与治疗推理能力。
在另一组经典诊断挑战病例中,o1-preview的中位得分达到97%,同样高于医生和早期模型。
![]()
图3:LLM、医生与GPT-4在复杂诊断和管理推理任务中的比较。
概率推理能力
研究人员还测试了模型在诊断概率估计任务中的表现,包括疾病的诊断前概率和诊断后概率推断。
结果显示,o1-preview整体略优于GPT-4,并且医生之间的概率估计波动明显大于模型。
尤其在心肌缺血病例中,o1-preview在诊断后概率推断上显著优于医生和GPT-4,显示出较强的贝叶斯式推理能力。
真实急诊病例中的“第二意见”能力
研究中最重要的部分,是在真实急诊病例上的盲法比较实验。
研究人员从大型学术医学中心急诊科随机选择76个病例,并在三个关键诊疗阶段进行评估:
初始急诊分诊、急诊医生评估以及住院/ICU阶段。
结果显示,o1在所有阶段均优于或至少不低于两位资深内科医生和GPT-4o。
尤其在“初始急诊分诊”阶段,模型优势最明显。此时患者信息最少、决策时间最紧迫,也是临床最具挑战性的阶段。
在这一阶段,o1能够在67.1%的病例中给出“正确或非常接近”的诊断,高于两位医生的55.3%和50.0%。
随着患者信息逐渐增加,人类医生与模型的表现均有所提高,但o1始终保持领先。
更有趣的是,在盲法实验中,医生几乎无法判断差异诊断来自AI还是人类,这说明模型输出已经高度接近真实临床推理表达。
![]()
图4:真实急诊病例中AI与医生的盲法诊断比较。
![]()
图5:不同诊疗阶段中AI与医生诊断能力变化趋势。
研究人员认为,这项研究表明,大语言模型已经在多个医学推理任务中达到甚至超过医生水平,尤其是在差异诊断、临床推理和管理决策等方面。
与早期AI系统不同,LLM不仅能够检索知识,还能进行复杂推理,并在信息不完整的情况下给出合理判断。这一点在急诊场景尤为重要,因为医生必须在有限时间和有限信息条件下做出决策。
研究人员强调,AI最大的潜在价值可能并不是“替代医生”,而是作为一种实时临床决策支持工具,帮助减少误诊、延误和医疗资源不足问题。
不过,研究人员也指出了多个局限。首先,本研究主要评估文本推理,而真实医学还包含大量非文本信息,例如医学影像、声音、患者表情和体征等。目前的大模型在这些非文本推理任务中仍存在不足。
其次,当前研究主要集中在内科和急诊领域,尚未覆盖外科等需要复杂操作决策的场景。此外,急诊实验中的任务更接近“第二意见系统”,而不是完整临床决策流程。
研究人员进一步指出,随着模型不断升级,传统医学AI评估基准可能已经逐渐“饱和”。未来研究需要更加真实、动态和多模态的评估体系,并重点研究“医生—AI协作”模式,而不仅仅是单纯比较谁更准确。
总体而言,研究人员认为,大语言模型已经在临床推理能力上达到一个历史性节点。65年前提出的“复杂病例推理”这一AI医学评估标准,如今可能首次被真正超越。这意味着医学领域需要尽快进入新的阶段:从“模型能力验证”转向“真实临床部署与协作研究”。
整理 | DrugOne团队
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.