网易首页 > 网易号 > 正文 申请入驻

Science | 大型语言模型在医生临床推理任务中的表现评估

0
分享至

来源:市场资讯

(来源:DrugAI)

DRUGONE

65年前,复杂临床病例推理被提出作为评估医学计算系统能力的“黄金标准”,这一标准至今仍广泛使用。在本研究中,研究人员系统评估了大型语言模型(LLM)在医生临床推理任务中的表现,并与数百名医生进行了直接比较。

研究共包含五类经典医学推理实验,同时还开展了一项真实世界研究:在大型三级医疗中心急诊科中,将AI生成的“第二意见”与专家医生意见进行盲法比较。

结果显示,在所有实验中,LLM均超越医生基线表现,并显著优于前代AI临床决策支持系统。研究人员认为,大模型已经在多个维度上超越传统临床推理基准,这意味着医疗系统迫切需要开展前瞻性临床试验,以评估AI在真实医疗流程中的应用价值。


人工智能辅助诊断的研究可以追溯到20世纪50年代。当时研究人员提出,应通过复杂临床病例来评估计算系统的诊断能力,而《新英格兰医学杂志》(NEJM)的临床病理会议病例(Clinicopathological Conferences, CPCs)逐渐成为该领域最经典的测试标准。

几十年来,研究人员开发了大量差异诊断系统,包括基于贝叶斯推断、符号规则和症状检索的方法,但这些系统通常只能在有限任务中发挥作用。

近年来,大语言模型的快速发展改变了这一局面。LLM不仅在医学执照考试中表现优异,还在数学、编程和复杂推理任务中展现出强大能力。然而,目前大多数医学AI研究仍存在明显局限:很多研究仅关注单一诊断任务,使用的是经过精心整理的标准化病例,而且缺乏与真实医生的直接比较。

随着模型性能不断接近甚至超过传统基准,研究人员认为,必须重新建立“人类医生基线”,并在更加真实和复杂的医疗场景中评估AI能力。

方法

研究人员系统设计了六类不同的临床推理实验,以全面评估OpenAI o1系列模型的医学推理能力。

首先,研究人员使用NEJM CPC病例评估模型生成差异诊断和下一步检查计划的能力。随后,利用NEJM Healer课程病例评估其临床推理表达能力,并通过Grey Matters病例和经典诊断挑战测试管理决策与复杂诊断能力。

此外,研究人员还测试了模型在概率推理任务中的表现,包括诊断前概率与诊断后概率估计。最后,在Beth Israel Deaconess Medical Center急诊科中,研究人员选取真实患者病例,在不同诊疗阶段(分诊、急诊医生评估、住院阶段)比较AI与资深医生的差异诊断表现。

所有模型输出均由独立医生采用标准化评分体系进行盲法评估,以确保结果客观可靠。


图1:六类医学推理评估任务与整体实验设计。

结果

NEJM临床病理病例中的差异诊断能力

研究人员首先测试了o1-preview在NEJM CPC病例中的表现。结果显示,该模型能够在78.3%的病例中将正确诊断纳入差异诊断列表,而在52%的病例中,模型给出的第一诊断就是最终正确答案。

如果进一步放宽标准,将“非常接近的诊断”也视为正确,则准确率达到97.9%。

与此前研究中的GPT-4相比,o1-preview在相同70个病例上的准确率从72.9%提升至88.6%,差异具有统计学意义。

研究人员还发现,模型在训练截止日期前后的病例上表现并无显著差异,说明其并非简单依赖记忆,而是具备一定泛化推理能力。


图2:LLM与传统差异诊断系统在NEJM CPC病例中的性能比较。

检查方案与临床推理表达能力

除了诊断本身,研究人员还评估了模型选择“下一步检查”的能力。结果显示,在87.5%的病例中,模型能够选择正确的下一步诊断检查,而在另外11%的病例中,其建议也被认为具有帮助。

随后,在NEJM Healer临床推理课程病例中,研究人员利用R-IDEA评分体系评估模型的推理表达能力。

结果显示,o1-preview在80个病例中有78个获得满分,显著优于GPT-4、主治医生以及住院医师。研究人员认为,这说明模型不仅能够给出正确答案,还能生成结构完整、逻辑清晰的临床推理过程。

管理决策与复杂诊断推理能力

在Grey Matters病例中,研究人员重点测试模型在复杂临床管理问题中的表现。

结果显示,o1-preview的中位得分达到89%,远高于GPT-4以及使用GPT-4辅助的医生。

研究人员进一步指出,这意味着LLM不仅能够完成“诊断”,还具备一定程度的管理与治疗推理能力。

在另一组经典诊断挑战病例中,o1-preview的中位得分达到97%,同样高于医生和早期模型。


图3:LLM、医生与GPT-4在复杂诊断和管理推理任务中的比较。

概率推理能力

研究人员还测试了模型在诊断概率估计任务中的表现,包括疾病的诊断前概率和诊断后概率推断。

结果显示,o1-preview整体略优于GPT-4,并且医生之间的概率估计波动明显大于模型。

尤其在心肌缺血病例中,o1-preview在诊断后概率推断上显著优于医生和GPT-4,显示出较强的贝叶斯式推理能力。

真实急诊病例中的“第二意见”能力

研究中最重要的部分,是在真实急诊病例上的盲法比较实验。

研究人员从大型学术医学中心急诊科随机选择76个病例,并在三个关键诊疗阶段进行评估:

初始急诊分诊、急诊医生评估以及住院/ICU阶段。

结果显示,o1在所有阶段均优于或至少不低于两位资深内科医生和GPT-4o。

尤其在“初始急诊分诊”阶段,模型优势最明显。此时患者信息最少、决策时间最紧迫,也是临床最具挑战性的阶段。

在这一阶段,o1能够在67.1%的病例中给出“正确或非常接近”的诊断,高于两位医生的55.3%和50.0%。

随着患者信息逐渐增加,人类医生与模型的表现均有所提高,但o1始终保持领先。

更有趣的是,在盲法实验中,医生几乎无法判断差异诊断来自AI还是人类,这说明模型输出已经高度接近真实临床推理表达。


图4:真实急诊病例中AI与医生的盲法诊断比较。


图5:不同诊疗阶段中AI与医生诊断能力变化趋势。

研究人员认为,这项研究表明,大语言模型已经在多个医学推理任务中达到甚至超过医生水平,尤其是在差异诊断、临床推理和管理决策等方面。

与早期AI系统不同,LLM不仅能够检索知识,还能进行复杂推理,并在信息不完整的情况下给出合理判断。这一点在急诊场景尤为重要,因为医生必须在有限时间和有限信息条件下做出决策。

研究人员强调,AI最大的潜在价值可能并不是“替代医生”,而是作为一种实时临床决策支持工具,帮助减少误诊、延误和医疗资源不足问题。

不过,研究人员也指出了多个局限。首先,本研究主要评估文本推理,而真实医学还包含大量非文本信息,例如医学影像、声音、患者表情和体征等。目前的大模型在这些非文本推理任务中仍存在不足。

其次,当前研究主要集中在内科和急诊领域,尚未覆盖外科等需要复杂操作决策的场景。此外,急诊实验中的任务更接近“第二意见系统”,而不是完整临床决策流程。

研究人员进一步指出,随着模型不断升级,传统医学AI评估基准可能已经逐渐“饱和”。未来研究需要更加真实、动态和多模态的评估体系,并重点研究“医生—AI协作”模式,而不仅仅是单纯比较谁更准确。

总体而言,研究人员认为,大语言模型已经在临床推理能力上达到一个历史性节点。65年前提出的“复杂病例推理”这一AI医学评估标准,如今可能首次被真正超越。这意味着医学领域需要尽快进入新的阶段:从“模型能力验证”转向“真实临床部署与协作研究”。

整理 | DrugOne团队

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
文章上海的面馆正式开业,满脸笑容,马伊琍带着女儿低调现身

文章上海的面馆正式开业,满脸笑容,马伊琍带着女儿低调现身

早起的鸟儿有饭吃
2026-05-09 09:30:25
本来穷得好好的,非要闯一闯,结果成老赖!半生努力换一身负债

本来穷得好好的,非要闯一闯,结果成老赖!半生努力换一身负债

番外行
2026-05-09 08:39:41
吴宜泽好友实锤:别造神了!所谓寒门励志是误会,经济压力大≠穷

吴宜泽好友实锤:别造神了!所谓寒门励志是误会,经济压力大≠穷

一盅情怀
2026-05-08 09:07:04
泰王的妻妾同框:王后优雅,贵妃颜值回春,3位小主年轻貌美

泰王的妻妾同框:王后优雅,贵妃颜值回春,3位小主年轻貌美

小书生吃瓜
2026-05-08 19:25:35
深圳女环卫工遭拖拽殴打!坚决拒和解,男子身份曝光,原因太荒唐

深圳女环卫工遭拖拽殴打!坚决拒和解,男子身份曝光,原因太荒唐

观察鉴娱
2026-05-08 11:24:08
浙江宣传评世界杯转播权之争:与其花费巨资追捧海外赛事,不如投入本土足球

浙江宣传评世界杯转播权之争:与其花费巨资追捧海外赛事,不如投入本土足球

澎湃新闻
2026-05-08 12:24:10
精彩好看!森林狼51-51马刺,文班16+9 爱德华兹19+9!

精彩好看!森林狼51-51马刺,文班16+9 爱德华兹19+9!

运筹帷幄的篮球
2026-05-09 11:03:03
菜市场与超市的三大“怪象”,你察觉到了吗?

菜市场与超市的三大“怪象”,你察觉到了吗?

华人星光
2026-05-09 11:03:25
144GB显存!600W功耗!AMD 推出MI350P加速显卡

144GB显存!600W功耗!AMD 推出MI350P加速显卡

电脑吧评测室
2026-05-08 22:02:05
陈道明:人生走到最后,子女和老伴都不是最亲的,最亲的只有....

陈道明:人生走到最后,子女和老伴都不是最亲的,最亲的只有....

乔话
2026-04-19 22:13:11
林彪准儿媳张宁:独子被水管工报复沉河,逃去美国当阔太后为何躲进深山当了道士?

林彪准儿媳张宁:独子被水管工报复沉河,逃去美国当阔太后为何躲进深山当了道士?

史海孤雁
2026-05-07 18:01:13
9日凌晨世乒赛:4强出炉法国被逆转 国乒下轮轻松 张本美和遇强敌!

9日凌晨世乒赛:4强出炉法国被逆转 国乒下轮轻松 张本美和遇强敌!

漫川舟船
2026-05-09 11:32:49
这身农村阿姨的打扮,真的把我感动了

这身农村阿姨的打扮,真的把我感动了

牛弹琴123456
2026-05-09 10:13:41
科勒·卡戴珊自曝被下药,贾斯汀·哈特利婚姻坦白

科勒·卡戴珊自曝被下药,贾斯汀·哈特利婚姻坦白

娱圈观察员
2026-05-08 00:19:44
5月20官宣三婚!头发都白了,何洁现状惹人心疼

5月20官宣三婚!头发都白了,何洁现状惹人心疼

陈意小可爱
2026-05-07 16:55:39
“近一半都是不正常孩子”,男老师吐槽乡镇学校现状:只剩神人了

“近一半都是不正常孩子”,男老师吐槽乡镇学校现状:只剩神人了

世界圈
2026-05-09 08:48:25
皮蓬一家近照:61岁太显老,儿子立足NBA拿千万合同,女儿成超模

皮蓬一家近照:61岁太显老,儿子立足NBA拿千万合同,女儿成超模

大西体育
2026-05-07 18:43:22
弘一法师:一个女人最廉价的行为,不是长得丑,不是没有钱,而是这两种

弘一法师:一个女人最廉价的行为,不是长得丑,不是没有钱,而是这两种

心理观察局
2026-05-09 09:10:34
82年政坛震动:11位副总理集体卸任,唯有他被连夜请回,再挑大梁

82年政坛震动:11位副总理集体卸任,唯有他被连夜请回,再挑大梁

云端小院
2026-05-07 06:33:01
DeepSeek首轮融资目标500亿,与阿里谈崩,腾讯仍在局中

DeepSeek首轮融资目标500亿,与阿里谈崩,腾讯仍在局中

财通社
2026-05-09 11:22:27
2026-05-09 12:19:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3156339文章数 7260关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

年轻女子190元买榴莲仅退款被拘留 代收点离家3公里

头条要闻

年轻女子190元买榴莲仅退款被拘留 代收点离家3公里

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

张艺谋《印象刘三姐》全裸镜头引争议

财经要闻

Meta疯狂拥抱人工智能:员工苦不堪言

汽车要闻

全系智能泊车 铂智3X年款升级限时权益价9.48万起

态度原创

教育
房产
本地
公开课
军事航空

教育要闻

北京师范大学第1专业,就业现状与报考性价比分析!#金榜同行人

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版