网易首页 > 网易号 > 正文 申请入驻

埃默里大学系统评估GPT-5医疗决策支持能力:潜力巨大

0
分享至



编辑丨coisini

大型语言模型(LLM)已经日益发展成通用系统,无需大量微调即可执行领域特定推理。

本月初,OpenAI 发布了新一代旗舰模型 GPT-5,并表示其能够自己决定何时需要深入思考。一些研究开始探索 GPT-5 在科学领域的潜力。

在医疗领域,决策过程往往需要整合异构信息源,包括患者主诉、结构化数据和医学影像等。来自埃默里大学的研究团队将 GPT-5 定位为医疗决策支持领域的通用多模态推理系统,在统一评估框架下系统性地评估了其在文本问答和视觉问答任务中的零样本思维链推理性能。



论文地址:https://arxiv.org/pdf/2508.08224

评估与结果

研究团队在 MedQA、MedXpertQA(文本与多模态)、MMLU 医学子集、USMLE 自我评估以及 VQA-RAD 的标准数据集上对 GPT-5、GPT-5-mini、GPT-5-nano和 GPT-4o-2024-11-20 进行了基准测试。

文本问答

在 MedQA 基准测试中,GPT-5 的准确率达到 95.84%,较 GPT-4o 绝对提升 4.80%,表明 GPT-5 在临床问题情境中具有更强的事实召回与诊断推理能力。

更显著的提升出现在 MedXpertQA 文本子集,GPT-5 的推理准确率较 GPT-4o 提高 26.33%,理解准确率提升 25.30%,表明 GPT-5 在多步推理和医学叙述理解方面取得了实质性增强。



USMLE 自我评估

在美国医师执照考试 (USMLE) 自我评估中,GPT-5 在三个考试阶段均超越所有基线模型,其中在 Step 2(临床决策与管理)阶段优势最为显著(+4.17%)。这一结果与 GPT-5 改进的思维链推理能力高度契合。



三阶段平均得分达到 95.22%(较 GPT-4o 提升 2.88%),远超人类通过考试常规阈值,表明 GPT-5 已具备应对高风险临床推理任务的成熟能力。

视觉问答

在多模态推理任务中,GPT-5 在 MedXpertQA 多模态子集上实现飞跃性突破:推理和理解准确率分别较 GPT-4o 提升 29.26% 和 26.18%,表明其视觉与文本线索的整合能力得到显著增强。



在 MedXpertQA 多模态基准的典型案例中,GPT-5 展现出以临床逻辑整合多模态信息的能力:GPT-5 根据 CT 影像表现、实验室数值及反复呕吐后的关键体征,准确地将食管穿孔列为最可能诊断;随后推荐泛影葡胺吞咽检查作为下一步诊疗措施,同时明确排除其他选项并逐一论证。



这一案例体现出 GPT-5 能够整合视觉证据与复杂叙述语境、保持结构化诊断推理链,最终做出符合专家共识的高风险临床决策。

对比人类专家

如下表所示,研究团队将模型与预执业人类专家进行了对比,GPT-4o 在多数维度上低于人类专家水平,在文本与多模态场景中,推理和理解准确率较人类专家低 5.03%-15.90%;而 GPT-5 不仅弥合了这一差距,还以显著优势超越了人类专家:文本推理(+15.22%)、文本理解(+9.40%)、多模态推理(+24.23%)、多模态理解(+29.40%)。



值得注意的是,GPT-5 在多模态场景中领先优势尤为突出,其表现甚至超越经验丰富的临床医生在限时测试条件下的水平。

总的来说,这项研究凸显出 GPT-5 在真实世界临床决策支持中潜力巨大。不过,需要强调的是,现有基准测试反映的是理想化评估环境,可能无法完全捕捉真实医疗实践的多样性、不确定性及伦理考量。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025年,倒闭的店铺越来越多,很多人都快撑不住了

2025年,倒闭的店铺越来越多,很多人都快撑不住了

深蓝夜读
2025-11-16 18:26:32
糖尿病离世的人越来越多!医生多次苦劝:少吃西红柿,多吃这6物

糖尿病离世的人越来越多!医生多次苦劝:少吃西红柿,多吃这6物

健身狂人
2025-11-12 14:10:12
侯耀华北京别墅亲自做饭,灶台杂乱满墙油污,78岁穿范哲思很时尚

侯耀华北京别墅亲自做饭,灶台杂乱满墙油污,78岁穿范哲思很时尚

花心电影
2025-11-18 13:57:29
“窗帘藏酒”真相再调查 原是服务员找来空箱装喝过的酒瓶 酒店表示:员工配合调查的时间算出勤

“窗帘藏酒”真相再调查 原是服务员找来空箱装喝过的酒瓶 酒店表示:员工配合调查的时间算出勤

扬子晚报
2025-11-17 22:06:24
德云社烧饼妻子庆生,晒全家福,烧饼基因强大,三代人共用一张脸

德云社烧饼妻子庆生,晒全家福,烧饼基因强大,三代人共用一张脸

探长影视解说
2025-11-18 16:19:32
12岁的乔治王子现身帅到认不出!身高1米75快要超过妈妈凯特王妃

12岁的乔治王子现身帅到认不出!身高1米75快要超过妈妈凯特王妃

温读史
2025-11-09 09:25:54
救人时接触私密部位算侵入吗?网友:不是,命都没了还在乎这些啊

救人时接触私密部位算侵入吗?网友:不是,命都没了还在乎这些啊

解读热点事件
2025-10-02 00:10:03
虽然毛主席享年83岁,保健医生却说:其实毛主席不具备长寿条件

虽然毛主席享年83岁,保健医生却说:其实毛主席不具备长寿条件

刘哥谈体育
2025-11-12 09:18:23
著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

极目新闻
2025-11-16 16:38:13
倭寇!中国使馆发出史上最强音,新戚家军早已严阵以待!

倭寇!中国使馆发出史上最强音,新戚家军早已严阵以待!

乐天闲聊
2025-11-14 11:49:19
全线大跌!黄金跳水,比特币暴跌!超17万人爆仓!

全线大跌!黄金跳水,比特币暴跌!超17万人爆仓!

证券时报e公司
2025-11-18 12:39:30
道指跌近500点,亚马逊市值一夜蒸发超7800亿元!微软、英伟达大消息!国际原油大涨!美国重磅数据将发布

道指跌近500点,亚马逊市值一夜蒸发超7800亿元!微软、英伟达大消息!国际原油大涨!美国重磅数据将发布

每日经济新闻
2025-11-19 06:18:04
C罗自揭伤疤:3年前丧子,全靠乔治娜撑起家庭,世界杯夺冠就结婚

C罗自揭伤疤:3年前丧子,全靠乔治娜撑起家庭,世界杯夺冠就结婚

阿讯说天下
2025-11-18 22:53:21
我曾在基层多年,分析山西反杀案,能清楚看到,郭家就是当地一霸

我曾在基层多年,分析山西反杀案,能清楚看到,郭家就是当地一霸

阿纂看事
2025-11-16 21:51:14
2-2,世界第一逼平土耳其,直通世界杯,28岁奥亚萨瓦尔救主

2-2,世界第一逼平土耳其,直通世界杯,28岁奥亚萨瓦尔救主

侧身凌空斩
2025-11-19 05:41:55
中日一旦爆发战争,开打后2~3小时对日本很关键,或产生三大后果

中日一旦爆发战争,开打后2~3小时对日本很关键,或产生三大后果

墨兰史书
2025-11-19 03:50:03
又有“洋垃圾”轻薄本涌入闲鱼!13寸轻至756克,搭载11代处理器

又有“洋垃圾”轻薄本涌入闲鱼!13寸轻至756克,搭载11代处理器

科技拌饭
2025-11-17 19:16:09
400万亿什么时候来?等待我们的是什么?

400万亿什么时候来?等待我们的是什么?

混知房产
2025-11-13 20:41:06
朱元璋问刘伯温:咱大明江山传给谁?刘伯温指向一头肥猪轻吐4字

朱元璋问刘伯温:咱大明江山传给谁?刘伯温指向一头肥猪轻吐4字

萧竹轻语
2025-11-17 19:51:19
李云迪X侵司晓迪的后续瓜!

李云迪X侵司晓迪的后续瓜!

八卦疯叔
2025-11-01 10:50:45
2025-11-19 07:19:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

教育
本地
亲子
家居
公开课

教育要闻

实施好县域高中振兴计划!教育部部长:通过政策和制度设计,淡化竞争,减少焦虑!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

亲子要闻

程晓玥展示大肚子,二胎4个多月就显怀,孕中期胃口大开才92斤

家居要闻

彰显奢华 意式经典风格

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版