网易首页 > 网易号 > 正文 申请入驻

埃默里大学系统评估GPT-5医疗决策支持能力:潜力巨大

0
分享至



编辑丨coisini

大型语言模型(LLM)已经日益发展成通用系统,无需大量微调即可执行领域特定推理。

本月初,OpenAI 发布了新一代旗舰模型 GPT-5,并表示其能够自己决定何时需要深入思考。一些研究开始探索 GPT-5 在科学领域的潜力。

在医疗领域,决策过程往往需要整合异构信息源,包括患者主诉、结构化数据和医学影像等。来自埃默里大学的研究团队将 GPT-5 定位为医疗决策支持领域的通用多模态推理系统,在统一评估框架下系统性地评估了其在文本问答和视觉问答任务中的零样本思维链推理性能。



论文地址:https://arxiv.org/pdf/2508.08224

评估与结果

研究团队在 MedQA、MedXpertQA(文本与多模态)、MMLU 医学子集、USMLE 自我评估以及 VQA-RAD 的标准数据集上对 GPT-5、GPT-5-mini、GPT-5-nano和 GPT-4o-2024-11-20 进行了基准测试。

文本问答

在 MedQA 基准测试中,GPT-5 的准确率达到 95.84%,较 GPT-4o 绝对提升 4.80%,表明 GPT-5 在临床问题情境中具有更强的事实召回与诊断推理能力。

更显著的提升出现在 MedXpertQA 文本子集,GPT-5 的推理准确率较 GPT-4o 提高 26.33%,理解准确率提升 25.30%,表明 GPT-5 在多步推理和医学叙述理解方面取得了实质性增强。



USMLE 自我评估

在美国医师执照考试 (USMLE) 自我评估中,GPT-5 在三个考试阶段均超越所有基线模型,其中在 Step 2(临床决策与管理)阶段优势最为显著(+4.17%)。这一结果与 GPT-5 改进的思维链推理能力高度契合。



三阶段平均得分达到 95.22%(较 GPT-4o 提升 2.88%),远超人类通过考试常规阈值,表明 GPT-5 已具备应对高风险临床推理任务的成熟能力。

视觉问答

在多模态推理任务中,GPT-5 在 MedXpertQA 多模态子集上实现飞跃性突破:推理和理解准确率分别较 GPT-4o 提升 29.26% 和 26.18%,表明其视觉与文本线索的整合能力得到显著增强。



在 MedXpertQA 多模态基准的典型案例中,GPT-5 展现出以临床逻辑整合多模态信息的能力:GPT-5 根据 CT 影像表现、实验室数值及反复呕吐后的关键体征,准确地将食管穿孔列为最可能诊断;随后推荐泛影葡胺吞咽检查作为下一步诊疗措施,同时明确排除其他选项并逐一论证。



这一案例体现出 GPT-5 能够整合视觉证据与复杂叙述语境、保持结构化诊断推理链,最终做出符合专家共识的高风险临床决策。

对比人类专家

如下表所示,研究团队将模型与预执业人类专家进行了对比,GPT-4o 在多数维度上低于人类专家水平,在文本与多模态场景中,推理和理解准确率较人类专家低 5.03%-15.90%;而 GPT-5 不仅弥合了这一差距,还以显著优势超越了人类专家:文本推理(+15.22%)、文本理解(+9.40%)、多模态推理(+24.23%)、多模态理解(+29.40%)。



值得注意的是,GPT-5 在多模态场景中领先优势尤为突出,其表现甚至超越经验丰富的临床医生在限时测试条件下的水平。

总的来说,这项研究凸显出 GPT-5 在真实世界临床决策支持中潜力巨大。不过,需要强调的是,现有基准测试反映的是理想化评估环境,可能无法完全捕捉真实医疗实践的多样性、不确定性及伦理考量。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本外务省拒绝中方所有要求且不会向中方道歉

日本外务省拒绝中方所有要求且不会向中方道歉

环球热点快评
2025-11-18 23:44:16
温柔又时尚还很有正式感的灰色职业装穿搭

温柔又时尚还很有正式感的灰色职业装穿搭

牛弹琴123456
2025-11-17 19:35:09
鸡排哥找不回自己,派头十足令人讨厌

鸡排哥找不回自己,派头十足令人讨厌

陈意小可爱
2025-11-18 03:01:41
聪明人都有什么特征?网友:一个人开车开的好,绝对不傻

聪明人都有什么特征?网友:一个人开车开的好,绝对不傻

夜深爱杂谈
2025-11-17 21:16:58
34+32!神级大交易!谢谢你,杜兰特!

34+32!神级大交易!谢谢你,杜兰特!

篮球实战宝典
2025-11-18 15:26:21
全运会乒乓:女团全国冠军2-3出局!王曼昱爆发连赢蒯曼、钱天一

全运会乒乓:女团全国冠军2-3出局!王曼昱爆发连赢蒯曼、钱天一

全言作品
2025-11-18 12:48:28
儿子5岁离婚!厦门这夜,陈思诚和佟丽娅高调认爱,比复婚更体面

儿子5岁离婚!厦门这夜,陈思诚和佟丽娅高调认爱,比复婚更体面

正经的烧杯1
2025-11-18 17:24:53
第一财经不愧沪上媒体的脊梁

第一财经不愧沪上媒体的脊梁

新浪财经
2025-11-17 13:51:58
埋伏主力作奇兵,山东女排女教练用怪战术3-0上海女排,闯进决赛

埋伏主力作奇兵,山东女排女教练用怪战术3-0上海女排,闯进决赛

真理是我亲戚
2025-11-18 21:24:16
亚洲杯预选赛:1-2,中国香港遭世界第155逆转,首败+丢榜首宝座

亚洲杯预选赛:1-2,中国香港遭世界第155逆转,首败+丢榜首宝座

侧身凌空斩
2025-11-18 21:57:20
11月18日俄乌:高达1357亿欧元的乌克兰融资方案

11月18日俄乌:高达1357亿欧元的乌克兰融资方案

山河路口
2025-11-18 15:44:42
西安百姓怒了:市监局沦为方红卫权力余毒重灾区!

西安百姓怒了:市监局沦为方红卫权力余毒重灾区!

老萧杂说
2025-11-18 20:00:31
封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

书雁飞史oh
2025-11-08 21:11:50
A股:刚刚,十二部门联合印发,释放一个信号,周三将迎新的变化

A股:刚刚,十二部门联合印发,释放一个信号,周三将迎新的变化

云鹏叙事
2025-11-19 00:00:03
张含韵的奶欲更勾人,36岁依旧童颜,身材却饱满成熟韵味满满

张含韵的奶欲更勾人,36岁依旧童颜,身材却饱满成熟韵味满满

TVB的四小花
2025-11-18 03:15:15
埃本·拜尔斯:喝下1400瓶核辐射水,身体瓦解,30年后骨头还发热

埃本·拜尔斯:喝下1400瓶核辐射水,身体瓦解,30年后骨头还发热

心中的麦田
2025-11-17 20:42:51
西伯利亚有多可怕?零下73度,千斤存粮百罐腌菜,砍柴一个月才行

西伯利亚有多可怕?零下73度,千斤存粮百罐腌菜,砍柴一个月才行

霁寒飘雪
2025-11-04 09:19:58
燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼频道
2025-11-13 12:44:36
美女美图7239期

美女美图7239期

情感大头说说
2025-11-18 01:04:25
4000吨“沉睡氢弹”被击中,北约火速大撤退,乌:都怪俄干的好事

4000吨“沉睡氢弹”被击中,北约火速大撤退,乌:都怪俄干的好事

南宫一二
2025-11-18 14:41:53
2025-11-19 02:07:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

数码
健康
艺术
家居
公开课

数码要闻

华为MatePad系列平板“PC多屏协同”功能正式回归

警惕超声报告这六大"坑"

艺术要闻

你绝对没见过!黎雄才山水画的独特魅力!

家居要闻

彰显奢华 意式经典风格

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版