网易首页 > 网易号 > 正文 申请入驻

GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-5比人类医生还会看X光片?!

最新研究显示,GPT-5对医学影像的推理和理解准确率分别比人类专家高出24.23%和29.40%



来自埃默里大学医学院的研究团队把GPT-5和GPT-4o以及更小的GPT-5变体(GPT-5-mini、GPT-5-nano)进行了比较,分析它们在医疗领域处理多模态信息的能力。



通过一系列标准化测试发现GPT-5在所有测试中的表现都比其他模型好,尤其是在MedXpertQA的多模态测试中,它的推理和理解得分比GPT-4o分别提高了近30%36%,甚至比人类医生还高。



AI看病历常见,可是比人类医生还会看就不常见了,所以GPT-5是怎么做到的?

AI在多模态医学领域超越人类新手医生

研究人员对GPT-5、GPT-4o以及GPT-5的mini和nano版本进行了系统测试。

测试分为三类:纯文本的USMLE考试、多模态的MedXpertQA测试还有还有放射科的VQA-RAD,都是零样本设置,不依赖数据微调

USMLE是美国医师执照考试,有标准化的命题和严格的评分体系,是全球医学教育和人才评估的重要参考基准。

该考试分为三个步骤:Step1主要考察基础医学知识,Step2聚焦临床应用知识,Step3侧重实践。

在此次研究中,GPT-5在USMLE考试中全面超越GPT-4o,且平均得分领先于其他模型。



MedXpertQA测试是一个用于评估模型专家级医学知识与高级推理能力的综合基准,有文本测试和多模态测试,共涵盖4460道题目,涉及17个医学专科和11个身体系统,其数据源自超20个美国医师执照考试、欧洲放射学委员会考试等权威内容。

其中多模态的MedXpertQA测试利用它的MM子集展开,MM子集引入了带有多样化图像及丰富临床信息(病历、检查结果等)的专家级考试题。

为增加难度,多模态子集的题目还扩充至5个选项,能更有效地评估模型在贴近真实场景下的医学诊断推理能力。

依据之前的数据,GPT-5推理和理解得分比GPT-4o分别提高了近30%36%



下图详细对比了未取得执照的人类专家与GPT-5系列模型及GPT-4o在MedXpertQA测试的文本子集(Text)和多模态子集(MM)中的表现,涵盖推理、理解及平均三个维度。



在文本测试中,GPT-4o三项得分均低于人类专家,GPT-5-nano同样全面落后,GPT-5-mini 推理和平均得分略超人类专家,而GPT-5表现最优,得分大幅领先。

在多模态测试中,GPT-4o推理和平均得分略低,GPT-5-nano整体与人类专家持平,GPT-5-mini大幅超越人类专家,GPT-5优势最为显著,推理超人类专家24%、理解得超人类专家29%,展现出强大的多模态医学推理能力。

VQA-RAD测试是医学视觉问答测试,该数据集包含315张放射影像以及与之对应的3515个问答对。常用于评估医学多模态大语言模型解读复杂医学图像并生成准确文本描述的能力。

在此次研究中,GPT-5的匹配率为70.92%,高于GPT-4o及小变体GPT-5-nano,而其轻量化变体GPT-5-mini的表现略优,严格匹配率达到74.90%。



考虑到VQA-RAD规模相对较小且具有放射科专项属性,这种得分差异可能源于较小模型存在数据集特定的过拟合现象。

看了这么多测试结果,那么GPT-5为什么能全面碾压前辈GPT-4o呢?

GPT-5构建了端到端的多模态架构

团队认为,GPT-5能力提升核心源于其跨模态注意力与对齐能力的增强。

GPT-5与GPT-4o的核心差距,本质上是从文本主导的混合处理原生多模态深度融合的代际跨越。

GPT-4o在处理跨模态任务时,仍依赖文本转译+外部工具调用的间接模式:例如解析医学影像时,需先通过第三方模型将图像信息转化为文本描述,再基于文本进行推理。

这种模态转换中介不仅增加了信息损耗(如图像中的细微病变可能在转译中被忽略),还导致推理链条断裂——模型难以直接建立影像特征-病理机制-治疗方案的因果关联。

GPT-5构建了端到端的多模态架构:通过共享标记化技术,将文本、影像、音频等信息编码为统一向量空间的符号,再借助跨模态注意力机制实现感知-推理-决策的无缝衔接。

并且,团队认为在MedXpertQA Text、USMLE Step 2这样的推理密集型任务中,GPT-5的进步更突出是因为思维链提示与GPT-5增强的内部推理能力形成了协同效应,使其能更准确地完成多步推理。

不过研究人员也指出,尽管GPT-5在标准测试中表现优秀,但要说明的是,这些测试都是在理想环境下进行的,题目和数据都是标准化的,现实中患者的情况千奇百怪,还可能遇到各种突发状况。

所以,GPT-5要真走进诊室当助理,还得经过更多实战考验。

这不,KCDH_A数字健康研究中心对AI进行了放射科的终极考试,这是一项AI从未见过的、跨模态的检测任务,涵盖了CT、MRI和X光,模拟日常实践中实际遇到的复杂真实病例。

测试结果显示,所有AI模型得分均低于实习医生,而拥有执业资格的放射科医生比AI领先更多,虽然GPT-5刚刚进入顶尖AI的位置,但也远低于人类。



该实验室的研究人员表示:

虽然我对AI发展感到兴奋,我们实验室也在每天使用AI模型,但AI取代放射科医生与现实的差距仍然很大。

由此可见,AI独自看病历之前,还是得先磨练磨练。

论文地址:https://arxiv.org/abs/2508.08224


[1]https://x.com/omarsar0/status/1955252499142627788
[2]https://x.com/emollick/status/1955381296743715241
[3]https://x.com/DrDatta_AIIMS/status/1954586822849523789

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名先秦史研究学者谢维扬逝世,著有《中国早期国家》等

知名先秦史研究学者谢维扬逝世,著有《中国早期国家》等

澎湃新闻
2025-11-06 19:58:26
你敢信吗?全世界只有我们和日本自己,还执着地叫着“天皇”!

你敢信吗?全世界只有我们和日本自己,还执着地叫着“天皇”!

南权先生
2025-11-06 19:35:03
9500万人口的东北,去年生了38万,死亡91万!情况比想象中更严重

9500万人口的东北,去年生了38万,死亡91万!情况比想象中更严重

狐狸先森讲升学规划
2025-08-01 18:30:03
赖清德没想到,大陆对台使出最绝的一招:邀请日本自卫队到中国

赖清德没想到,大陆对台使出最绝的一招:邀请日本自卫队到中国

辉辉历史记
2025-11-07 06:57:54
短剧演员红毯生图来了,没了十级滤镜,谁的颜值扛住了长镜头检验

短剧演员红毯生图来了,没了十级滤镜,谁的颜值扛住了长镜头检验

大铁猫娱乐
2025-11-06 15:17:27
不会吃别尬吃!《树影迷宫》廖凡吃馅饼,让假吃演员无地自容

不会吃别尬吃!《树影迷宫》廖凡吃馅饼,让假吃演员无地自容

糊咖娱乐
2025-11-05 11:33:50
中国最大盗墓头目——姚玉忠,生前供出秦始皇陵入口,依旧判死刑

中国最大盗墓头目——姚玉忠,生前供出秦始皇陵入口,依旧判死刑

不八卦掌门人
2025-11-06 15:50:29
何小鹏哽咽再辟谣“机器人内藏真人”

何小鹏哽咽再辟谣“机器人内藏真人”

新京报
2025-11-06 21:36:05
不装了?面对解放军武力夺台,郑丽文语出惊人,喊出“武力保台”

不装了?面对解放军武力夺台,郑丽文语出惊人,喊出“武力保台”

赵钇是个热血青年
2025-11-05 17:29:23
对了!谢谢你,NBA!中国男篮即将世预赛首秀

对了!谢谢你,NBA!中国男篮即将世预赛首秀

篮球实战宝典
2025-11-06 20:39:30
女朋友是体育生是什么体验?网友:第二天下不来床

女朋友是体育生是什么体验?网友:第二天下不来床

带你感受人间冷暖
2025-11-06 00:20:05
这款融合两种地域风味的零食,凭啥成“顶流”?

这款融合两种地域风味的零食,凭啥成“顶流”?

徐静波静说日本
2025-11-05 08:27:41
不准踏入中国市场半步?我国强硬下达“逐客令”,三星:放过我们

不准踏入中国市场半步?我国强硬下达“逐客令”,三星:放过我们

花花娱界
2025-11-06 11:10:24
他问了欧盟一个“有趣”的问题,然后被解雇了......

他问了欧盟一个“有趣”的问题,然后被解雇了......

环球时报国际
2025-11-05 23:25:45
大势已去!录音门事件再升级,向太、李安、黄百鸣的话字字珠玑

大势已去!录音门事件再升级,向太、李安、黄百鸣的话字字珠玑

阿废冷眼观察所
2025-11-06 11:21:30
全运乒乓球:16强今天出炉!刘诗雯林高远晋级,7大世界冠军出场

全运乒乓球:16强今天出炉!刘诗雯林高远晋级,7大世界冠军出场

国乒二三事
2025-11-07 06:57:07
日本知名歌手酒井法子近照引发粉丝积极反响

日本知名歌手酒井法子近照引发粉丝积极反响

随波荡漾的漂流瓶
2025-11-06 19:14:52
快速补充能量,哈兰德晒自己赛后吃烤羊排照片

快速补充能量,哈兰德晒自己赛后吃烤羊排照片

懂球帝
2025-11-06 16:14:25
哇太漂亮了,俄罗斯顶级女神,五官绝美,完全符合东方的审美

哇太漂亮了,俄罗斯顶级女神,五官绝美,完全符合东方的审美

陈意小可爱
2025-10-11 15:05:05
王楚钦大可放心,樊振东参加全运会不是来夺冠的,而是另有所图

王楚钦大可放心,樊振东参加全运会不是来夺冠的,而是另有所图

鸿印百合
2025-11-06 09:33:23
2025-11-07 08:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
11638文章数 176326关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

"一键投诚"APP在台湾引热议 台当局破防

头条要闻

"一键投诚"APP在台湾引热议 台当局破防

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

健康
数码
艺术
亲子
公开课

超声探头会加重受伤情况吗?

数码要闻

苹果Apple TV全新开场动画幕后:相机结合玻璃Logo实拍

艺术要闻

Omar Ortiz 2025作品,墨西哥当代极简超写实画家

亲子要闻

让宝宝少咳嗽、让孩子晚近视、为罕见病早行动 进博展商交出儿童健康民生答卷

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版