网易首页 > 网易号 > 正文 申请入驻

GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-5比人类医生还会看X光片?!

最新研究显示,GPT-5对医学影像的推理和理解准确率分别比人类专家高出24.23%和29.40%

来自埃默里大学医学院的研究团队把GPT-5和GPT-4o以及更小的GPT-5变体(GPT-5-mini、GPT-5-nano)进行了比较,分析它们在医疗领域处理多模态信息的能力。

通过一系列标准化测试发现GPT-5在所有测试中的表现都比其他模型好,尤其是在MedXpertQA的多模态测试中,它的推理和理解得分比GPT-4o分别提高了近30%36%,甚至比人类医生还高。

AI看病历常见,可是比人类医生还会看就不常见了,所以GPT-5是怎么做到的?

AI在多模态医学领域超越人类新手医生

研究人员对GPT-5、GPT-4o以及GPT-5的mini和nano版本进行了系统测试。

测试分为三类:纯文本的USMLE考试、多模态的MedXpertQA测试还有还有放射科的VQA-RAD,都是零样本设置,不依赖数据微调

USMLE是美国医师执照考试,有标准化的命题和严格的评分体系,是全球医学教育和人才评估的重要参考基准。

该考试分为三个步骤:Step1主要考察基础医学知识,Step2聚焦临床应用知识,Step3侧重实践。

在此次研究中,GPT-5在USMLE考试中全面超越GPT-4o,且平均得分领先于其他模型。

MedXpertQA测试是一个用于评估模型专家级医学知识与高级推理能力的综合基准,有文本测试和多模态测试,共涵盖4460道题目,涉及17个医学专科和11个身体系统,其数据源自超20个美国医师执照考试、欧洲放射学委员会考试等权威内容。

其中多模态的MedXpertQA测试利用它的MM子集展开,MM子集引入了带有多样化图像及丰富临床信息(病历、检查结果等)的专家级考试题。

为增加难度,多模态子集的题目还扩充至5个选项,能更有效地评估模型在贴近真实场景下的医学诊断推理能力。

依据之前的数据,GPT-5推理和理解得分比GPT-4o分别提高了近30%36%

下图详细对比了未取得执照的人类专家与GPT-5系列模型及GPT-4o在MedXpertQA测试的文本子集(Text)和多模态子集(MM)中的表现,涵盖推理、理解及平均三个维度。

在文本测试中,GPT-4o三项得分均低于人类专家,GPT-5-nano同样全面落后,GPT-5-mini 推理和平均得分略超人类专家,而GPT-5表现最优,得分大幅领先。

在多模态测试中,GPT-4o推理和平均得分略低,GPT-5-nano整体与人类专家持平,GPT-5-mini大幅超越人类专家,GPT-5优势最为显著,推理超人类专家24%、理解得超人类专家29%,展现出强大的多模态医学推理能力。

VQA-RAD测试是医学视觉问答测试,该数据集包含315张放射影像以及与之对应的3515个问答对。常用于评估医学多模态大语言模型解读复杂医学图像并生成准确文本描述的能力。

在此次研究中,GPT-5的匹配率为70.92%,高于GPT-4o及小变体GPT-5-nano,而其轻量化变体GPT-5-mini的表现略优,严格匹配率达到74.90%。

考虑到VQA-RAD规模相对较小且具有放射科专项属性,这种得分差异可能源于较小模型存在数据集特定的过拟合现象。

看了这么多测试结果,那么GPT-5为什么能全面碾压前辈GPT-4o呢?

GPT-5构建了端到端的多模态架构

团队认为,GPT-5能力提升核心源于其跨模态注意力与对齐能力的增强。

GPT-5与GPT-4o的核心差距,本质上是从文本主导的混合处理原生多模态深度融合的代际跨越。

GPT-4o在处理跨模态任务时,仍依赖文本转译+外部工具调用的间接模式:例如解析医学影像时,需先通过第三方模型将图像信息转化为文本描述,再基于文本进行推理。

这种模态转换中介不仅增加了信息损耗(如图像中的细微病变可能在转译中被忽略),还导致推理链条断裂——模型难以直接建立影像特征-病理机制-治疗方案的因果关联。

GPT-5构建了端到端的多模态架构:通过共享标记化技术,将文本、影像、音频等信息编码为统一向量空间的符号,再借助跨模态注意力机制实现感知-推理-决策的无缝衔接。

并且,团队认为在MedXpertQA Text、USMLE Step 2这样的推理密集型任务中,GPT-5的进步更突出是因为思维链提示与GPT-5增强的内部推理能力形成了协同效应,使其能更准确地完成多步推理。

不过研究人员也指出,尽管GPT-5在标准测试中表现优秀,但要说明的是,这些测试都是在理想环境下进行的,题目和数据都是标准化的,现实中患者的情况千奇百怪,还可能遇到各种突发状况。

所以,GPT-5要真走进诊室当助理,还得经过更多实战考验。

这不,KCDH_A数字健康研究中心对AI进行了放射科的终极考试,这是一项AI从未见过的、跨模态的检测任务,涵盖了CT、MRI和X光,模拟日常实践中实际遇到的复杂真实病例。

测试结果显示,所有AI模型得分均低于实习医生,而拥有执业资格的放射科医生比AI领先更多,虽然GPT-5刚刚进入顶尖AI的位置,但也远低于人类。

该实验室的研究人员表示:

虽然我对AI发展感到兴奋,我们实验室也在每天使用AI模型,但AI取代放射科医生与现实的差距仍然很大。

由此可见,AI独自看病历之前,还是得先磨练磨练。

论文地址:https://arxiv.org/abs/2508.08224


[1]https://x.com/omarsar0/status/1955252499142627788
[2]https://x.com/emollick/status/1955381296743715241
[3]https://x.com/DrDatta_AIIMS/status/1954586822849523789

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王志文安排好后事仅4月,担心事发生,私生活被扒,王宝强拒和解

王志文安排好后事仅4月,担心事发生,私生活被扒,王宝强拒和解

白面书誏
2026-04-16 18:04:33
中国不愧是游击战的祖宗,仅用3年,就消灭了肆虐34年的猛虎组织

中国不愧是游击战的祖宗,仅用3年,就消灭了肆虐34年的猛虎组织

浪子阿邴聊体育
2026-05-10 14:38:45
39岁何洁官宣即将二婚,对象是仨孩子生父刁磊,日子定在5月20日

39岁何洁官宣即将二婚,对象是仨孩子生父刁磊,日子定在5月20日

白面书誏
2026-05-08 16:13:29
他离开司令员岗位,生活急转直下,为了改善生活,让儿女南下打拼

他离开司令员岗位,生活急转直下,为了改善生活,让儿女南下打拼

微野谈写作
2026-05-10 13:00:08
网友匿名爆料自己身边的八卦,你永远也想不到,到底能有多炸裂!

网友匿名爆料自己身边的八卦,你永远也想不到,到底能有多炸裂!

夜深爱杂谈
2026-05-03 11:22:10
CNN创始人去世,28亿家产没给儿女,全给了野牛和草地

CNN创始人去世,28亿家产没给儿女,全给了野牛和草地

纪中百大事
2026-05-10 09:31:51
美国总统特朗普将于5月13日至15日对中国进行国事访问

美国总统特朗普将于5月13日至15日对中国进行国事访问

新京报
2026-05-11 09:09:06
林心如晒母亲节礼物,小海豚审美好有趣!林心如母爱爆棚幸福洋溢

林心如晒母亲节礼物,小海豚审美好有趣!林心如母爱爆棚幸福洋溢

TVB的四小花
2026-05-11 09:10:15
两人都拒绝参加玄武门,李世民为何防了李靖一辈子,却重用李勣?

两人都拒绝参加玄武门,李世民为何防了李靖一辈子,却重用李勣?

兴趣知识
2026-05-09 03:10:48
完胜日本队!国乒男队12连冠

完胜日本队!国乒男队12连冠

隐于山海
2026-05-11 09:07:34
一个手握千亿男装帝国的富二代,为什么突然疯了呢?

一个手握千亿男装帝国的富二代,为什么突然疯了呢?

流苏晚晴
2026-05-09 19:01:09
47岁刘涛妈祖活动新中式显端庄,网友感叹身边尽是大佬

47岁刘涛妈祖活动新中式显端庄,网友感叹身边尽是大佬

荒野老五
2026-05-10 05:53:49
中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

细说职场
2026-05-06 14:21:03
国乒3-0横扫日本夺冠,赛后两个细节太解气

国乒3-0横扫日本夺冠,赛后两个细节太解气

田心生活
2026-05-11 08:23:25
特罗萨德:西汉姆那球刚进完,拉亚就说了“这球绝对不算”

特罗萨德:西汉姆那球刚进完,拉亚就说了“这球绝对不算”

懂球帝
2026-05-11 02:16:23
不能结盟了,普京公开喊话中国,中东开战后,俄罗斯首个危机浮现

不能结盟了,普京公开喊话中国,中东开战后,俄罗斯首个危机浮现

像梦一场a
2026-05-11 09:01:48
小玥儿开通个人账号!发文求救,晒照思念妈妈,外婆和小S是好友

小玥儿开通个人账号!发文求救,晒照思念妈妈,外婆和小S是好友

小娱乐悠悠
2026-05-10 11:32:57
伊朗已回应美国提出的结束战争方案

伊朗已回应美国提出的结束战争方案

新华社
2026-05-10 20:28:27
中年夫妻已经不需要性生活了

中年夫妻已经不需要性生活了

脆皮先生
2026-05-10 19:36:16
街拍美女,身材真好

街拍美女,身材真好

蓝色海洋009
2026-05-10 07:36:29
2026-05-11 09:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12599文章数 176461关注度
往期回顾 全部

科技要闻

股价一年暴涨160%!谷歌凭什么?

头条要闻

美国经济学家:"台独"是中美共同的敌人 意味着战争

头条要闻

美国经济学家:"台独"是中美共同的敌人 意味着战争

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
健康
教育
游戏
房产

艺术要闻

抖音第二总部来了,长得像“海湾石瀑”太惊艳!

干细胞能让人“返老还童”吗

教育要闻

发表第一篇文章就被人大复印资料转载,这位教师是怎么做到的?

曝卡普空将推《鬼泣》重制、《生化危机10》等新作

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

无障碍浏览 进入关怀版