网易首页 > 网易号 > 正文 申请入驻

急诊室生死逆转!酒后呕吐,GPT-5一眼锁定食管穿孔

0
分享至


新智元报道

编辑:倾倾

【新智元导读】医生确诊主动脉夹层要花四个多小时,而AI却只用了1.7小时。现在,GPT-5则更厉害——不只是更快,还能像医生那样推理。它会把零散的病历、化验和影像梳理一遍,生成一条完整的诊断链,从而得出准确的判断。

对于医生来说,每一次诊断都是在与时间赛跑。

有些病,哪怕只是慢了0.01秒,也会造成无法挽回的悲剧。

不久前,AI在在主动脉夹层这种高危疾病的诊断中,第一次突破了人类医生的速度:

传统上需要4.3小时才能确诊的病,AI只用了1.7小时。

这缩短下来的2.6个小时,挽救了一条生命。

AI突破诊断速度,这不只是一个技术指标,而是真真正正的生死分界线。

而现在,AI的脚步又更进一步——它不但快,还能完成更复杂的医学推理。

不只是快,还会像医生一样推理

AI在医疗领域里的第一个价值,是它能比医生更快发现问题。

不管是胰腺癌、胃癌,还是主动脉夹层,它都能在最短时间内,揪出那些隐藏的风险。

但医学真正的难点,从来不只是发现问题。

更大的挑战,是如何把病历里的只言片语、化验单上的数字、影像片里的细节拼到一起。

只有推演出背后的病因,才能判断下一步的治疗方案。

过去,这一步往往需要经验丰富的医生,凭多年积累的直觉和推理。

哪怕如此,也常常出错或耗时严重。

而如今,GPT-5从天而降,让AI第一次从「聊天助手」,进化成一个通用的多模态医学推理器。

它能同时读懂文本、数据和影像,并把这些碎片信息组装成完整的诊断推理链。

相比GPT-4o的「接近人类」,GPT-5已经迈进了「超越人类」的门槛。

成绩单曝光:GPT-5把医生甩在身后

如果说GPT-4o只是勉强追上医生的脚步,那GPT-5已经在把医生甩在了身后。

在美国医师资格考试里,这个模型的平均分达到了95.22% ——比GPT-4o提升近3个百分点。


尤其是在临床决策部分,GPT-5考出了97.5%的高分,比GPT-4o高出整整 4.17%。

这是最贴近真实临床的环节,而GPT-5遥遥领先。



QA/VQA任务的提示设计

要知道,这样的分数放在人类考生里,已经是满分。

在MedQA医考题库里,GPT-5的正确率高达95.84%,比GPT-4o高出4.8%几乎「零失误」。

在更细分的MMLU医学子领域,GPT-5也几门门满分:医学遗传学100%,临床知识、解剖学等都保持在92%–95%的高位。

而这些科目,往往是医学生最容易出错的地方。


QA基准上的性能(%)。蓝色数字和箭头表示与gpt-4o-2024-11-20相比的变化

而在最复杂的MedXpertQA——需要同时理解病历、检验数据和影像的多模态推理测试中,GPT-5 的表现更是惊人:

文本版推理正确率56.96%,比GPT-4o提升26.33%。

多模态版推理正确率69.99%,理解74.37%,比GPT-4o分别提升29.26%和 26.18%。


VQA基准上的性能(%)。蓝色数字和箭头表示与gpt-4o-2024-11-20相比的变化

更出人意料的是,当研究者把GPT-5和真实的执业医生放在一起比较时,发现GPT-5几乎是在所有维度全面超过医生。

尤其在多模态测试里,GPT-5 的推理能力比医生高出24%,理解能力高出 29%。


VQA基准上的性能(%)。蓝色数字和箭头表示与gpt-4o-2024-11-20相比的变化

也就是说,GPT-5能在复杂的临床场景里,给出比医生更快、更准的答案。

急诊室里的赛跑:GPT-5抢先一步

急诊室里,混乱而紧张。

一个45岁的男人被担架抬了进来,身上满是呕吐物,衣服凌乱,浑身带着酒气。

他醒了过来,却依旧控制不住地吐。

医生给他补液、输糖,暂时稳住了生命体征。

可几个小时后,他的颈口下方竟鼓起了奇怪的气泡,嘴里也不断溢出血丝。

办公桌上,CT影像、化验结果和病史全摆在一起。

问题来了——这是胰腺炎并发的剧烈呕吐,还是最凶险的食管穿孔?

这两者的治疗方案完全不同:一个是持续治疗,另一个若不立刻确诊并手术,随时可能大出血丧命。

医生可能需要时间反复权衡,但在测试里,GPT-5却迅速做出判断。

它像一位有经验的主治医师,把零散的线索一点点串起来:酗酒史、升高的胰酶、反复呕吐,加上突发的气肿和血性呕吐……所有证据指向同一个方向——食管穿孔。

但它没有止步于诊断,还给出下一步建议:立即进行水溶性造影吞咽检查,确认裂口位置,再进入后续治疗。


研究里给GPT-5的病例输入:病历叙述、化验指标、CT影像和多项选择


GPT-5在病例中的推理过程:它不仅选对了「造影吞咽检查」,还逐条解释了为什么排除其他选项

就这样,一个极易被误诊、常常拖延到错过最佳时机的病,被GPT-5快速而准确地捕捉到了。

不是取代,而是争取更多时间

在急诊室,最缺的从来不是医生,而是时间。

一个个鲜活的生命,在等待诊断的几小时里悄然流逝。

最新一轮评估里,GPT-5的进步最明显的,恰恰是这种最复杂的场景:病历、化验单和影像片。

但在那些最复杂的场景里,它能帮医生把病历、化验和影像迅速拼在一起,把诊断从几个小时缩短到几十分钟。


研究者将其形容为从「接近人类」跨越到「超越人类」的时刻。

不过他们也提醒,AI的成绩单来自标准化测试环境,真实的临床要复杂得多。

还有千差万别的病人、不可预测的并发症,以及伦理与责任的问题。

所以,GPT-5的意义从来不是取代医生。

它真正能做的,是成为那双永远睁开的「第二双眼睛」。

在医生最容易忽视的角落,发现最致命的风险。

未来某一天,当我们走进医院,也许会发现:医生身边多了一位不知疲倦的伙伴。

而那,可能就是GPT-5。

参考资料:

https://www.alphaxiv.org/pdf/2508.08224

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20万人在线围观昔日浙江首富直播跳舞:人在低谷,不要谈面子

20万人在线围观昔日浙江首富直播跳舞:人在低谷,不要谈面子

洞见
2025-09-13 21:10:21
Netflix顶流黄暴美剧终于定档,被骂惨了

Netflix顶流黄暴美剧终于定档,被骂惨了

来看美剧
2025-09-14 20:17:00
朝鲜姑娘怀孕,查明是志愿军营长所为,彭总得知后批示8个字

朝鲜姑娘怀孕,查明是志愿军营长所为,彭总得知后批示8个字

幽州校尉
2025-09-01 11:56:21
即将消失的蒙古国:全国只有一条高速公路,76%的国土正在成沙漠

即将消失的蒙古国:全国只有一条高速公路,76%的国土正在成沙漠

芳芳历史烩
2025-08-08 19:02:24
俄乌在红军城兵力对比为5:1,乌军身经百战,俄军出现明显颓势

俄乌在红军城兵力对比为5:1,乌军身经百战,俄军出现明显颓势

国力视角
2025-09-12 16:38:28
卡塔尔:多国领导人将前往多哈

卡塔尔:多国领导人将前往多哈

鲁中晨报
2025-09-14 14:59:06
确认离队!31岁的佩恩,还能重返NBA吗?

确认离队!31岁的佩恩,还能重返NBA吗?

篮球实录
2025-09-14 22:50:56
英超43岁少帅神了!夏窗卖人净赚1亿 如今排名联赛第4

英超43岁少帅神了!夏窗卖人净赚1亿 如今排名联赛第4

球事百科吖
2025-09-14 04:24:06
周末大事件!下周A股要变天

周末大事件!下周A股要变天

钱眼
2025-09-14 19:18:50
捏蛋女已社死:正脸曝光面目狰狞,工作单位被扒,一家都是狠角色

捏蛋女已社死:正脸曝光面目狰狞,工作单位被扒,一家都是狠角色

吃瓜盟主
2025-08-30 15:53:04
于朦胧这事最大的疑点是这个!有人爆料当晚他与某导演一起吃饭

于朦胧这事最大的疑点是这个!有人爆料当晚他与某导演一起吃饭

魔都姐姐杂谈
2025-09-12 14:34:58
工龄33年7个月,个人账户储存额551080.04元,江苏职工退休了,养老金有多少?开心坏了

工龄33年7个月,个人账户储存额551080.04元,江苏职工退休了,养老金有多少?开心坏了

养老规划罗姐说
2025-09-14 19:59:30
弗林蓬造汉尼拔手球送点!萨拉赫第95分钟点射!利物浦1-0领先!

弗林蓬造汉尼拔手球送点!萨拉赫第95分钟点射!利物浦1-0领先!

直播吧
2025-09-14 23:03:15
曼市德比首发,多纳鲁马迎来曼城生涯首秀

曼市德比首发,多纳鲁马迎来曼城生涯首秀

懂球帝
2025-09-14 22:31:52
艾克森评中国男足:郑智很厉害,能当国足主帅!遗憾武磊留洋晚了

艾克森评中国男足:郑智很厉害,能当国足主帅!遗憾武磊留洋晚了

国足风云
2025-09-14 11:32:30
iPhone17ProMax跌破首发价,黄牛今年不敢疯狂了!

iPhone17ProMax跌破首发价,黄牛今年不敢疯狂了!

搞机小帝
2025-09-14 00:02:36
中印加勒万河谷肉搏战:680人,8小时混战,双方到底伤亡多少人?

中印加勒万河谷肉搏战:680人,8小时混战,双方到底伤亡多少人?

文史达观
2025-03-12 12:40:01
遭到以色列空袭的卡塔尔,为何紧急邀请四个亲华国家?

遭到以色列空袭的卡塔尔,为何紧急邀请四个亲华国家?

近史博览
2025-09-13 18:14:16
湖南省唯一毕业就是公务员的专科,30%以上概率

湖南省唯一毕业就是公务员的专科,30%以上概率

今日美食分享
2025-09-14 18:02:41
0:4惨败!邓卓翔仰天长叹,中超大战:于根伟强势复仇,直逼泰山

0:4惨败!邓卓翔仰天长叹,中超大战:于根伟强势复仇,直逼泰山

话体坛
2025-09-14 23:04:11
2025-09-14 23:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13445文章数 66149关注度
往期回顾 全部

健康要闻

内分泌科专家破解身高八大谣言

头条要闻

45岁二胎妈妈找工作:面试导购被卡年龄 就要45岁以下

头条要闻

45岁二胎妈妈找工作:面试导购被卡年龄 就要45岁以下

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

教育
时尚
旅游
公开课
军事航空

教育要闻

知名大学院长被曝学术不端

听说现在年轻人的家都“歪七扭八”的?

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄无人机飞入波兰 美国务卿:不可接受

无障碍浏览 进入关怀版