网易首页 > 网易号 > 正文 申请入驻

Nature Medicine:戳破“AI大模型超越人类医生”的神话,取得高分靠的是刷题背答案+瞎猜?

0
分享至

撰文丨王聪

编辑丨王多鱼

排版丨水成文

最近,GPT-5、Gemini 这些大语言模型在医学考试里拿高分、碾压人类专家的消息层出不穷,这让不少人产生了一种 AI 医生马上就能上岗的感觉。

而一项最新研究给所有乐观者泼了一盆冷水——当前顶尖大模型在医疗应用中所取得的“高分”,很可能是“作弊”来的。

2026 年 6 月 26 日,微软研究院、Scripps 研究所的研人员在国际顶尖医学期刊Nature Medicine上发表了题为:Evaluating the robustness and readiness of large frontier models in health AI applications 的研究论文,论文第一作者兼共同通讯作者Gu Yu目前已加入字节跳动。

该研究系统性地应用并整合了一系列对抗性压力测试,以评估主流大模型和医疗基准的稳健性(Robustnes)。该研究发现,把测试题目里的图片删掉、把选项顺序打乱、把正确答案对应的图像换成别的疾病……结果原本取得高分的大模型,瞬间跌到及格线以下,甚至还会一本正经地编出完全错误的诊断理由。

这项研究不仅戳破了“医疗 AI 能力超越人类医生”的神话,更给整个行业提了个醒:医疗 AI 的评估,不能再只看“考试分数”了。


像 GPT-5 和 Gemini 这样的前沿大语言模型在广泛的医疗应用基准测试中表现出色。然而,在这些看似令人鼓舞的结果背后,仍存在显著的增长空间,尤其是在多模态推理等前沿领域。

六套“压力测试”,扒下大模型的“画皮”

研究团队设计了 6 项递进的压力测试,专门瞄准大模型的多模态推理能力——也就是同时看懂文字病历和医学影像,像医生一样综合判断的能力。结果暴露的问题,比想象中更严重——

1、没图也能“蒙对”?全靠“死记硬背”

第一项测试很简单:把题目里的医学影像(比如 X 光片、病理图)直接删掉,只留文字题干,看模型还能不能答对。

按理说,很多医学题必须看图才能诊断,没图就应该答不上来,或者明确说“信息不足”。但结果让人大跌眼镜:在《新英格兰医学杂志》(NEJM)的医学挑战题里,GPT-5 在去掉图像后准确率只降了 13.92 个百分点,依然有 67.41%;而在专门筛选的“必须看图才能答”的 197 道题里,所有模型的准确率都远高于 20% 的随机猜测水平——GPT-5 甚至达到了 41.32%。

这意味着这些模型根本没在认真“看图诊断”,而是在靠“刷题背答案”:记住了“某类题干描述对应某个答案”,哪怕没有影像证据,也能蒙对一半。只有 GPT-4o 比较“老实”,没图的时候有一半概率直接拒绝回答,但也还是有 16.35% 的概率会瞎猜

2、选项换个顺序就翻车?“位置依赖”太严重

第三项测试更离谱:只把选择题的选项顺序打乱,题干、正确答案全不变,看模型会不会受影响。

结果在纯文本输入下,GPT-4o 的准确率直接从正常水平的 70%+ 跌到了 16.35%,只有在保留图像的情况下,视觉信息能帮它抵消一部分干扰,准确率才会回升。这说明模型很多时候不是真的理解了知识点,而是记住了“正确答案在第几个位置”这种表面规律,典型的“应试技巧”,不是真本事。

3、换张图就“认死理”?视觉理解全是 bug

第五项测试最贴近临床实际:把题干对应的正确影像,换成另一个符合某个错误选项的影像,题干和选项完全不变,看模型会不会跟着新影像改答案。

比如原题是“看图诊断皮肌炎”,正确答案是 B 选项,研究人员把图换成符合 C 选项“心内膜炎”的影像,按理说模型应该改选 C。但结果呢?GPT-5 的准确率从 84% 暴跌到 35%,也就是说大部分时候它还是盯着原来的 B 选项不放,根本没意识到图已经变了。更有意思的是 GPT-4o,反而准确率从 26.5% 升到了 36%——不是它看得更准了,而是随机乱猜的概率变高了。

4、解释越听越靠谱?全是“一本正经的胡说八道”

最后一项测试专门检测大模型的“诊断理由”:让它一步步写出推理过程,再看这些理由是不是真的支持它的答案。

结果发现三种典型问题:

  • 答案对了,理由错了:例如正确答案是“气肿性结肠炎”,大模型说自己看到了“沿结肠壁的囊状气体影”(这个描述确实符合该病),但实际上它根本没真的识别图像,只是根据答案反推了一个听起来合理的理由;

  • 错上加错:一开始看错了影像特征,后面的推理全部基于这个错误认知,越推越偏;

  • 废话文学:写了一大堆结构严谨的话,比如“需要结合临床症状、实验室检查综合判断”,但完全没有实质信息,对诊断毫无帮助。

最可怕的是,这些错误的推理过程往往逻辑通顺、术语专业,非专业人士(甚至普通医生)很难立刻发现漏洞,很容易被误导。


压力测试揭示了大语言模型在多模态医疗应用中的隐藏脆弱性和稳健性差距

原来使用的“考题”,本身就有问题

为什么这些大模型能在公开榜单上拿高分,一测试就露馅?研究团队发现:不是大模型太聪明,是我们用的“考题”(医学基准数据集)太简单、太单一了。

他们找了三位执业医生,用 10 个临床维度给 9 个常用的医学评测数据集打了分,结果发现这些数据集的“难度侧重”天差地别——

  • NEJM Image Challenge:既需要复杂推理,又需要精细读图,最接近真实临床诊断;

  • JAMA Clinical Challenge:推理要求高,但很多题不用看图,光读文字就能蒙对;

  • VQA-RAD、MIMIC-CXR:非常依赖图像,但推理难度低,基本是“看图认器官”;

  • OmniMedVQA:推理和视觉要求都很低,更像基础常识题。


基准测试在推理和视觉复杂度方面存在差异

这就导致一个尴尬的现实:如果一个模型只在 JAMA 这类“文本可解”的数据集上训练,哪怕它在榜单上拿了第一,放到需要读片的真实场景里也会完全失效。而我们过去总把这些数据集混为一谈,用平均分来衡量模型能力,相当于用“单科成绩”代表“全科水平”,完全是误判。

给医疗 AI 的“退烧药”:三个关键建议

这项研究不是为了否定大模型在医疗领域的价值,而是为了让行业冷静下来,建立更科学的评估体系。研究团队最后给出了三个核心建议,值得所有从业者深思——

第一,给每个数据集发“说明书”,以后发布医学评测数据集,必须附带详细的“元数据”:说明这个数据集主要考什么能力、适合评估哪类模型、有哪些局限性。不能只给个分数,却不说这个分数到底代表什么。

第二,评估要“拆指标”,不能只看总分,就像体检报告不会只看“总分”,而是分血常规、肝肾功能一样,模型评估也要按“推理复杂度”“视觉依赖度”“不确定性处理能力”等临床维度拆分指标,单独汇报。比如要明确说“该模型在视觉推理任务上表现优异,但在不确定性处理上存在缺陷”,而不是笼统地说“该模型达到专家水平”。

第三,必须把“压力测试”纳入常规评估,以后医疗 AI 的发布前审计,不能只跑一遍标准数据集算准确率,必须把“输入扰动”、“模态冲突”、“推理一致性”这类压力测试作为必选项,和准确率一起汇报。就像新药上市要做“不良反应测试”一样,AI 上岗前也要做“抗干扰测试”。

医疗 AI 的价值,从来不是“考高分”,而是真正帮医生减少误诊、帮患者获得更准确的诊断。如果我们的评估体系只盯着榜单排名,只会催生更多“应试型 AI”——它们在测试中表现完美,到了真实的临床应用时,面对模糊的影像、不完整的病历、复杂的个体差异,就会漏洞百出。

这项研究撕开的不仅是大模型的“遮羞布”,更是整个行业的“认知误区”:医疗 AI 的成熟度,不看它能在理想条件下拿多少分,而看它在混乱的真实世界里,能扛住多少意外。

论文链接

https://www.nature.com/articles/s41591-026-04501-8


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普称美伊今天多哈会谈

特朗普称美伊今天多哈会谈

界面新闻
2026-06-30 07:29:19
跌落神坛:2026退步最惨烈的6所985大学

跌落神坛:2026退步最惨烈的6所985大学

王姐懒人家常菜
2026-06-27 15:52:02
纳格尔斯曼下课?克洛普就担任德国队教练坦诚发表看法

纳格尔斯曼下课?克洛普就担任德国队教练坦诚发表看法

本泽体育
2026-06-30 12:33:49
儿子高考278分妈妈崩溃,孩子一笑:清华北大我随便挑

儿子高考278分妈妈崩溃,孩子一笑:清华北大我随便挑

起喜电影
2026-06-29 06:52:46
迭戈-弗兰:C罗原地不动就等着门前抢点,他拖累了葡萄牙全队

迭戈-弗兰:C罗原地不动就等着门前抢点,他拖累了葡萄牙全队

懂球帝
2026-06-29 22:12:06
刚提15天的蔚来ES9被高压水枪洗破车漆?蔚来官方回应:已与车主进行充分沟通,非质量缺陷

刚提15天的蔚来ES9被高压水枪洗破车漆?蔚来官方回应:已与车主进行充分沟通,非质量缺陷

每日经济新闻
2026-06-29 16:50:07
离婚6年,李小璐深夜坦言心声,只字不提贾乃亮,句句都是贾乃亮

离婚6年,李小璐深夜坦言心声,只字不提贾乃亮,句句都是贾乃亮

标体
2026-06-30 10:40:27
整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

史行途
2026-06-27 15:14:20
电影《四渡》主创团队翻车,采访发言迷惑,涉嫌美化反派女性人物

电影《四渡》主创团队翻车,采访发言迷惑,涉嫌美化反派女性人物

四斤
2026-06-29 10:02:36
三星正式宣布2655万亿韩元(约合11.68万亿元人民币)的投资计划 涉及半导体、AI算力数据中心等

三星正式宣布2655万亿韩元(约合11.68万亿元人民币)的投资计划 涉及半导体、AI算力数据中心等

财联社
2026-06-29 16:12:27
毛主席视察南京,忽然问谭震林:老实交代,你银行里存了多少钱

毛主席视察南京,忽然问谭震林:老实交代,你银行里存了多少钱

芊芊子吟
2026-06-27 16:30:08
阿根廷抽到上上签,但夺冠路上还有三道坎,最难的是哪一道?

阿根廷抽到上上签,但夺冠路上还有三道坎,最难的是哪一道?

生活新鲜市
2026-06-29 15:48:14
电影一箭三雕:向华强投资没了、韩红公益黄了、冯小刚地位不保了

电影一箭三雕:向华强投资没了、韩红公益黄了、冯小刚地位不保了

奇史怪谈
2026-06-30 09:01:39
河南农村小伙娶美国女博士,婚后21年不工作,直言:这软饭吃定了

河南农村小伙娶美国女博士,婚后21年不工作,直言:这软饭吃定了

情感艺术家
2026-06-12 21:10:32
世界杯|这份榜单上两人对阵德国时进球,04一代“60大新星”混得如何

世界杯|这份榜单上两人对阵德国时进球,04一代“60大新星”混得如何

上观新闻
2026-06-30 07:33:41
刘尚进任重庆市副市长

刘尚进任重庆市副市长

新京报
2026-06-30 08:11:13
克洛普松口暗示愿意执教德国队,但纳格尔斯曼表态不会辞职

克洛普松口暗示愿意执教德国队,但纳格尔斯曼表态不会辞职

领创体育君
2026-06-30 13:08:17
“抓特务”在上海新天地首映宣传,不像造势,却像乞讨

“抓特务”在上海新天地首映宣传,不像造势,却像乞讨

情感大头说说
2026-06-30 11:40:57
中亚最惨国家:93%国土是山,1千万人挤在7%土地,穷到靠打工活命

中亚最惨国家:93%国土是山,1千万人挤在7%土地,穷到靠打工活命

老达子
2026-06-30 06:25:03
iPhone 18 Pro Max真机首次泄露:横向大矩阵镜组+全新深空灰配色

iPhone 18 Pro Max真机首次泄露:横向大矩阵镜组+全新深空灰配色

快科技
2026-06-30 10:49:07
2026-06-30 13:39:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9648文章数 145112关注度
往期回顾 全部

科技要闻

DeepSeek V4正式版要来 高峰期API价格翻倍

头条要闻

荷兰队连续3届倒在点球大战 此前9次点球大战只赢两场

头条要闻

荷兰队连续3届倒在点球大战 此前9次点球大战只赢两场

体育要闻

德国足球,脸都不要了

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

谁懂啊家人们!爹味和班味一点都没,这台底盘最硬国产大猎装太上头!

态度原创

家居
游戏
旅游
教育
艺术

家居要闻

传奇筑 日常诗

任天堂官方暖心提醒:Switch会员明日涨价!

旅游要闻

自贡富顺:白日繁华铺锦绣 夜色灯火暖人心

教育要闻

找出规律,填写正确的数字

艺术要闻

乔治·莫兰迪简洁的静物画,色彩看着太舒服了!

无障碍浏览 进入关怀版