网易首页 > 网易号 > 正文 申请入驻

AI医生考试高分,实战不及格?Nature Medicine论文显示,AI大模型不能帮助公众作出更好的医疗决策

0
分享至


撰文丨王聪

编辑丨王多鱼

排版丨水成文

当你感觉的身体不适时,是否考虑过向 AI 咨询医疗建议?

全世界的全球医疗保健提供者正在探索使用大语言模型(LLM)为公众提供医疗建议。如今,LLM 在医学执业考试中几乎能取得满分,然而,考试所考察的是对标准化知识的记忆和理解。LLM 在这方面是“超级优等生”,能快速检索海量信息。但在现实场景中,医疗决策更像是一门艺术,需要整合模糊、不完整甚至矛盾的病人信息(症状、病史、情绪、社会经济因素等),并进行权衡。因此,LLM 强大的考试能力,是否能够转换为在现实医疗场景中的表现,仍有待观察。

此外,华山医院张文宏医生近日在高山书院论坛上明确表示,反对将 AI 系统性地引入医院病历和日常诊疗流程,其担心 AI 可能会削弱年轻医生的临床思维训练与专业判断能力。

2026 年 2 月 9 日,牛津大学的研究人员在国际顶尖医学期刊Nature Medicine上发表了题为:Reliability of LLMs as medical assistants for the general public: a randomized preregistered study 的研究论文。

该研究进行了一项大规模随机对照试验,以测试大语言模型(LLM)作为公众医疗助手的实际效果,结果出人意料——在各种医学考试中表现优异、甚至堪比人类专家的大语言模型,在真实医疗场景中,或许并不能有效帮助公众诊断疾病并做出正确的健康决策。这提示了基于大语言模型的 AI 医生还需要在未来设计中更好地支持真实用户,才能安全用于向公众提供医学建议。


理想丰满——LLM医学知识丰富

近来,人工智能(AI)研究取得的突破有可能通过扩大医疗知识的获取途径、让医疗服务更贴近患者来实现医疗保健的普及化。OpenAI 开发的ChatGPT及谷歌开发的Med-PaLM 2大语言模型(LLM),在各类医学考试中表现优异,甚至达到人类医学专家的水平。这些成就让人们对于 AI 在医疗领域的应用充满期待,特别是在医疗资源不发达的地区,AI 医生被视为解决医疗资源分布不均的有效手段。

实际上,调查结果也显示,越来越多的人开始向 AI 聊天机器人咨询健康相关问题。然而,在医学考试中获得高分,是否意味着这些 AI 就能在真实医疗场景中发挥作用?

现实骨感——LLM诊断和决策能力有限

在这项最新研究中,研究团队进行了一项开创性试验,以测试大语言模型(LLM)能够帮助公众准确辨别医疗病症(例如普通感冒、贫血或胆结石)并选择一种行动方案(例如呼叫救护车或联系全科医生)。

研究团队招募了 1298 名受试者,他们每人被指派了 10 种不同的医疗情景,并让他们随机使用三个 LLM(GPT-4o、Llama 3 或 Command R+)中的一个,或使用他们的常用资源(例如互联网搜索引擎)作为对照组。


试验结果令人惊讶,在不用人类受试者进行测试时,这些 LLM 能够准确完成上述情景,识别疾病的准确率高达 94.9%,选择行动方案的正确率为 56.3%。然而,当这些人类受试者使用相同的 LLM 时,相关病症的识别正确率低于34.5%,选择行动方案的正确率低于44.2%,这些结果甚至没有超过对照组。


也就是说,人类患者在真实医疗场景中,使用 LLM 用于疾病诊断和医疗决策时,并没有比使用传统的搜索引擎更好。这意味着,LLM 本身的医疗知识水平并未转化为使用者的实际决策能力。

症结所在——人类-LLM交互难题

为什么会出现这种理想与现实之间的巨大鸿沟呢?

研究团队进一步人工检查了其中 30 种情况下的人类-LLM 交互,结果显示,症结不在于 LLM 的医学知识储备,而在于人类-LLM 交互难题。

在真实医疗场景中,人类患者往往无法准确描述自己的症状,也不知道应该提供哪些关键信息,这导致人类患者向 LLM 提供的信息不完整或不准确,而 LLM 可能过于依赖专业术语,没能将医学知识“翻译”为公众所能理解的语言,此外,LLM 有时也可能会生成误导性或错误的信息。

以下图为例,人类用户向描述了自己与外卖相关的严重胃痛和呕吐症状,LLM 初步列举了消化不良和胃食管反流这两种可能性并建议咨询医生。人类用户进一步询问就医的紧急程度时,LLM 转而回答了区分紧急医疗与常规体检的一般原则。这暴露了人类用户在提供信息不完整时,LLM 可能无法替代专业医生的判断。


因此,LLM 在医学考试中的表现令人印象深刻,但在与人类的真实对话中准确率明显下降,其掌握的医学知识的专业性和公众理解的通俗性之间存在着巨大鸿沟,标准化的医学考试和模拟患者互动,并不能体现 LLM 在真实场景中的表现。

基于这些发现,研究团队建议,LLM 在医疗领域大规模部署之前,应进行系统的人类用户测试,以评估其与人类的交互能力。

这项研究也提示我们,AI 医疗的发展路径可能应该是“先专业后普及”,也就是先作为专业医生的辅助工具,待发展成熟后逐步直接服务于公众。

论文链接

https://www.nature.com/articles/s41591-025-04074-y

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国提前48个小时通告各国,别逼中方动用“一票否决权”

中国提前48个小时通告各国,别逼中方动用“一票否决权”

轩逸阿II
2026-04-04 01:37:06
遭救护员脱裤性侵强拍裸照 泰国女星:绝不和解!

遭救护员脱裤性侵强拍裸照 泰国女星:绝不和解!

西楼知趣杂谈
2026-04-03 06:17:12
被官媒批评后“围攻官媒”?这事背后或藏着密谋的“去雄计划”

被官媒批评后“围攻官媒”?这事背后或藏着密谋的“去雄计划”

郎言志
2026-04-03 08:54:17
53岁菲戈:我每周去健身房锻炼两三次,跑八到十公里两三次

53岁菲戈:我每周去健身房锻炼两三次,跑八到十公里两三次

懂球帝
2026-04-03 10:06:10
董宇辉道歉冲上热搜,被全网审判

董宇辉道歉冲上热搜,被全网审判

电商派Pro
2026-04-03 09:51:12
玩具厂老板,4天身家暴涨27亿

玩具厂老板,4天身家暴涨27亿

中国新闻周刊
2026-04-03 20:09:05
赛力斯开始两头下注了

赛力斯开始两头下注了

电动势
2026-04-03 08:06:03
曝陈瑾巫刚定居昆明!在一起20多年不领证,状态松弛像退休老夫妻

曝陈瑾巫刚定居昆明!在一起20多年不领证,状态松弛像退休老夫妻

陈意小可爱
2026-04-04 04:50:48
曾是浙江美女记者,嫁同学为妻,现已是上市公司董事长身价245亿

曾是浙江美女记者,嫁同学为妻,现已是上市公司董事长身价245亿

素衣读史
2026-04-03 15:37:18
伊朗发出最后通牒!俄通告全球将参战,法国上将:中国迟早会不满

伊朗发出最后通牒!俄通告全球将参战,法国上将:中国迟早会不满

潋滟晴方DAY
2026-04-04 03:56:51
尼古拉-佩佩宣布和成人女星女友分手:我从来没有提过结婚

尼古拉-佩佩宣布和成人女星女友分手:我从来没有提过结婚

懂球帝
2026-04-04 03:13:38
机构闭门会:光模块+国产算力,2026核心赛道曝光

机构闭门会:光模块+国产算力,2026核心赛道曝光

Thurman在昆明
2026-04-03 19:00:02
美油深夜狂飙13%,现货原油攻破140美元创18年新高!

美油深夜狂飙13%,现货原油攻破140美元创18年新高!

21世纪经济报道
2026-04-03 14:50:00
价格断崖式下跌!商家疯狂抛售!深圳网友:等等党赢麻了

价格断崖式下跌!商家疯狂抛售!深圳网友:等等党赢麻了

南方都市报
2026-04-01 15:16:38
东契奇伤情更新!不幸中的万幸,湖人首轮游?将申请特殊情况条款

东契奇伤情更新!不幸中的万幸,湖人首轮游?将申请特殊情况条款

你的篮球频道
2026-04-04 07:06:30
视频丨美媒公布E-3预警机在沙特被摧毁卫星图

视频丨美媒公布E-3预警机在沙特被摧毁卫星图

国际在线
2026-04-04 04:37:10
金昊已被执行死刑!河北孟村家暴致妻死亡案尘埃落定,正义终抵人间

金昊已被执行死刑!河北孟村家暴致妻死亡案尘埃落定,正义终抵人间

沧州吧
2026-04-04 00:12:38
美国载人绕月任务宇航员带iPhone上太空,零重力抛手机画面曝光

美国载人绕月任务宇航员带iPhone上太空,零重力抛手机画面曝光

IT之家
2026-04-03 07:51:09
盾构机运到孟买,印度给中国交尾款,首付即全款套路行不通了

盾构机运到孟买,印度给中国交尾款,首付即全款套路行不通了

花小猫的美食日常
2026-04-03 01:13:46
11岁张姩菡深夜留言求一张全家福,陌生人的镜头成了她最后的念想

11岁张姩菡深夜留言求一张全家福,陌生人的镜头成了她最后的念想

子芫伴你成长
2026-04-03 22:22:22
2026-04-04 09:15:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9144文章数 145040关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

牛弹琴:美国经历最糟糕24小时 伊朗发出最辛辣讽刺

头条要闻

牛弹琴:美国经历最糟糕24小时 伊朗发出最辛辣讽刺

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

刘纪鹏:只盼长慢牛,巩固4000点是关键

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

艺术
本地
数码
家居
公开课

艺术要闻

石涛『山水小景册』

本地新闻

跟着歌声游安徽,听古村回响

数码要闻

苹果2026款AirPods Pro耳机前瞻:内置红外摄像头

家居要闻

温馨多元 爱的具象化

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版