网易首页 > 网易号 > 正文 申请入驻

AI医生考试高分,实战不及格?Nature Medicine论文显示,AI大模型不能帮助公众作出更好的医疗决策

0
分享至


撰文丨王聪

编辑丨王多鱼

排版丨水成文

当你感觉的身体不适时,是否考虑过向 AI 咨询医疗建议?

全世界的全球医疗保健提供者正在探索使用大语言模型(LLM)为公众提供医疗建议。如今,LLM 在医学执业考试中几乎能取得满分,然而,考试所考察的是对标准化知识的记忆和理解。LLM 在这方面是“超级优等生”,能快速检索海量信息。但在现实场景中,医疗决策更像是一门艺术,需要整合模糊、不完整甚至矛盾的病人信息(症状、病史、情绪、社会经济因素等),并进行权衡。因此,LLM 强大的考试能力,是否能够转换为在现实医疗场景中的表现,仍有待观察。

此外,华山医院张文宏医生近日在高山书院论坛上明确表示,反对将 AI 系统性地引入医院病历和日常诊疗流程,其担心 AI 可能会削弱年轻医生的临床思维训练与专业判断能力。

2026 年 2 月 9 日,牛津大学的研究人员在国际顶尖医学期刊Nature Medicine上发表了题为:Reliability of LLMs as medical assistants for the general public: a randomized preregistered study 的研究论文。

该研究进行了一项大规模随机对照试验,以测试大语言模型(LLM)作为公众医疗助手的实际效果,结果出人意料——在各种医学考试中表现优异、甚至堪比人类专家的大语言模型,在真实医疗场景中,或许并不能有效帮助公众诊断疾病并做出正确的健康决策。这提示了基于大语言模型的 AI 医生还需要在未来设计中更好地支持真实用户,才能安全用于向公众提供医学建议。


理想丰满——LLM医学知识丰富

近来,人工智能(AI)研究取得的突破有可能通过扩大医疗知识的获取途径、让医疗服务更贴近患者来实现医疗保健的普及化。OpenAI 开发的ChatGPT及谷歌开发的Med-PaLM 2大语言模型(LLM),在各类医学考试中表现优异,甚至达到人类医学专家的水平。这些成就让人们对于 AI 在医疗领域的应用充满期待,特别是在医疗资源不发达的地区,AI 医生被视为解决医疗资源分布不均的有效手段。

实际上,调查结果也显示,越来越多的人开始向 AI 聊天机器人咨询健康相关问题。然而,在医学考试中获得高分,是否意味着这些 AI 就能在真实医疗场景中发挥作用?

现实骨感——LLM诊断和决策能力有限

在这项最新研究中,研究团队进行了一项开创性试验,以测试大语言模型(LLM)能够帮助公众准确辨别医疗病症(例如普通感冒、贫血或胆结石)并选择一种行动方案(例如呼叫救护车或联系全科医生)。

研究团队招募了 1298 名受试者,他们每人被指派了 10 种不同的医疗情景,并让他们随机使用三个 LLM(GPT-4o、Llama 3 或 Command R+)中的一个,或使用他们的常用资源(例如互联网搜索引擎)作为对照组。


试验结果令人惊讶,在不用人类受试者进行测试时,这些 LLM 能够准确完成上述情景,识别疾病的准确率高达 94.9%,选择行动方案的正确率为 56.3%。然而,当这些人类受试者使用相同的 LLM 时,相关病症的识别正确率低于34.5%,选择行动方案的正确率低于44.2%,这些结果甚至没有超过对照组。


也就是说,人类患者在真实医疗场景中,使用 LLM 用于疾病诊断和医疗决策时,并没有比使用传统的搜索引擎更好。这意味着,LLM 本身的医疗知识水平并未转化为使用者的实际决策能力。

症结所在——人类-LLM交互难题

为什么会出现这种理想与现实之间的巨大鸿沟呢?

研究团队进一步人工检查了其中 30 种情况下的人类-LLM 交互,结果显示,症结不在于 LLM 的医学知识储备,而在于人类-LLM 交互难题。

在真实医疗场景中,人类患者往往无法准确描述自己的症状,也不知道应该提供哪些关键信息,这导致人类患者向 LLM 提供的信息不完整或不准确,而 LLM 可能过于依赖专业术语,没能将医学知识“翻译”为公众所能理解的语言,此外,LLM 有时也可能会生成误导性或错误的信息。

以下图为例,人类用户向描述了自己与外卖相关的严重胃痛和呕吐症状,LLM 初步列举了消化不良和胃食管反流这两种可能性并建议咨询医生。人类用户进一步询问就医的紧急程度时,LLM 转而回答了区分紧急医疗与常规体检的一般原则。这暴露了人类用户在提供信息不完整时,LLM 可能无法替代专业医生的判断。


因此,LLM 在医学考试中的表现令人印象深刻,但在与人类的真实对话中准确率明显下降,其掌握的医学知识的专业性和公众理解的通俗性之间存在着巨大鸿沟,标准化的医学考试和模拟患者互动,并不能体现 LLM 在真实场景中的表现。

基于这些发现,研究团队建议,LLM 在医疗领域大规模部署之前,应进行系统的人类用户测试,以评估其与人类的交互能力。

这项研究也提示我们,AI 医疗的发展路径可能应该是“先专业后普及”,也就是先作为专业医生的辅助工具,待发展成熟后逐步直接服务于公众。

论文链接

https://www.nature.com/articles/s41591-025-04074-y

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025年全国结婚登记676.3万对,增加65.7万对

2025年全国结婚登记676.3万对,增加65.7万对

第一财经资讯
2026-02-11 21:18:22
复出后首败 郑钦文遭逆转1-2惜败新科澳网冠军 无缘多哈1000赛8强

复出后首败 郑钦文遭逆转1-2惜败新科澳网冠军 无缘多哈1000赛8强

我爱英超
2026-02-12 03:49:07
辽宁电信新卡默认开启境外电话拦截功能 留学生打不通国内父母电话

辽宁电信新卡默认开启境外电话拦截功能 留学生打不通国内父母电话

信网
2026-02-11 18:23:09
俄罗斯与欧盟会打起来吗?

俄罗斯与欧盟会打起来吗?

新民晚报
2026-02-11 10:51:31
“顽强”郑钦文遭莱巴金娜逆转 无缘多哈站女单八强

“顽强”郑钦文遭莱巴金娜逆转 无缘多哈站女单八强

体坛周报
2026-02-12 04:11:12
CBA杯:山东末节轰36-15大胜广厦获季军 王博末节全华班引争议

CBA杯:山东末节轰36-15大胜广厦获季军 王博末节全华班引争议

醉卧浮生
2026-02-11 21:06:06
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

梦醉为红颜一笑
2026-02-10 14:52:10
南京市纪委监委通报,司徒幸福被查

南京市纪委监委通报,司徒幸福被查

扬子晚报
2026-02-11 11:10:14
青海一家35口人开旅游大巴赴云南自驾游,采购100斤米面等物资沿途自己做饭,当事人:往返14天,弥补缺失的陪伴

青海一家35口人开旅游大巴赴云南自驾游,采购100斤米面等物资沿途自己做饭,当事人:往返14天,弥补缺失的陪伴

极目新闻
2026-02-11 16:46:33
卸妆:美向自身内部的返场

卸妆:美向自身内部的返场

疾跑的小蜗牛
2026-02-11 22:38:04
生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

39健康网
2026-02-11 09:11:33
一年巨亏150亿,彩电大王康佳把自己玩没了?

一年巨亏150亿,彩电大王康佳把自己玩没了?

蓝鲸新闻
2026-02-08 18:45:24
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
2000元一晚,小城酒店涨疯了

2000元一晚,小城酒店涨疯了

中国新闻周刊
2026-02-11 21:42:52
重磅官宣!消费100元,就能抽奖!春节期间,50城的有奖发票奖金超10个亿

重磅官宣!消费100元,就能抽奖!春节期间,50城的有奖发票奖金超10个亿

南方都市报
2026-02-11 12:04:35
贬损鸿蒙智行,一自媒体被一审判赔150万元

贬损鸿蒙智行,一自媒体被一审判赔150万元

法度law
2026-02-11 17:45:07
男子在工地和女工友搭伙5年,分开时才知道她的真实身份

男子在工地和女工友搭伙5年,分开时才知道她的真实身份

晓艾故事汇
2025-08-07 17:24:20
佛山一纸箱厂年夜饭送上热搜!一条鱼,一块肉饼,网友:我很知足

佛山一纸箱厂年夜饭送上热搜!一条鱼,一块肉饼,网友:我很知足

火山詩话
2026-02-11 09:31:08
特朗普大手一挥,联合国到账31亿美元,白宫暗示这笔钱不简单

特朗普大手一挥,联合国到账31亿美元,白宫暗示这笔钱不简单

东极妙严
2026-02-11 18:40:35
美国28岁华人女孩遭前男友枪杀,案发前报警称遭遇跟踪威胁,前男友已自首

美国28岁华人女孩遭前男友枪杀,案发前报警称遭遇跟踪威胁,前男友已自首

红星新闻
2026-02-11 16:47:55
2026-02-12 05:03:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
8871文章数 144993关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

广州前首富被判无期 200亿集资窟窿何偿

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

艺术
手机
数码
公开课
军事航空

艺术要闻

第九届全国画院美展 入选油画作品选刊

手机要闻

小米妙享背屏功能上新,后续大量新机待发布

数码要闻

英特尔Nova Lake处理器尺寸曝光:单芯片面积远超AMD

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版