网易首页 > 网易号 > 正文 申请入驻

考试满分,实战却“翻车”!《自然·医学》刊文:AI医疗助手为何难以应用?

0
分享至

大数据文摘受权转载自学术头条

作者:王跃然

身体不适时,你首先会怎么做?

越来越多的人开始习惯向以 ChatGPT 为代表的 AI 助手寻求初步的健康分析与建议。这一趋势背后存在切实依据:当前大语言模型(LLM)在医学知识测评中「得分越来越高」,甚至能够在专业医师执照考试中达到或超越合格水平。

然而,一项来自牛津大学研究团队及其合作者的最新研究,却在《自然·医学》(

Nature Medicine
)上给出了警示性的答案。


论文链接:https://www.nature.com/articles/s41591-025-04074-y

研究发现,尽管 LLM 在标准化医学测试中表现优异,但在实际与公众交互的应用场景里,其辅助效果却大幅衰减,不仅未能显著提升普通人的医疗决策质量,甚至不如传统搜索引擎的效用。这一发现对当前 AI 医疗应用的有效性评估与系统设计提出了根本性的质疑。

医疗大模型在理论与应用的落差

为检验 LLM 在真实场景中的辅助能力,研究团队设计了一项严谨的对照实验。他们招募了 1298 名英国公众作为参与者,要求每个人针对由医生精心编写的 10 个不同医疗场景,完成两项核心任务:判断病情严重程度,并选择下一步应采取的行动。


图|三位医生起草了十个医疗情景,通过反复修订直至就最佳处置方案达成五分制共识(从自我护理到救护车)。

参与者被随机分为四组:三个实验组分别使用 GPT-4o、Llama 3 或 Command R+ 作为对话助手,通过聊天界面咨询以帮助决策;一个对照组被要求使用他们通常在家庭环境中会采用的任何方法,如使用搜索引擎、查阅网站或依靠个人经验。


图|研究团队招募了 1298 名参与者,并随机分配至四种实验条件之一。每位参与者被随机分配到十个医疗场景中的一个。治疗组需与 LLM 对话以协助评估场景。对照组可自由使用任何方法,多数参与者采用网络搜索或自身知识。

实验结果揭示了令人惊讶的差距:

当研究团队将完整的场景描述直接输入 LLM,并要求其做出诊断和处置建议时,模型展现了强大的知识储备。平均能正确识别出相关病症的比例可达到 94.9%,对最佳处置方案的建议正确率也达到 56.3%,远高于随机猜测水平。

然而,当同样的模型交到普通参与者手中,用于辅助其决策时,效果却急转直下。使用 LLM 的参与者,能够识别出至少一个相关病症的比例骤降至不足 34.5%,选择正确处置方案的比例也低于 44.2%。更关键的是,他们的表现与使用搜索引擎的对照组相比,在统计上并无显著优势,甚至在识别关键病症方面表现更差。


图|LLM 单独使用与用户协作的性能对比。a)当直接要求 LLM 单独完成各项任务时的表现,上图:LLM 识别相关条件的响应比例,下图:LLM 正确识别最佳处置方案的响应比例;b)参与者在四种实验条件下的表现,上图:参与者识别相关条件的响应比例,下图:参与者正确识别最佳处置方案的响应比例。

人机交互为何失效?

研究通过对交互记录的深度分析,揭示了阻碍 AI 成为可靠医疗助手的核心症结。

在真实的医疗场景中,医生会通过专业问诊主动引导,提取关键信息。但在人机对话中,这一过程出现了双重失灵:缺乏医学常识的普通人,往往不知道哪些症状是诊断的关键;而目前的 LLM 大多缺乏主动、系统性的问诊能力,当用户提供的信息不完整时,AI 往往基于有限的信息给出推测,便可能导致误判。

AI 的回答方式也给用户制造了巨大的认知障碍。研究数据显示,LLM 在对话中平均会给出 2.21 种可能的疾病建议。对于没有医学背景的普通人来说,面对 AI 抛出的一系列专业名词,他们很难分辨其中的轻重缓急。同时,AI 常常将正确回答与误导性信息混杂在一起,用户在筛选信息时往往力不从心,极易误判病情。

更重要的是,目前的AI 安全测试存在严重局限。像 MedQA 这类基于医学考题的测试,虽然能检验知识存储,但其成绩与模型在真实人机交互中的表现几乎无关。采用另一个 AI 来模拟患者进行测试,虽然结果看起来更优,但其行为模式无法反映真实人类用户的巨大变异性与复杂性。模拟测试的结果与真人实验结果相关性极弱,无法作为可靠的安全预筛。


图|模型基准测试。

研究启示与未来展望

这项研究不仅揭示了当前 LLM 在医疗应用中的短板,更为未来的 AI 医疗发展指明了方向。

研究有力地证明,LLM 在医学考试中获得高分,绝不意味着它们能在现实世界中成为合格的助手。单纯依赖现有的基准测试来评估 AI 的安全性是远远不够的,真实且多样化的用户测试在部署前必不可少。

要解决当前的“人机协作”困境,不能仅靠扩充模型的知识库,未来的开发重点必须转向提升 AI 的主动交互能力,像医生一样学会问诊,主动收集关键信息,并以更易理解的方式呈现建议,降低非专业用户的使用门槛。

对于公众而言,必须清醒地认识到 LLM 目前的局限性。虽然它们能提供看似合理的建议,但在识别病情严重程度、判断何时需要紧急救治方面,AI 依然存在风险,过度依赖 AI 可能会延误治疗。

展望未来,监管机构可借鉴此项研究的方法,建立以真实用户交互效果为核心的新型评估框架。对于旨在提供医疗建议的 AI 系统,应要求其提供基于广泛、多样人群的实证有效性证据。LLMs 的理想角色应是提升健康素养的辅助工具,而非做出最终诊断的决策主体。任何情况下,对于急重症状,最安全的行动方案始终是直接联系专业医疗人员或急救服务。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“罗翔夹着尾巴逃跑了”,攻击智者罗翔并显得你们多聪明

“罗翔夹着尾巴逃跑了”,攻击智者罗翔并显得你们多聪明

廖保平
2026-02-16 09:43:16
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
小学班主任谈苏翊鸣:他身上最动人的光芒,远不止于赛场

小学班主任谈苏翊鸣:他身上最动人的光芒,远不止于赛场

澎湃新闻
2026-02-19 16:44:03
硬刚美国仅3天,秘鲁总统突然下台,波及中国35亿投资,美方表态

硬刚美国仅3天,秘鲁总统突然下台,波及中国35亿投资,美方表态

东极妙严
2026-02-18 18:16:28
41岁终娶王文娟,晚年却崩溃大哭,孙道临背后不为人知的故事

41岁终娶王文娟,晚年却崩溃大哭,孙道临背后不为人知的故事

往史过眼云烟
2026-02-14 19:30:45
西方媒体:中国不可怕,可怕的是中国的养鱼船,比美国航母都大!

西方媒体:中国不可怕,可怕的是中国的养鱼船,比美国航母都大!

朝子亥
2026-02-18 18:20:03
法国媒体:东大机器人挥舞那么长的剑,你是不是还有其他话没说?

法国媒体:东大机器人挥舞那么长的剑,你是不是还有其他话没说?

呼呼历史论
2026-02-19 07:33:16
十大元帅和十大大将的待遇

十大元帅和十大大将的待遇

范烽舍长
2026-02-10 15:35:44
令欧美头疼的穆斯林难题,在中国却不成问题,只因中国人拥有一项独特本领

令欧美头疼的穆斯林难题,在中国却不成问题,只因中国人拥有一项独特本领

文史明鉴
2026-02-16 16:30:15
医生发现:冠心病患者过了75岁,基本都有3个症状,要从容看待

医生发现:冠心病患者过了75岁,基本都有3个症状,要从容看待

鬼菜生活
2026-02-19 17:28:04
何音初一晒母子照,24岁黄博远可比黄志忠帅多了,天生一张明星脸

何音初一晒母子照,24岁黄博远可比黄志忠帅多了,天生一张明星脸

八怪娱
2026-02-17 08:23:28
湖北女孩远嫁法国,想把农村母亲接到法国,洋女婿:我们房子太小

湖北女孩远嫁法国,想把农村母亲接到法国,洋女婿:我们房子太小

谈史论天地
2026-02-10 16:40:10
59年,左大玢指出毛主席念错自己名字,主席笑道:回去问问你爸爸

59年,左大玢指出毛主席念错自己名字,主席笑道:回去问问你爸爸

叹为观止易
2026-02-03 14:15:30
陪伴并贴身保卫毛主席 30 年的汪东兴,晚年深陷懊悔,直言不讳:“当年我瞎了眼,才让主席用了这人!”

陪伴并贴身保卫毛主席 30 年的汪东兴,晚年深陷懊悔,直言不讳:“当年我瞎了眼,才让主席用了这人!”

桃烟读史
2025-12-23 13:30:14
认同吗,董宇辉给9位主播最大的体面不是高工资,不是高福利…

认同吗,董宇辉给9位主播最大的体面不是高工资,不是高福利…

福建平子
2026-02-19 06:17:35
央行重磅潘石屹再次预判楼市!若无意外,未来楼市或迎3大走向

央行重磅潘石屹再次预判楼市!若无意外,未来楼市或迎3大走向

巢客HOME
2026-02-19 09:15:03
两部门:加强烟花爆竹“产储运销”和燃放全链条安全管控

两部门:加强烟花爆竹“产储运销”和燃放全链条安全管控

界面新闻
2026-02-19 14:25:20
后续,江苏一家人吃饭父亲酒后掀桌,儿子透露更多,以后不回家了

后续,江苏一家人吃饭父亲酒后掀桌,儿子透露更多,以后不回家了

匹夫来搞笑
2026-02-19 15:16:56
换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

乡野小珥
2026-02-05 15:03:34
送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”

送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”

科学发掘
2026-02-19 10:13:53
2026-02-19 20:31:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6825文章数 94529关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

尹锡悦被判无期只瞥了一眼法官 离庭时与律师相视一笑

头条要闻

尹锡悦被判无期只瞥了一眼法官 离庭时与律师相视一笑

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

亲子
教育
旅游
游戏
公开课

亲子要闻

宁愿养一个笨笨的孩子

教育要闻

教育思路 不训练延迟满足

旅游要闻

莆田绶溪公园打铁花盛宴璀璨启幕

集体错觉?《ARC》官方辟谣机器人学习玩家打法传闻

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版