网易首页 > 网易号 > 正文 申请入驻

考试满分,实战却“翻车”!《自然·医学》刊文:AI医疗助手为何难以应用?

0
分享至

身体不适时,你首先会怎么做?

越来越多的人开始习惯向以 ChatGPT 为代表的 AI 助手寻求初步的健康分析与建议。这一趋势背后存在切实依据:当前大语言模型(LLM)在医学知识测评中「得分越来越高」,甚至能够在专业医师执照考试中达到或超越合格水平。

然而,一项来自牛津大学研究团队及其合作者的最新研究,却在《自然·医学》(Nature Medicine)上给出了警示性的答案。


论文链接:https://www.nature.com/articles/s41591-025-04074-y

研究发现,尽管 LLM 在标准化医学测试中表现优异,但在实际与公众交互的应用场景里,其辅助效果却大幅衰减,不仅未能显著提升普通人的医疗决策质量,甚至不如传统搜索引擎的效用。这一发现对当前 AI 医疗应用的有效性评估与系统设计提出了根本性的质疑。

医疗大模型在理论与应用的落差

为检验 LLM 在真实场景中的辅助能力,研究团队设计了一项严谨的对照实验。他们招募了 1298 名英国公众作为参与者,要求每个人针对由医生精心编写的 10 个不同医疗场景,完成两项核心任务:判断病情严重程度,并选择下一步应采取的行动。


图|三位医生起草了十个医疗情景,通过反复修订直至就最佳处置方案达成五分制共识(从自我护理到救护车)。

参与者被随机分为四组:三个实验组分别使用 GPT-4o、Llama 3 或 Command R+ 作为对话助手,通过聊天界面咨询以帮助决策;一个对照组被要求使用他们通常在家庭环境中会采用的任何方法,如使用搜索引擎、查阅网站或依靠个人经验。


图|研究团队招募了 1298 名参与者,并随机分配至四种实验条件之一。每位参与者被随机分配到十个医疗场景中的一个。治疗组需与 LLM 对话以协助评估场景。对照组可自由使用任何方法,多数参与者采用网络搜索或自身知识。

实验结果揭示了令人惊讶的差距:

当研究团队将完整的场景描述直接输入 LLM,并要求其做出诊断和处置建议时,模型展现了强大的知识储备。平均能正确识别出相关病症的比例可达到 94.9%,对最佳处置方案的建议正确率也达到 56.3%,远高于随机猜测水平。

然而,当同样的模型交到普通参与者手中,用于辅助其决策时,效果却急转直下。使用 LLM 的参与者,能够识别出至少一个相关病症的比例骤降至不足 34.5%,选择正确处置方案的比例也低于 44.2%。更关键的是,他们的表现与使用搜索引擎的对照组相比,在统计上并无显著优势,甚至在识别关键病症方面表现更差。


图|LLM 单独使用与用户协作的性能对比。a)当直接要求 LLM 单独完成各项任务时的表现,上图:LLM 识别相关条件的响应比例,下图:LLM 正确识别最佳处置方案的响应比例;b)参与者在四种实验条件下的表现,上图:参与者识别相关条件的响应比例,下图:参与者正确识别最佳处置方案的响应比例。

人机交互为何失效?

研究通过对交互记录的深度分析,揭示了阻碍 AI 成为可靠医疗助手的核心症结。

在真实的医疗场景中,医生会通过专业问诊主动引导,提取关键信息。但在人机对话中,这一过程出现了双重失灵:缺乏医学常识的普通人,往往不知道哪些症状是诊断的关键;而目前的 LLM 大多缺乏主动、系统性的问诊能力,当用户提供的信息不完整时,AI 往往基于有限的信息给出推测,便可能导致误判。

AI 的回答方式也给用户制造了巨大的认知障碍。研究数据显示,LLM 在对话中平均会给出 2.21 种可能的疾病建议。对于没有医学背景的普通人来说,面对 AI 抛出的一系列专业名词,他们很难分辨其中的轻重缓急。同时,AI 常常将正确回答与误导性信息混杂在一起,用户在筛选信息时往往力不从心,极易误判病情。

更重要的是,目前的 AI 安全测试存在严重局限。像 MedQA 这类基于医学考题的测试,虽然能检验知识存储,但其成绩与模型在真实人机交互中的表现几乎无关。采用另一个 AI 来模拟患者进行测试,虽然结果看起来更优,但其行为模式无法反映真实人类用户的巨大变异性与复杂性。模拟测试的结果与真人实验结果相关性极弱,无法作为可靠的安全预筛。


图|模型基准测试。

研究启示与未来展望

这项研究不仅揭示了当前 LLM 在医疗应用中的短板,更为未来的 AI 医疗发展指明了方向。

研究有力地证明,LLM 在医学考试中获得高分,绝不意味着它们能在现实世界中成为合格的助手。单纯依赖现有的基准测试来评估 AI 的安全性是远远不够的,真实且多样化的用户测试在部署前必不可少。

要解决当前的“人机协作”困境,不能仅靠扩充模型的知识库,未来的开发重点必须转向提升 AI 的主动交互能力,像医生一样学会问诊,主动收集关键信息,并以更易理解的方式呈现建议,降低非专业用户的使用门槛。

对于公众而言,必须清醒地认识到 LLM 目前的局限性。虽然它们能提供看似合理的建议,但在识别病情严重程度、判断何时需要紧急救治方面,AI 依然存在风险,过度依赖 AI 可能会延误治疗。

展望未来,监管机构可借鉴此项研究的方法,建立以真实用户交互效果为核心的新型评估框架。对于旨在提供医疗建议的 AI 系统,应要求其提供基于广泛、多样人群的实证有效性证据。LLMs 的理想角色应是提升健康素养的辅助工具,而非做出最终诊断的决策主体。任何情况下,对于急重症状,最安全的行动方案始终是直接联系专业医疗人员或急救服务。

作者:王跃然

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
很多人低估了一万块的威力

很多人低估了一万块的威力

洞见
2026-01-12 20:34:37
贝林厄姆突然摊牌!皇马全队沉默,22 岁核心一句话引爆更衣室

贝林厄姆突然摊牌!皇马全队沉默,22 岁核心一句话引爆更衣室

奶盖熊本熊
2026-02-13 07:00:26
义乌小孩已“上岗”!打包、装货动作行云流水;网友:义乌老板,果然从娃娃抓起

义乌小孩已“上岗”!打包、装货动作行云流水;网友:义乌老板,果然从娃娃抓起

环球网资讯
2026-02-13 11:07:13
女演员千万别整容!看《夜色正浓》里40岁江疏影和36岁蓝盈莹

女演员千万别整容!看《夜色正浓》里40岁江疏影和36岁蓝盈莹

章眽八卦
2026-02-11 12:40:57
美国制裁古巴的太阳了吗?援助的大米是自己游泳过去的吗?

美国制裁古巴的太阳了吗?援助的大米是自己游泳过去的吗?

忠于法纪
2026-01-27 08:57:12
11连胜+9连胜!火箭全明星过后,将持续发力?乌度卡早有成功案例

11连胜+9连胜!火箭全明星过后,将持续发力?乌度卡早有成功案例

熊哥爱篮球
2026-02-13 12:20:34
成功复仇!随着快船105-102绝杀火箭,一战打出三大不争的事实!

成功复仇!随着快船105-102绝杀火箭,一战打出三大不争的事实!

田先生篮球
2026-02-12 13:41:03
《生命树》直到孟耀辉伏法,白菊才知,设局害死多杰的人有5个

《生命树》直到孟耀辉伏法,白菊才知,设局害死多杰的人有5个

小娱乐悠悠
2026-02-12 14:04:05
北大学霸夫妻隐居深山27年,富豪同学得知后哭喊:你缺钱我给啊

北大学霸夫妻隐居深山27年,富豪同学得知后哭喊:你缺钱我给啊

芊芊子吟
2026-02-11 14:20:07
港娱:广告天王郭富城“封神”大事件

港娱:广告天王郭富城“封神”大事件

唐泪
2026-02-13 12:10:24
104岁科学家为安乐死赶往瑞士,没想到30秒后,亲人们哭笑不得

104岁科学家为安乐死赶往瑞士,没想到30秒后,亲人们哭笑不得

有书
2026-01-30 19:11:57
拳王邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

拳王邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

说历史的老牢
2026-01-20 14:17:37
国际奥委会取消处罚:已有约660名乌克兰运动员在战争中被杀害

国际奥委会取消处罚:已有约660名乌克兰运动员在战争中被杀害

鹰眼Defence
2026-02-13 12:15:29
你家领导说过最炸裂的话是啥?网友:这个社会德不配位的人太多了

你家领导说过最炸裂的话是啥?网友:这个社会德不配位的人太多了

带你感受人间冷暖
2026-02-01 06:11:49
李立群回河南祭祖:曾给同父异母的大哥三笔钱,让他从贫穷到富有

李立群回河南祭祖:曾给同父异母的大哥三笔钱,让他从贫穷到富有

东方不败然多多
2026-02-13 12:45:47
光线传媒:公司参与的影片《飞驰人生3》《惊蛰无声》《熊猫计划之部落奇遇记》已定于2026年大年初一上映

光线传媒:公司参与的影片《飞驰人生3》《惊蛰无声》《熊猫计划之部落奇遇记》已定于2026年大年初一上映

证券之星
2026-02-12 19:35:58
三分之一赛程已过金牌挂零?别急!中国大招在后面

三分之一赛程已过金牌挂零?别急!中国大招在后面

林子说事
2026-02-12 17:24:54
马德兴:09国少在机场关注抽签进程;浮嶋敏如何踢日本是看点

马德兴:09国少在机场关注抽签进程;浮嶋敏如何踢日本是看点

懂球帝
2026-02-12 21:53:08
周深收到金条的反应,网友:这就是我中大奖时的样子!

周深收到金条的反应,网友:这就是我中大奖时的样子!

韩小娱
2026-02-13 10:09:56
宁波银行21年掌舵人陆华裕卸任,年轻化新班子接棒

宁波银行21年掌舵人陆华裕卸任,年轻化新班子接棒

听枫观澜
2026-02-11 22:55:30
2026-02-13 13:51:00
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
345文章数 6386关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

旅游
手机
游戏
亲子
军事航空

旅游要闻

幸福中国·年味重庆 | 彭水乌江画廊喊你来过年:江畔寻别样年味

手机要闻

新版Siri再度跳票!苹果称2026年上线承诺不变

战神2D新作评价超高!97%玩家打出5星满分好评

亲子要闻

不用换尿布就多了3个孙女,奶奶高兴的合不拢嘴

军事要闻

美国新交付F35隐身战机没雷达

无障碍浏览 进入关怀版