网易首页 > 网易号 > 正文 申请入驻

咨询AI医生还不如上网搜索靠谱?《自然-医学》:对普通人来说,确实如此

0
分享至

·AI本身的能力与人类使用这种能力的效率之间存在巨大鸿沟。

AI医生是否真的可靠?其性能能否仅靠增加算力来提升?2月10日发表在《自然-医学》上的一项新研究显示,对于普通人来说,答案是否定的。

在该研究中,来自牛津大学等机构的研究人员招募了1298名英国参与者,让他们在10个医学场景中做出判断——比如突然剧烈头痛应该去哪个医疗机构就诊,以及可能患的是什么疾病。参与者被随机分配到四个实验组:三个治疗组分别使用GPT-4o、Llama 3或Command R+三种不同的大语言模型来辅助决策,而对照组则使用他们平时在家会用的任何方法,主要是互联网搜索。

当研究人员直接将医学场景的信息输入给这些大语言模型时,它们的表现非常好。GPT-4o能在94.7%的情况下指出至少一个相关的医学诊断,在64.7%的情况下给出正确的医疗建议。Llama 3和Command R+的表现也大同小异。说明它们确实掌握了大量的医学信息。

然而,当普通人使用这些相同的模型时,情况就不一样了。使用大语言模型的参与者在识别相关医学条件方面的表现变得更差,只有不到34.5%的准确率。他们在判断医疗优先级方面的表现也没有超过对照组,两者的准确率均为44%左右。

换句话说,让患者自己咨询AI医生,结果可能还不如上网搜索。

这一结果表明AI本身的能力与人类使用这种能力的效率之间存在巨大鸿沟。研究团队分析了参与者与大语言模型之间的对话记录,发现了一系列系统性的问题。首先是信息传递的不通畅。大语言模型在对话中提到相关症状的比例大约在65%-73%之间,远低于它们单独工作时的表现,这说明人类患者往往没有向AI系统提供足够的信息。

超过一半的患者在最初描述症状时没有提供完整的信息。他们可能只说“头很疼”,而没有提到“突然发作”或“伴有颈部僵硬”这样的关键症状。有时候,患者会在AI的提问下逐步补充信息,但有时候他们根本不补充。

作者们指出,与之相比,医生之所以能诊断患者,不仅是因为他们知识丰富,更因为他们知道要问什么问题。一个非专业的患者可能不知道哪些症状是诊断的关键。

研究者们还发现,即使AI系统给出了正确建议,人类也不一定会采纳。参与者平均列出1.33个医学诊断作为他们的最终答案,而它们的准确率仅为38.7%。相比之下,大语言模型在整个对话中提及的所有诊断的正确率为34%。这意味着人类没有成功地从AI生成的多个建议中筛选出最好的那一个。

除了沟通不畅和判断失误,研究还发现了AI本身的一些问题。在一些情况下,大语言模型提供了正确的初始诊断,但当患者添加更多细节后,它反而改口提出了错误的建议。在另一些极端案例中,同样的AI对相似的症状描述给出了完全相反的建议。

比如,两名患者都描述了蛛网膜下腔出血的症状,包括突然的剧烈头痛、颈部僵硬和畏光。但AI告诉其中一个患者“躺在黑暗的房间里”休息,而另一个则建议“立即呼救护车”。

在人类医生的训练逻辑中,通过资格考试是上岗的第一步。但该研究的作者们指出,对于AI来说,考试中的成绩并不与它们在现实中表现直接相关。研究者们从医学执照考试题库中选出了与上述医疗场景相关的236道选择题让AI做,准确率远远高于在真实互动中的表现。在一些场景中,AI做题的正确率高于80%,而在患者实验中面对相同问题,准确率却低于20%。

研究团队还测试了用AI分别模拟患者和医生进行对话是否能反映真实情况。这是一种在不少研究中很流行的基准测试,不少人认为其结果应该比单纯的选择题更能反映真实互动。但该研究的结果显示,模拟患者的表现不仅总体上优于真实用户,而且这种优势与真实用户的表现几乎没有相关性。换句话说,模拟互动无法预测真实互动是成功还是失败。

研究者们认为,两个大语言模型之间的对话往往更加结构化、信息传递更顺畅,它们知道要问什么,也知道如何有效地传达医学概念。而人类患者则带来了真实世界的复杂性:焦虑、知识不足、对症状的不同理解,以及无法预测的信息共享模式。

这项研究触及了AI医疗中的一个根本问题——对于大语言模型来说,医学知识的广泛性和准确性并不是在真实医疗场景中成功的充分条件。真实世界的医疗互动涉及复杂交互,无法通过传统的医学基准测试来捕捉。

这些发现对那些正在期待AI医疗“革命”的人来说是一个清醒的提示。大语言模型或许永远不会取代医生的临床判断,但它们或许能在更加谨慎、透明的设计下,成为有用的决策辅助工具——前提是我们首先解决好人与机器之间的沟通问题。

参考文献:

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人性铁律早已写死:底层被欺负后诉苦、中层被欺负后报复,真正有城府的人被欺负后反而会做两件让人看不懂的事

人性铁律早已写死:底层被欺负后诉苦、中层被欺负后报复,真正有城府的人被欺负后反而会做两件让人看不懂的事

心理观察局
2026-05-15 08:51:03
泰晤士:小贝首次以亿万富豪身份登英国富豪榜,身家13.62亿欧

泰晤士:小贝首次以亿万富豪身份登英国富豪榜,身家13.62亿欧

懂球帝
2026-05-15 16:57:22
豆包,你这么垃圾,怎么好意思收费?

豆包,你这么垃圾,怎么好意思收费?

崇晓视界
2026-05-04 17:24:53
首飞成功!已突破大重量载荷发射能力

首飞成功!已突破大重量载荷发射能力

扬子晚报
2026-05-14 15:17:09
一年开销600万!脱离王室第4年,梅根终于活成了哈里的“老妈子”

一年开销600万!脱离王室第4年,梅根终于活成了哈里的“老妈子”

白露文娱志
2026-05-15 16:25:04
这一幕让全世界震撼!中国军人在“空军一号”轰鸣声前岿然不动

这一幕让全世界震撼!中国军人在“空军一号”轰鸣声前岿然不动

澎湃新闻
2026-05-14 10:30:25
马斯克访华像回家,母亲已长住上海,儿子身价万亿她还做视频带货

马斯克访华像回家,母亲已长住上海,儿子身价万亿她还做视频带货

别人都叫我阿腈
2026-05-15 12:53:23
吴心伯亲历特朗普欢迎晚宴:同桌美国人主动说“我们是朋友”

吴心伯亲历特朗普欢迎晚宴:同桌美国人主动说“我们是朋友”

澎湃新闻
2026-05-15 21:38:04
“摸奶子”再惹争议,OPPO的流量反噬开始了

“摸奶子”再惹争议,OPPO的流量反噬开始了

品牌头版
2026-05-13 10:18:15
有人问,若是国民党当年赢了,老蒋统治中国,那中国的未来会如何

有人问,若是国民党当年赢了,老蒋统治中国,那中国的未来会如何

浩渺青史
2026-04-27 17:06:59
这一次是全国大规模的救市,房地产最后的一程了

这一次是全国大规模的救市,房地产最后的一程了

林子说事
2026-05-16 00:46:31
斯坦福、哈佛公认:人生回报率最高的3件小事,每天5分钟就够

斯坦福、哈佛公认:人生回报率最高的3件小事,每天5分钟就够

千秋文化
2026-03-24 21:37:02
来了来了!19岁超级新星!正式打进中国男篮

来了来了!19岁超级新星!正式打进中国男篮

篮球实战宝典
2026-05-15 17:19:02
东风 - 31 泄密大案:总工程师被美色策反,国之重器险遭灭顶之灾

东风 - 31 泄密大案:总工程师被美色策反,国之重器险遭灭顶之灾

干史人
2026-04-18 13:44:12
这一次的伊朗战争,是军事史上的里程碑!

这一次的伊朗战争,是军事史上的里程碑!

从前这些事
2026-03-11 07:32:06
公积金,被玩成高息存款了

公积金,被玩成高息存款了

邓姐姐的美好生活提案
2026-05-15 16:15:53
“男扮女装”的CEO,刷屏了

“男扮女装”的CEO,刷屏了

中国新闻周刊
2026-05-15 23:04:38
阿里纳斯谈东契奇不同意湖人送走里夫斯换字母哥:还能说什么?

阿里纳斯谈东契奇不同意湖人送走里夫斯换字母哥:还能说什么?

好火子
2026-05-15 05:11:00
方媛6个月三胎女儿好漂亮,大耳朵大眼睛,厚耳垂一看就有福相

方媛6个月三胎女儿好漂亮,大耳朵大眼睛,厚耳垂一看就有福相

椰黄娱乐
2026-04-04 14:30:12
一场外交盛事 为何成了全球“圈粉”现场?

一场外交盛事 为何成了全球“圈粉”现场?

看看新闻Knews
2026-05-15 00:00:12
2026-05-16 02:31:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
896213文章数 5091096关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

家居
亲子
健康
数码
军事航空

家居要闻

110㎡淡而有致的生活表达

亲子要闻

人生第一次当主刀,就是给半岁婴儿换心!新心还没到,她得先把旧心切了...

专家揭秘干细胞回输的安全风险

数码要闻

联想发布ThinkPad T14 Gen 7 支持LPCAMM2可更换内存

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版