网易首页 > 网易号 > 正文 申请入驻

咨询AI医生还不如上网搜索靠谱?《自然-医学》:对普通人来说,确实如此

0
分享至

·AI本身的能力与人类使用这种能力的效率之间存在巨大鸿沟。

AI医生是否真的可靠?其性能能否仅靠增加算力来提升?2月10日发表在《自然-医学》上的一项新研究显示,对于普通人来说,答案是否定的。

在该研究中,来自牛津大学等机构的研究人员招募了1298名英国参与者,让他们在10个医学场景中做出判断——比如突然剧烈头痛应该去哪个医疗机构就诊,以及可能患的是什么疾病。参与者被随机分配到四个实验组:三个治疗组分别使用GPT-4o、Llama 3或Command R+三种不同的大语言模型来辅助决策,而对照组则使用他们平时在家会用的任何方法,主要是互联网搜索。

当研究人员直接将医学场景的信息输入给这些大语言模型时,它们的表现非常好。GPT-4o能在94.7%的情况下指出至少一个相关的医学诊断,在64.7%的情况下给出正确的医疗建议。Llama 3和Command R+的表现也大同小异。说明它们确实掌握了大量的医学信息。

然而,当普通人使用这些相同的模型时,情况就不一样了。使用大语言模型的参与者在识别相关医学条件方面的表现变得更差,只有不到34.5%的准确率。他们在判断医疗优先级方面的表现也没有超过对照组,两者的准确率均为44%左右。

换句话说,让患者自己咨询AI医生,结果可能还不如上网搜索。

这一结果表明AI本身的能力与人类使用这种能力的效率之间存在巨大鸿沟。研究团队分析了参与者与大语言模型之间的对话记录,发现了一系列系统性的问题。首先是信息传递的不通畅。大语言模型在对话中提到相关症状的比例大约在65%-73%之间,远低于它们单独工作时的表现,这说明人类患者往往没有向AI系统提供足够的信息。

超过一半的患者在最初描述症状时没有提供完整的信息。他们可能只说“头很疼”,而没有提到“突然发作”或“伴有颈部僵硬”这样的关键症状。有时候,患者会在AI的提问下逐步补充信息,但有时候他们根本不补充。

作者们指出,与之相比,医生之所以能诊断患者,不仅是因为他们知识丰富,更因为他们知道要问什么问题。一个非专业的患者可能不知道哪些症状是诊断的关键。

研究者们还发现,即使AI系统给出了正确建议,人类也不一定会采纳。参与者平均列出1.33个医学诊断作为他们的最终答案,而它们的准确率仅为38.7%。相比之下,大语言模型在整个对话中提及的所有诊断的正确率为34%。这意味着人类没有成功地从AI生成的多个建议中筛选出最好的那一个。

除了沟通不畅和判断失误,研究还发现了AI本身的一些问题。在一些情况下,大语言模型提供了正确的初始诊断,但当患者添加更多细节后,它反而改口提出了错误的建议。在另一些极端案例中,同样的AI对相似的症状描述给出了完全相反的建议。

比如,两名患者都描述了蛛网膜下腔出血的症状,包括突然的剧烈头痛、颈部僵硬和畏光。但AI告诉其中一个患者“躺在黑暗的房间里”休息,而另一个则建议“立即呼救护车”。

在人类医生的训练逻辑中,通过资格考试是上岗的第一步。但该研究的作者们指出,对于AI来说,考试中的成绩并不与它们在现实中表现直接相关。研究者们从医学执照考试题库中选出了与上述医疗场景相关的236道选择题让AI做,准确率远远高于在真实互动中的表现。在一些场景中,AI做题的正确率高于80%,而在患者实验中面对相同问题,准确率却低于20%。

研究团队还测试了用AI分别模拟患者和医生进行对话是否能反映真实情况。这是一种在不少研究中很流行的基准测试,不少人认为其结果应该比单纯的选择题更能反映真实互动。但该研究的结果显示,模拟患者的表现不仅总体上优于真实用户,而且这种优势与真实用户的表现几乎没有相关性。换句话说,模拟互动无法预测真实互动是成功还是失败。

研究者们认为,两个大语言模型之间的对话往往更加结构化、信息传递更顺畅,它们知道要问什么,也知道如何有效地传达医学概念。而人类患者则带来了真实世界的复杂性:焦虑、知识不足、对症状的不同理解,以及无法预测的信息共享模式。

这项研究触及了AI医疗中的一个根本问题——对于大语言模型来说,医学知识的广泛性和准确性并不是在真实医疗场景中成功的充分条件。真实世界的医疗互动涉及复杂交互,无法通过传统的医学基准测试来捕捉。

这些发现对那些正在期待AI医疗“革命”的人来说是一个清醒的提示。大语言模型或许永远不会取代医生的临床判断,但它们或许能在更加谨慎、透明的设计下,成为有用的决策辅助工具——前提是我们首先解决好人与机器之间的沟通问题。

参考文献:

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知乎热评:今年失业的人失业后都在干什么?看完评论我泪目了!

知乎热评:今年失业的人失业后都在干什么?看完评论我泪目了!

另子维爱读史
2026-01-20 20:26:06
他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

小熊侃史
2026-01-06 11:17:00
自作孽!央视通报南博事件后续,言辞犀利,句句直戳徐湖平心窝

自作孽!央视通报南博事件后续,言辞犀利,句句直戳徐湖平心窝

玲儿爱唱歌
2026-02-10 22:07:27
韩国队被美国队“铲飞”出局,申诉未果!韩媒:太过冤枉

韩国队被美国队“铲飞”出局,申诉未果!韩媒:太过冤枉

极目新闻
2026-02-10 23:43:26
3外援对10外援!亚冠诞生奇景,中超包揽后3名原因找到,或成常态

3外援对10外援!亚冠诞生奇景,中超包揽后3名原因找到,或成常态

球场没跑道
2026-02-10 23:52:30
菲戈:我18岁时有球员抽烟,甚至有球员在中场休息时喝酒

菲戈:我18岁时有球员抽烟,甚至有球员在中场休息时喝酒

懂球帝
2026-02-10 21:57:10
高开低走!枪手天才迷失在法甲舞台 连续2场半场被换下

高开低走!枪手天才迷失在法甲舞台 连续2场半场被换下

球事百科吖
2026-02-11 08:12:44
湖北17岁女孩高考前确诊脑死亡,父母签完器官捐赠,突然接到来电

湖北17岁女孩高考前确诊脑死亡,父母签完器官捐赠,突然接到来电

明智家庭教育
2026-02-09 19:53:41
马云马化腾现身压阵大模型,互联网格局重回20年前?

马云马化腾现身压阵大模型,互联网格局重回20年前?

BT财经
2026-02-11 07:00:03
乌克兰故地重游攻入库尔斯克的苏贾!突袭俄空降兵指挥部

乌克兰故地重游攻入库尔斯克的苏贾!突袭俄空降兵指挥部

项鹏飞
2026-02-10 17:47:13
对印反击战5年后中印再次交火,我军伤亡百余人,印军伤亡多少?

对印反击战5年后中印再次交火,我军伤亡百余人,印军伤亡多少?

明月清风阁
2026-02-11 07:00:17
中国存在“两大威胁”,一个台湾,另一个则曾需百万大军才镇住

中国存在“两大威胁”,一个台湾,另一个则曾需百万大军才镇住

无情有思ss
2026-01-23 08:30:45
切里舍夫:时光倒流我会留在皇马,俄罗斯国家队给我施加了压力

切里舍夫:时光倒流我会留在皇马,俄罗斯国家队给我施加了压力

云隐南山
2026-02-11 10:17:25
反向收割?印度人把中国网贷当作“国家补贴”,坏账率高达80%!

反向收割?印度人把中国网贷当作“国家补贴”,坏账率高达80%!

胖哥不胡说
2026-01-20 11:47:25
俄罗斯与西方国家,均已切身感受到中国的战争潜力,最终得出的结论是:其底蕴深不可测

俄罗斯与西方国家,均已切身感受到中国的战争潜力,最终得出的结论是:其底蕴深不可测

寄史言志
2026-01-15 15:47:08
集体跑路?2026首个行业倒闭潮来袭,原来稳赚不赔,如今为何赔钱

集体跑路?2026首个行业倒闭潮来袭,原来稳赚不赔,如今为何赔钱

蜉蝣说
2026-02-11 10:12:41
马斯克一道指令把俄军打回原形,让普京政府认清残酷的现实

马斯克一道指令把俄军打回原形,让普京政府认清残酷的现实

纵拥千千晚星
2026-02-09 10:38:02
世界10大最缺男人的国家:美女太多“泛滥成灾”,男人成为稀缺品

世界10大最缺男人的国家:美女太多“泛滥成灾”,男人成为稀缺品

芳芳历史烩
2026-01-28 07:14:01
全网恭喜!45岁宋佳正式上任,职务不一般,黑龙江人民这下有福了

全网恭喜!45岁宋佳正式上任,职务不一般,黑龙江人民这下有福了

查尔菲的笔记
2026-02-10 15:47:57
父爱太沉重!孩子高烧40度,攀枝花一男子醉驾送医,结果被判刑…

父爱太沉重!孩子高烧40度,攀枝花一男子醉驾送医,结果被判刑…

火山詩话
2026-02-10 10:18:34
2026-02-11 10:56:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
876360文章数 5088005关注度
往期回顾 全部

科技要闻

中芯国际去年营收673亿元 净利50亿增长36%

头条要闻

男子回老家祭祖被猎捕装置电死 脚上挂着一根细铁丝

头条要闻

男子回老家祭祖被猎捕装置电死 脚上挂着一根细铁丝

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

Seedance2.0产业冲击波

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

旅游
房产
家居
亲子
本地

旅游要闻

吕梁市博物馆2026年春节假期开放公告

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

家居要闻

简雅闲居 静享时光柔

亲子要闻

欣欣16个月|中泰宝宝勇敢满分+小叶最喜欢的嵊州美食居然是它?

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

无障碍浏览 进入关怀版