网易首页 > 网易号 > 正文 申请入驻

AI完败于人类医生!研究发现:大模型临床决策草率且不安全,最低正确率仅13%

0
分享至

人类医生,会因为 ChatGPT 等大模型纷纷下岗吗?

这种担心,并非空穴来风。毕竟,谷歌的大模型(Med-PaLM 2)已经轻松拿下了美国医学执照考试,达到了医学专家的水平。

然而,一项最新研究表明:在临床方面,人类医生完胜目前的人工智能(AI)模型,无需过于担心个人「失业问题」。

相关研究论文以“Evaluation and mitigation of the limitations of large language models in clinical decision-making”为题,已于近日发表在科学期刊 Nature Medicine 上。

该研究发现,即使是目前最先进的大语言模型(LLM)也无法为所有患者做出准确诊断,且表现明显差于人类医生——

医生的诊断正确率为 89%,而 LLM 的诊断正确率仅为 73%。在一个极端情况(胆囊炎诊断)下,LLM 正确率仅为 13%。

更令人惊讶的是,随着对病例信息的了解增多,LLM 的诊断准确度反而会降低,有时甚至会要求进行一些可能对患者有严重健康风险的检查。

化身急诊科医生,LLM 表现如何?

尽管 LLM 可以轻松拿下美国医学执照考试,但 医学执照考试和临床案例挑战适合只测试考生的一般医学知识,难度远不如日常复杂的临床决策任务

临床决策是一个多步骤的过程,需要从不同来源收集和整合数据,并不断评估事实以达成基于证据的患者诊断和治疗决策。

为了进一步研究 LLM 在临床诊断中的潜力,来自慕尼黑工业大学的研究团队及其合作者基于医疗信息市场重症监护数据库(MIMIC-IV)制作了一个涵盖 2400 个真实患者案例和 4 种常见腹部疾病(阑尾炎、胰腺炎、胆囊炎和憩室炎)的数据集, 模拟现实的临床环境,重现从急诊到治疗的过程 ,从而评估其作为临床决策者的适用性。

图|数据集来源及评估框架。该数据集来源于 MIMIC-IV 数据库中的真实病例,包含住院期间记录的全面电子健康记录数据。评估框架反映了一个现实的临床环境,从多个标准对 LLM 进行全面评估,包括诊断准确性、遵循诊断和治疗指南的情况、遵循指令的一致性、解释实验室结果的能力,以及对指令变化、信息量和信息顺序变化的鲁棒性。ICD,国际疾病分类;CT,计算机断层扫描;US,超声波;MRCP,磁共振胰胆管成像。

研究团队测试了 Llama 2 及其衍生版本,包括通用版本(如 Llama 2 Chat、Open Assistant、WizardLM)和医学领域对齐的模型(如 Clinical Camel 和 Meditron)。

由于 MIMIC 数据的隐私问题和数据使用协议,数据不能用于如 OpenAI 或 Google 的外部 API,因此未能测试 ChatGPT、GPT-4 和 Med-PaLM。 值得注意的是,Llama 2、Clinical Camel 和 Meditron 在医学许可考试和生物医学问答测试中的表现已达到甚至超过了 ChatGPT。

测试对照组 为四位来自两个国家且有不同年限(分别是 2 年、3 年、4 年和 29 年)急诊经验的内科医生。结果显示,LLM 在临床诊断中的表现远不如人类医生。

1.LLM 的诊断性能显著低于临床

医生结果显示,当前 LLM 在所有疾病的整体表现上显著逊色于医生(P < 0.001), 诊断准确性差距在 16%-25% 之间 。虽然模型在简单的阑尾炎诊断中表现较好,但在胆囊炎等其他病理的诊断中表现不佳,特别是 Meditron 模型在胆囊炎诊断中失败,常将患者诊断为“胆结石”。

专业医学 LLM 在整体表现上未显著优于其他模型 ,而当 LLM 需要自行收集所有信息时,其表现会进一步下降。

图|全信息提供条件下的诊断准确率。数据基于 MIMIC-CDM-FI 的一个子集(n=80),每个条形图上方显示了平均诊断准确率,垂直线表示标准偏差。LLM 的平均表现显著较差(P < 0.001),尤其是在胆囊炎(P < 0.001)和憩室炎(P < 0.001)方面。

图|自主临床决策场景下的诊断准确率。对比全信息提供场景下,模型判断正确率整体都有明显下降。LLM 在诊断阑尾炎时表现最好,但在胆囊炎、憩室炎和胰腺炎这三种病理上表现较差。

2.LLM 的临床决策草率且不安全

研究团队发现, LLM 遵循诊断指南方面表现不佳,容易遗漏患者的重要身体信息 。此外在安排患者必要实验室检查方面缺乏一致性。LLM 在解读实验室结果方面也有明显不足。这表明它们在没有充分了解患者病例的情况下草率诊断,对患者健康构成严重风险。

图|LLM 推荐治疗方式评估。期望的治疗方案是根据临床指南和数据集中患者实际接受的治疗确定的。在 808 名患者中,Llama 2 Chat 正确诊断了 603 人。在这 603 名患者中,Llama 2 Chat 在 97.5% 的情况下正确推荐了阑尾切除术。

3.LLM 仍需要大量的医生临床监督

另外, 当前所有的 LLM 在遵循基础医学指导方面表现不佳 ,在每 2-4 个病例中出现错误,且每 2-5 个病例中就会虚构不存在的指导。

图|LLM 在不同数据量下的表现。 该研究比较了每个模型在使用所有诊断信息与仅使用单一诊断检查和现病史的表现。 对于几乎所有疾病,在 MIMIC-CDM-FI 数据集中,提供所有信息并未导致最佳表现。 这表明,LLM 无法集中于关键事实,当提供过多信息时,表现会下降。

该研究还表明,为每个模型提供最佳性能的信息顺序对于每种病理都是不同的,这无疑进一步增大了后续优化模型的难度。在没有广泛的医生监督和事先评估的情况下,无法可靠地完成任务。总的来说,它们在遵循指令、处理信息的顺序以及对相关信息的处理上存在明细缺陷,因此需要大量临床监督以确保其正确运行。

虽然该研究发现了 LLM 在临床诊断下的各种问题,但 LLM 在医学方面的前景依然巨大,很可能更适合根据病史和测试结果做出诊断。研究团队认为, 该研究工作在以下两个方面具有进一步拓展的空间

  • 模型验证和测试:进一步的研究应集中在对 LLM 进行更全面的验证和测试,以确保其在真实临床环境中的有效性。

  • 多学科合作:建议将 AI 专家与临床医生密切合作,以共同开发和优化适用于临床实践的 LLM,并解决实际应用中的问题。

AI 在如何颠覆医疗?

不只是上述研究,来自美国国立卫生研究院(NIH)的团队及其合作者,也发现了类似的问题——在回答 207 个图像挑战问题时, GPT-4V 虽然在选择正确诊断方面得分很高,但在描述医学图像和解释诊断背后的原因方面经常会犯错

尽管 AI 目前还远不如人类专业医生,但其在医疗行业的研究与应用,一直是国内外科技公司和科研高校竞相角逐的重要“战场”。

例如,谷歌发布的 医疗 AI 大模型 Med-PaLM2 ,具备了强大的诊断和治疗能力,同时也是第一个在 MedQA 测试集中达到“专家”水平的大模型。

清华大学研究团队提出的 “智能体医院”(Agent Hospital) ,可以模拟治疗疾病的整个过程,其核心目标是让医生智能体学会如何在模拟环境中治疗疾病,甚至可以不断从成功和失败的病例中积累经验实现自我进化。

哈佛医学院领衔开发了一个用于人类病理学的 视觉语言通用 AI 助手——PathChat ,其能够在近 90% 的情况下从活检切片中正确识别疾病,其表现优于 GPT-4V 等目前市面上的通用 AI 模型和专业医疗模型。

图|指令微调数据集和 PathChat 构建

日前,OpenAI CEO Sam Altman 参与成立了一家新公司 Thrive AI Health,旨在借助 AI 技术帮助人们改善日常习惯,降低慢性病死亡率。

他们称, 超个性化的 AI 技术 可以有效地改善人们的生活习惯,从而预防和管理慢性疾病,减轻医疗经济负担,并提高人们的整体健康水平。

如今,AI 在医疗行业的应用已经从最初的实验阶段逐渐过渡到实际应用阶段,但距离帮助临床医生增强他们的能力、改善临床决策,甚至直接取代,或许依旧有很长的一段路要走。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马斯克空降中国,不是为了造车!他盯上一个比芯片更致命的资源

马斯克空降中国,不是为了造车!他盯上一个比芯片更致命的资源

米师傅安装
2026-02-17 20:56:23
这就是为什么不要欺负底层员工的原因!网友:1600万结款直接报废

这就是为什么不要欺负底层员工的原因!网友:1600万结款直接报废

另子维爱读史
2026-02-01 20:32:25
春节假期尚未过半,腾讯、字节、阿里三大巨头AI应用战绩如何?

春节假期尚未过半,腾讯、字节、阿里三大巨头AI应用战绩如何?

澎湃新闻
2026-02-18 22:52:30
因队友兴奋剂问题被剥夺接力金牌,俄罗斯选手拒绝归还

因队友兴奋剂问题被剥夺接力金牌,俄罗斯选手拒绝归还

懂球帝
2026-02-18 19:13:06
美媒哀叹:这不是追赶,这是“弯道超车”——中国海军正把美国甩在身后

美媒哀叹:这不是追赶,这是“弯道超车”——中国海军正把美国甩在身后

音乐时光的娱乐
2026-02-19 12:00:54
8039人投资3600万合伙购买近12万张彩票,结果如果?

8039人投资3600万合伙购买近12万张彩票,结果如果?

随波荡漾的漂流瓶
2026-01-22 11:52:03
温州市委书记,走进山姆

温州市委书记,走进山姆

温晓生
2026-02-18 23:59:19
房价暴跌,加拿大已经被澳洲甩开了几个身位

房价暴跌,加拿大已经被澳洲甩开了几个身位

债市邦
2026-02-18 21:57:36
家庭存款达标线公布!达到这个数,就超过全国80%家庭

家庭存款达标线公布!达到这个数,就超过全国80%家庭

慧眼看世界哈哈
2026-02-18 16:35:15
3月开始中国或将迎来四大降价潮:除房价以外,这5类也要降价了

3月开始中国或将迎来四大降价潮:除房价以外,这5类也要降价了

说故事的阿袭
2026-02-19 10:35:24
福建海峡银行是谁的?福建海峡银行股权归属与股东结构深度解析

福建海峡银行是谁的?福建海峡银行股权归属与股东结构深度解析

小陆搞笑日常
2026-02-18 22:25:13
图灵奖科学家泼冷水:机器人连猫都不如!宇树王兴兴隔空回应

图灵奖科学家泼冷水:机器人连猫都不如!宇树王兴兴隔空回应

娱乐督察中
2026-02-18 19:50:57
郑智庞大的教练团队既是优势更是可能压倒他的最后稻草

郑智庞大的教练团队既是优势更是可能压倒他的最后稻草

K唐伯虎
2026-02-19 08:28:10
华尔街之狼闯入中国!贝莱德豪赌14万亿,这回真能全身而退?

华尔街之狼闯入中国!贝莱德豪赌14万亿,这回真能全身而退?

户外钓鱼哥阿旱
2026-02-17 10:27:23
巴萨主席候选人:赶走梅西是超级巨大失误,会尽所能让他回归

巴萨主席候选人:赶走梅西是超级巨大失误,会尽所能让他回归

懂球帝
2026-02-19 07:57:09
何音初一晒母子照,24岁黄博远可比黄志忠帅多了,天生一张明星脸

何音初一晒母子照,24岁黄博远可比黄志忠帅多了,天生一张明星脸

八怪娱
2026-02-17 08:23:28
我国一共有六座军事监狱,分布于五大战区,由武警部队负责管理

我国一共有六座军事监狱,分布于五大战区,由武警部队负责管理

咸鱼金脑袋
2026-02-17 12:44:54
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

小莜读史
2026-02-02 20:17:20
5年20次!阿媒统计被歧视最多的球员,为什么每次都是维尼修斯?

5年20次!阿媒统计被歧视最多的球员,为什么每次都是维尼修斯?

夏侯看英超
2026-02-19 02:19:57
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
2026-02-19 13:32:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

法国1万人的村庄10年自费办活动庆祝春节 负责人发声

头条要闻

法国1万人的村庄10年自费办活动庆祝春节 负责人发声

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

时尚
教育
游戏
艺术
本地

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

教育要闻

马年伊始,请带上这10句话整装出发!

《剑星》D加密被破解 Beta2更新已支持DLSS

艺术要闻

震惊!安徒生竟是画家,他的田园生活太美了!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

无障碍浏览 进入关怀版