网易首页 > 网易号 > 正文 申请入驻

AI完败于人类医生!研究发现:大模型临床决策草率且不安全,最低正确率仅13%

0
分享至

大数据文摘授权转载自学术头条

人类医生,会因为 ChatGPT 等大模型纷纷下岗吗?

这种担心,并非空穴来风。毕竟,谷歌的大模型(Med-PaLM 2)已经轻松拿下了美国医学执照考试,达到了医学专家的水平。

然而,一项最新研究表明:在临床方面,人类医生完胜目前的人工智能(AI)模型,无需过于担心个人「失业问题」。

相关研究论文以“Evaluation and mitigation of the limitations of large language models in clinical decision-making”为题,已于近日发表在科学期刊 Nature Medicine 上。

该研究发现,即使是目前最先进的大语言模型(LLM)也无法为所有患者做出准确诊断,且表现明显差于人类医生——

医生的诊断正确率为 89%,而 LLM 的诊断正确率仅为 73%。在一个极端情况(胆囊炎诊断)下,LLM 正确率仅为 13%。

更令人惊讶的是,随着对病例信息的了解增多,LLM 的诊断准确度反而会降低,有时甚至会要求进行一些可能对患者有严重健康风险的检查。

化身急诊科医生,LLM 表现如何?

尽管 LLM 可以轻松拿下美国医学执照考试,但医学执照考试和临床案例挑战适合只测试考生的一般医学知识,难度远不如日常复杂的临床决策任务。

临床决策是一个多步骤的过程,需要从不同来源收集和整合数据,并不断评估事实以达成基于证据的患者诊断和治疗决策。

为了进一步研究 LLM 在临床诊断中的潜力,来自慕尼黑工业大学的研究团队及其合作者基于医疗信息市场重症监护数据库(MIMIC-IV)制作了一个涵盖 2400 个真实患者案例和 4 种常见腹部疾病(阑尾炎、胰腺炎、胆囊炎和憩室炎)的数据集,模拟现实的临床环境,重现从急诊到治疗的过程,从而评估其作为临床决策者的适用性。

图|数据集来源及评估框架。该数据集来源于 MIMIC-IV 数据库中的真实病例,包含住院期间记录的全面电子健康记录数据。评估框架反映了一个现实的临床环境,从多个标准对 LLM 进行全面评估,包括诊断准确性、遵循诊断和治疗指南的情况、遵循指令的一致性、解释实验室结果的能力,以及对指令变化、信息量和信息顺序变化的鲁棒性。ICD,国际疾病分类;CT,计算机断层扫描;US,超声波;MRCP,磁共振胰胆管成像。

研究团队测试了 Llama 2 及其衍生版本,包括通用版本(如 Llama 2 Chat、Open Assistant、WizardLM)和医学领域对齐的模型(如 Clinical Camel 和 Meditron)。

由于 MIMIC 数据的隐私问题和数据使用协议,数据不能用于如 OpenAI 或 Google 的外部 API,因此未能测试 ChatGPT、GPT-4 和 Med-PaLM。值得注意的是,Llama 2、Clinical Camel 和 Meditron 在医学许可考试和生物医学问答测试中的表现已达到甚至超过了 ChatGPT。

测试对照组为四位来自两个国家且有不同年限(分别是 2 年、3 年、4 年和 29 年)急诊经验的内科医生。结果显示,LLM 在临床诊断中的表现远不如人类医生。

1.LLM 的诊断性能显著低于临床

医生结果显示,当前 LLM 在所有疾病的整体表现上显著逊色于医生(P < 0.001),诊断准确性差距在 16%-25% 之间。虽然模型在简单的阑尾炎诊断中表现较好,但在胆囊炎等其他病理的诊断中表现不佳,特别是 Meditron 模型在胆囊炎诊断中失败,常将患者诊断为“胆结石”。

专业医学 LLM 在整体表现上未显著优于其他模型,而当 LLM 需要自行收集所有信息时,其表现会进一步下降。

图|全信息提供条件下的诊断准确率。数据基于 MIMIC-CDM-FI 的一个子集(n=80),每个条形图上方显示了平均诊断准确率,垂直线表示标准偏差。LLM 的平均表现显著较差(P < 0.001),尤其是在胆囊炎(P < 0.001)和憩室炎(P < 0.001)方面。

图|自主临床决策场景下的诊断准确率。对比全信息提供场景下,模型判断正确率整体都有明显下降。LLM 在诊断阑尾炎时表现最好,但在胆囊炎、憩室炎和胰腺炎这三种病理上表现较差。

2.LLM 的临床决策草率且不安全

研究团队发现,LLM 遵循诊断指南方面表现不佳,容易遗漏患者的重要身体信息。此外在安排患者必要实验室检查方面缺乏一致性。LLM 在解读实验室结果方面也有明显不足。这表明它们在没有充分了解患者病例的情况下草率诊断,对患者健康构成严重风险。

图|LLM 推荐治疗方式评估。期望的治疗方案是根据临床指南和数据集中患者实际接受的治疗确定的。在 808 名患者中,Llama 2 Chat 正确诊断了 603 人。在这 603 名患者中,Llama 2 Chat 在 97.5% 的情况下正确推荐了阑尾切除术。

3.LLM 仍需要大量的医生临床监督

另外,当前所有的 LLM 在遵循基础医学指导方面表现不佳,在每 2-4 个病例中出现错误,且每 2-5 个病例中就会虚构不存在的指导。

图|LLM 在不同数据量下的表现。该研究比较了每个模型在使用所有诊断信息与仅使用单一诊断检查和现病史的表现。对于几乎所有疾病,在 MIMIC-CDM-FI 数据集中,提供所有信息并未导致最佳表现。这表明,LLM 无法集中于关键事实,当提供过多信息时,表现会下降。

该研究还表明,为每个模型提供最佳性能的信息顺序对于每种病理都是不同的,这无疑进一步增大了后续优化模型的难度。在没有广泛的医生监督和事先评估的情况下,无法可靠地完成任务。总的来说,它们在遵循指令、处理信息的顺序以及对相关信息的处理上存在明细缺陷,因此需要大量临床监督以确保其正确运行。

虽然该研究发现了 LLM 在临床诊断下的各种问题,但 LLM 在医学方面的前景依然巨大,很可能更适合根据病史和测试结果做出诊断。研究团队认为,该研究工作在以下两个方面具有进一步拓展的空间:

  • 模型验证和测试:进一步的研究应集中在对 LLM 进行更全面的验证和测试,以确保其在真实临床环境中的有效性。

  • 多学科合作:建议将 AI 专家与临床医生密切合作,以共同开发和优化适用于临床实践的 LLM,并解决实际应用中的问题。

AI 在如何颠覆医疗?

不只是上述研究,来自美国国立卫生研究院(NIH)的团队及其合作者,也发现了类似的问题——在回答 207 个图像挑战问题时,GPT-4V 虽然在选择正确诊断方面得分很高,但在描述医学图像和解释诊断背后的原因方面经常会犯错。

尽管 AI 目前还远不如人类专业医生,但其在医疗行业的研究与应用,一直是国内外科技公司和科研高校竞相角逐的重要“战场”。

例如,谷歌发布的医疗 AI 大模型 Med-PaLM2,具备了强大的诊断和治疗能力,同时也是第一个在 MedQA 测试集中达到“专家”水平的大模型。

清华大学研究团队提出的“智能体医院”(Agent Hospital),可以模拟治疗疾病的整个过程,其核心目标是让医生智能体学会如何在模拟环境中治疗疾病,甚至可以不断从成功和失败的病例中积累经验实现自我进化。

哈佛医学院领衔开发了一个用于人类病理学的视觉语言通用 AI 助手——PathChat,其能够在近 90% 的情况下从活检切片中正确识别疾病,其表现优于 GPT-4V 等目前市面上的通用 AI 模型和专业医疗模型。

图|指令微调数据集和 PathChat 构建

日前,OpenAI CEO Sam Altman 参与成立了一家新公司 Thrive AI Health,旨在借助 AI 技术帮助人们改善日常习惯,降低慢性病死亡率。

他们称,超个性化的 AI 技术可以有效地改善人们的生活习惯,从而预防和管理慢性疾病,减轻医疗经济负担,并提高人们的整体健康水平。

如今,AI 在医疗行业的应用已经从最初的实验阶段逐渐过渡到实际应用阶段,但距离帮助临床医生增强他们的能力、改善临床决策,甚至直接取代,或许依旧有很长的一段路要走。

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吞噬人性2:津门谋逆

吞噬人性2:津门谋逆

金昔说故事
2026-01-27 19:00:17
闫学晶风波终于落幕,6个男人惨遭牵连,儿媳与继女最不好过

闫学晶风波终于落幕,6个男人惨遭牵连,儿媳与继女最不好过

青橘罐头
2026-01-26 20:19:38
安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

红豆讲堂
2024-11-15 11:25:33
“很后悔托举了他!”被丈夫和闺蜜背叛女子一夜白头:听到儿子叫第三者妈妈,心在滴血

“很后悔托举了他!”被丈夫和闺蜜背叛女子一夜白头:听到儿子叫第三者妈妈,心在滴血

台州交通广播
2026-01-26 22:00:12
寿命短的女性,下半身一般有4个表现!若你全无,说明身体很硬朗

寿命短的女性,下半身一般有4个表现!若你全无,说明身体很硬朗

资说
2026-01-27 16:16:03
美军想接走赖清德?解放军首次确认:可选任何手段,直接瓮中捉鳖

美军想接走赖清德?解放军首次确认:可选任何手段,直接瓮中捉鳖

兵器海陆空视频
2026-01-25 20:05:02
安徽多名厅级干部履新!一市发布5名县处级干部任前公示

安徽多名厅级干部履新!一市发布5名县处级干部任前公示

凤凰网安徽
2026-01-27 16:42:30
细思极恐!这是大S汪小菲第一次见面的照片,汪小菲像极了待宰羔羊

细思极恐!这是大S汪小菲第一次见面的照片,汪小菲像极了待宰羔羊

八卦王者
2026-01-27 12:10:38
C罗躲球!越位!跳水!0进球0助攻!评分接近全场垫底!

C罗躲球!越位!跳水!0进球0助攻!评分接近全场垫底!

氧气是个地铁
2026-01-27 16:36:07
北京奥运会冠军陈燮霞:靠作弊获得金牌,被查后如今销声匿迹

北京奥运会冠军陈燮霞:靠作弊获得金牌,被查后如今销声匿迹

谢葥邮轮摄影
2026-01-26 15:23:05
霍震霆也没想到,被寄予厚望的儿媳郭晶晶,竟遭到一个这么大教训

霍震霆也没想到,被寄予厚望的儿媳郭晶晶,竟遭到一个这么大教训

天天热点见闻
2026-01-26 08:14:01
曼城再见!8000万“永动机”火速转会!再截利物浦,抢6000万猎物

曼城再见!8000万“永动机”火速转会!再截利物浦,抢6000万猎物

头狼追球
2026-01-27 11:39:01
澳网男单八强全出炉:前8号种子7人晋级+05后大满贯八强第一人

澳网男单八强全出炉:前8号种子7人晋级+05后大满贯八强第一人

全景体育V
2026-01-26 20:43:02
伊朗外交部:伊朗从未、也不会寻求核武器

伊朗外交部:伊朗从未、也不会寻求核武器

界面新闻
2026-01-26 16:48:43
重大转向!美国发布最新国防战略报告:特朗普总统寻求与中国建立稳定的和平、公平的贸易以及互相尊重的关系

重大转向!美国发布最新国防战略报告:特朗普总统寻求与中国建立稳定的和平、公平的贸易以及互相尊重的关系

每日经济新闻
2026-01-25 09:56:41
“留学一年嘴都变大了”,女学生面相变化图走红,牢A果然权威

“留学一年嘴都变大了”,女学生面相变化图走红,牢A果然权威

泽泽先生
2026-01-25 21:55:27
加内特:哈登该入选全明星,获主教练和队友支持,快船渐入佳境

加内特:哈登该入选全明星,获主教练和队友支持,快船渐入佳境

只扣篮的教练
2026-01-27 17:17:39
拒绝回归曼城!除非瓜帅下课!英超mvp太高调,还在记恨当年替补

拒绝回归曼城!除非瓜帅下课!英超mvp太高调,还在记恨当年替补

阿泰希特
2026-01-27 12:24:53
3679元起!苹果突然上架多款 iPhone

3679元起!苹果突然上架多款 iPhone

科技堡垒
2026-01-27 11:49:24
日本首相高市早苗的继子,山本建,当候选人还不到24小时

日本首相高市早苗的继子,山本建,当候选人还不到24小时

西楼知趣杂谈
2026-01-27 11:05:44
2026-01-27 19:59:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6821文章数 94528关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

"煤老虎"敛财数千万元 被批受贿"来者不拒、大小通吃"

头条要闻

"煤老虎"敛财数千万元 被批受贿"来者不拒、大小通吃"

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

艺术
房产
游戏
数码
军事航空

艺术要闻

日本东京国立博物馆中的100幅宋画

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

《恶意不息》Steam单日销量突破5万份 正式版会有结局

数码要闻

Sharkoon旋刚247元推出入门级SKILLER SGB15键鼠套装

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版