网易首页 > 网易号 > 正文 申请入驻

ChatGPT击败50名人类医生!疾病诊断准确率达90%

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

用ChatGPT诊断疾病,准确率已经超过了人类医生?!

斯坦福大学等机构进行了一轮随机临床试验,结果人类医生单独做出诊断的准确率为74%。

在ChatGPT的辅助之下,这一数字提升到了76%。

有意思的是,如果完全让ChatGPT“自由发挥”,准确率直接飙到了90%

据纽约时报说,面对这一结果,参与实验的内科专家Adam Rodman博士表示非常震惊。

有人评价,在这样的案例中,人类的干预,反而是给大模型的表现“拖了后腿”。

OpenAI总裁Brockman也转发了这则消息,表示看来AI还有巨大的潜力,但在和人类合作这件事上,还需要再加强

50名医生挑战经典病例

研究团队随机从斯坦福大学、弗吉尼亚大学等机构招募到了50名医生,其中包括44名内科医生、5名急诊医生和1名家庭医生。

如果按照职称划分,这50名医生包括26名主治医生和24名住院医生,工作年限中位数为3年。

主治医生和住院医生分别被随机分配到实验组和对照组,区别是在诊断中是否允许使用ChatGPT。

另外,研究人员还对参与者的大模型使用经验进行了统计。

结果有8人从未使用过ChatGPT,6人只用过一次,15人使用频率少于每月一次,13人每月多于一次但少于每周一次,8人每周至少使用一次。

病例方面,研究团队从上世纪90年代以来的105个经典病例中进行了选择和改编。

所有病例均来源于真实病人,包含病史、体检和实验室检查结果等初步诊断评估信息,但最终诊断结果从未公开

这意味着,人类医生无法预先知晓答案,ChatGPT的训练数据中也没有相应的诊断结果。

四名专业医生每人独立审阅其中至少50个病例,确定至少10个满足纳入标准的候选病例,需要排除过于简单或过于罕见的病例。

最终四人小组讨论达成一致,确定6个最终入选病例,预计受试者完成时间为1个小时。

入选的病例还要经过编辑,改写成现代化实验室数据报告的格式,并用将专业术语替换为通俗描述(如将“网状青斑”替换为“紫色、红色、蕾丝状皮疹”)。

在评估方法上,研究团队设计了一个基于“结构化反思”的评估工具。

具体来说,参与者需要填写一个结构化的表格,其中包含以下关键要素:

  • 最可能的三个鉴别诊断(3分):参与者需要根据病例信息,列出他们认为最有可能的三个诊断,每个正确的诊断可以获得1分,最多3分;
  • 支持和反对每个诊断的因素(12分):对于每个鉴别诊断,参与者需要列出病例中支持和反对该诊断的具体证据。每个因素的评分采用0-2分的等级,0分表示错误或缺失,1分表示部分正确,2分表示完全正确;
  • 最终诊断(2分):在综合考虑各鉴别诊断的支持和反对证据后,参与者需要给出最终诊断。最佳诊断得2分,次佳但合理的诊断得1分,错误诊断不得分;
  • 后续步骤(2分):参与者需要列出最多三个他们认为必要的后续诊断措施,以进一步确认或排除某些诊断。每个步骤的评分也采用0-2分的等级,0分表示错误,1分表示部分正确,2分表示完全正确。

在正式实验之前,研究团队招募了13名医生,收集了共65个试点病例的结构化反思表格,并邀请3名临床评估专家进行盲评,从而对评分量表进行了优化。

最终,50名参与者需要在1个小时时间内,完成6个病例的结构化反思表格

每个病例会被2名评分员独立盲评,如果两名评审员评分相差不超过10%,则直接取平均值;

如果差异超过10%,则认为两名评审员存在分歧,需要进行讨论直至达成共识。

ChatGPT表现超过人类

为了更清晰地展示研究的内容,研究人员公布了六个病例中的一个,以及对应得分高和得分低的医生的答案。

一名76岁的男性患者,走路时腰部、臀部和小腿剧烈疼痛。在他接受球囊血管成形术以扩大冠状动脉后几天,疼痛开始出现。手术后,他接受了48小时的血液稀释剂肝素治疗。
该男子称他感到发烧和疲倦。他的心脏病医生所做的实验室研究表明,他的贫血症再次发作,并且氮和其他肾脏废物在血液中积聚。该男子十年前曾因心脏病接受搭桥手术。

案例中还包括该男子体检的详细信息以及他的实验室测试结果,正确的诊断是“胆固醇栓塞”,两名医生以及GPT-4给出的回答如下(中间理由和后续操作略)。

最终,实验组(使用ChatGPT)的诊断得分中位数为76%,对照组为74%。

由于每个参与者完成了多个病例,因此病例之间可能存在相关性,所以为了妥善处理这种嵌套结构,作者使用了混合效应模型。

这类模型不仅考虑了干预的固定效应(即是否使用大模型的影响),还考虑了参与者和病例的随机效应。

根据混合效应模型估计,两组的差异为2个百分点,95%置信区间为-4到8个百分点,p值为0.60。

这意味着,尽管实验组的得分略高于对照组,但这种差异可能仅仅是由于随机误差所致,不具有统计学意义

如果单纯看最终诊断结果,以及完成测试所花费的时间,两组之间同样没有体现出明显的差别。

除此之外,作者还补充了单独使用ChatGPT进行诊断的实验。

研究团队使用近期提出的提示工程框架,迭代开发了一个最优的0样本提示。

其中包含了任务细节、背景、指令等关键要素,且每个病例使用相同的提示。

一名研究者会将优化后的提示,连同病例内容输入ChatGPT,每个病例独立运行三次。

研究者会不对ChatGPT的输出做任何人工修改,直接交给评分者一同盲评,而且评分员也不知道哪些结果由ChatGPT生成。

结果,单独使用ChatGPT得到的诊断得分,中位数高达92%,明显高于对照组,且p值为0.03,具有统计学意义

需要注意的是,这些病例是经过人类临床医生精心筛选和总结的,人类已经对其中的关键信息进行过提取。

实际临床工作中,从病人那里获取信息、收集数据的过程更加复杂,因此实验结果并不代表大模型能在临床场景中取代人类

但同时,“人类+ChatGPT”与ChatGPT“自由发挥”结果之间的巨大差异,也说明了人类的使用方式,还远远不能发挥出大模型的最大效能

所以,就像开头Brockman说的一样,这个实验预示着,人类和AI之间,还需要进一步加强合作

论文地址:
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
参考链接:
[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html
[2]https://x.com/gdb/status/1858337346514485362

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
VIVO从印度成功转走7000亿?大批外资企业撤离,莫迪已尝到苦果?

VIVO从印度成功转走7000亿?大批外资企业撤离,莫迪已尝到苦果?

顾史
2026-02-23 23:29:51
“七十不添衣,八十不祝寿”,这句话指的是啥?看完后涨知识了

“七十不添衣,八十不祝寿”,这句话指的是啥?看完后涨知识了

阿龙美食记
2026-02-26 14:30:14
黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

磊子讲史
2025-12-24 11:04:05
日本女子撞飞中国幼童后续:拒不道歉,身份曝光,专挑游客小孩

日本女子撞飞中国幼童后续:拒不道歉,身份曝光,专挑游客小孩

离离言几许
2026-02-28 12:02:18
巴拿马行动后,李嘉诚72小时狂抛1100亿,西方成强盗窝

巴拿马行动后,李嘉诚72小时狂抛1100亿,西方成强盗窝

谁将笑到最后
2026-02-28 23:34:03
A股:不必等明天开盘了,股市已经有变化,周一很可能这样走了

A股:不必等明天开盘了,股市已经有变化,周一很可能这样走了

财经大拿
2026-03-01 12:02:26
首都医科大学党委书记调整

首都医科大学党委书记调整

医学界
2026-03-01 18:42:21
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
杨靖宇后人现状:妻子被丢进粪坑淹死,儿子37岁殉职,留5个子女

杨靖宇后人现状:妻子被丢进粪坑淹死,儿子37岁殉职,留5个子女

近史谈
2026-03-01 13:11:38
人品好!张本美和:我解释后王曼昱同意医疗暂停 赛后问我没问题吧

人品好!张本美和:我解释后王曼昱同意医疗暂停 赛后问我没问题吧

818体育
2026-03-01 13:27:01
张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

秀语千寻
2026-02-22 19:28:42
美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

悦心知足
2026-02-21 23:03:46
第5波伊朗导弹雨杀到,美军航母基地剧烈大爆炸:彻底拦不住了!

第5波伊朗导弹雨杀到,美军航母基地剧烈大爆炸:彻底拦不住了!

青烟小先生
2026-03-01 14:27:37
你被老外问过哪些离谱问题?网友:我朋友让我给他带一只熊猫

你被老外问过哪些离谱问题?网友:我朋友让我给他带一只熊猫

带你感受人间冷暖
2026-02-02 00:30:03
中东航班深夜返航 有旅客中途暴哭:安全最重要

中东航班深夜返航 有旅客中途暴哭:安全最重要

看看新闻Knews
2026-03-01 10:35:03
伊朗强势反击美军基地损失惨重,俄法纷纷介入,中方态度非比寻常

伊朗强势反击美军基地损失惨重,俄法纷纷介入,中方态度非比寻常

一盅情怀
2026-03-01 17:47:10
当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

牛锅巴小钒
2026-02-25 15:15:15
单局轰9-1提前终结悬念,孙颖莎4-1轻取师妹,打进决赛再战王曼昱

单局轰9-1提前终结悬念,孙颖莎4-1轻取师妹,打进决赛再战王曼昱

乒谈
2026-03-01 13:57:43
1946年安徽老太给八路军带路,副班长觉察不对,大喊道:这条路不对

1946年安徽老太给八路军带路,副班长觉察不对,大喊道:这条路不对

程哥讲堂
2025-06-25 17:02:07
美以对伊朗斩首轰炸得逞 “反常规”白天空袭是成功关键

美以对伊朗斩首轰炸得逞 “反常规”白天空袭是成功关键

洪超飞军事
2026-03-01 11:47:26
2026-03-01 21:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12211文章数 176399关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

伊朗代表在安理会会议上直接警告美方:建议你保持礼貌

头条要闻

伊朗代表在安理会会议上直接警告美方:建议你保持礼貌

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

健康
本地
亲子
游戏
公开课

转头就晕的耳石症,能开车上班吗?

本地新闻

津南好·四时总相宜

亲子要闻

春日敏感肌自救指南,你get了吗?

《COD》吃瘪!被卷入法律纠纷:痛失一项知名品牌

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版