网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

ChatGPT击败50名人类医生！疾病诊断准确率达90%

2024-11-18 15:53:56　来源: 量子位

北京举报

0

分享至

克雷西发自凹非寺
量子位 | 公众号 QbitAI

用ChatGPT诊断疾病，准确率已经超过了人类医生？！

斯坦福大学等机构进行了一轮随机临床试验，结果人类医生单独做出诊断的准确率为74%。

在ChatGPT的辅助之下，这一数字提升到了76%。

有意思的是，如果完全让ChatGPT“自由发挥”，准确率直接飙到了90%。

据纽约时报说，面对这一结果，参与实验的内科专家Adam Rodman博士表示非常震惊。

有人评价，在这样的案例中，人类的干预，反而是给大模型的表现“拖了后腿”。

OpenAI总裁Brockman也转发了这则消息，表示看来AI还有巨大的潜力，但在和人类合作这件事上，还需要再加强。

50名医生挑战经典病例

研究团队随机从斯坦福大学、弗吉尼亚大学等机构招募到了50名医生，其中包括44名内科医生、5名急诊医生和1名家庭医生。

如果按照职称划分，这50名医生包括26名主治医生和24名住院医生，工作年限中位数为3年。

主治医生和住院医生分别被随机分配到实验组和对照组，区别是在诊断中是否允许使用ChatGPT。

另外，研究人员还对参与者的大模型使用经验进行了统计。

结果有8人从未使用过ChatGPT，6人只用过一次，15人使用频率少于每月一次，13人每月多于一次但少于每周一次，8人每周至少使用一次。

病例方面，研究团队从上世纪90年代以来的105个经典病例中进行了选择和改编。

所有病例均来源于真实病人，包含病史、体检和实验室检查结果等初步诊断评估信息，但最终诊断结果从未公开。

这意味着，人类医生无法预先知晓答案，ChatGPT的训练数据中也没有相应的诊断结果。

四名专业医生每人独立审阅其中至少50个病例，确定至少10个满足纳入标准的候选病例，需要排除过于简单或过于罕见的病例。

最终四人小组讨论达成一致，确定6个最终入选病例，预计受试者完成时间为1个小时。

入选的病例还要经过编辑，改写成现代化实验室数据报告的格式，并用将专业术语替换为通俗描述（如将“网状青斑”替换为“紫色、红色、蕾丝状皮疹”）。

在评估方法上，研究团队设计了一个基于“结构化反思”的评估工具。

具体来说，参与者需要填写一个结构化的表格，其中包含以下关键要素：

最可能的三个鉴别诊断（3分）：参与者需要根据病例信息，列出他们认为最有可能的三个诊断，每个正确的诊断可以获得1分，最多3分；
支持和反对每个诊断的因素（12分）：对于每个鉴别诊断，参与者需要列出病例中支持和反对该诊断的具体证据。每个因素的评分采用0-2分的等级，0分表示错误或缺失，1分表示部分正确，2分表示完全正确；
最终诊断（2分）：在综合考虑各鉴别诊断的支持和反对证据后，参与者需要给出最终诊断。最佳诊断得2分，次佳但合理的诊断得1分，错误诊断不得分；
后续步骤（2分）：参与者需要列出最多三个他们认为必要的后续诊断措施,以进一步确认或排除某些诊断。每个步骤的评分也采用0-2分的等级，0分表示错误，1分表示部分正确，2分表示完全正确。

在正式实验之前，研究团队招募了13名医生，收集了共65个试点病例的结构化反思表格，并邀请3名临床评估专家进行盲评，从而对评分量表进行了优化。

最终，50名参与者需要在1个小时时间内，完成6个病例的结构化反思表格。

每个病例会被2名评分员独立盲评，如果两名评审员评分相差不超过10%，则直接取平均值；

如果差异超过10%，则认为两名评审员存在分歧，需要进行讨论直至达成共识。

ChatGPT表现超过人类

为了更清晰地展示研究的内容，研究人员公布了六个病例中的一个，以及对应得分高和得分低的医生的答案。

一名76岁的男性患者，走路时腰部、臀部和小腿剧烈疼痛。在他接受球囊血管成形术以扩大冠状动脉后几天，疼痛开始出现。手术后，他接受了48小时的血液稀释剂肝素治疗。
该男子称他感到发烧和疲倦。他的心脏病医生所做的实验室研究表明，他的贫血症再次发作，并且氮和其他肾脏废物在血液中积聚。该男子十年前曾因心脏病接受搭桥手术。

案例中还包括该男子体检的详细信息以及他的实验室测试结果，正确的诊断是“胆固醇栓塞”，两名医生以及GPT-4给出的回答如下（中间理由和后续操作略）。

最终，实验组（使用ChatGPT）的诊断得分中位数为76%，对照组为74%。

由于每个参与者完成了多个病例，因此病例之间可能存在相关性，所以为了妥善处理这种嵌套结构，作者使用了混合效应模型。

这类模型不仅考虑了干预的固定效应（即是否使用大模型的影响），还考虑了参与者和病例的随机效应。

根据混合效应模型估计，两组的差异为2个百分点，95%置信区间为-4到8个百分点，p值为0.60。

这意味着，尽管实验组的得分略高于对照组，但这种差异可能仅仅是由于随机误差所致，不具有统计学意义。

如果单纯看最终诊断结果，以及完成测试所花费的时间，两组之间同样没有体现出明显的差别。

除此之外，作者还补充了单独使用ChatGPT进行诊断的实验。

研究团队使用近期提出的提示工程框架，迭代开发了一个最优的0样本提示。

其中包含了任务细节、背景、指令等关键要素，且每个病例使用相同的提示。

一名研究者会将优化后的提示，连同病例内容输入ChatGPT，每个病例独立运行三次。

研究者会不对ChatGPT的输出做任何人工修改，直接交给评分者一同盲评，而且评分员也不知道哪些结果由ChatGPT生成。

结果，单独使用ChatGPT得到的诊断得分，中位数高达92%，明显高于对照组，且p值为0.03，具有统计学意义。

需要注意的是，这些病例是经过人类临床医生精心筛选和总结的，人类已经对其中的关键信息进行过提取。

实际临床工作中，从病人那里获取信息、收集数据的过程更加复杂，因此实验结果并不代表大模型能在临床场景中取代人类。

但同时，“人类+ChatGPT”与ChatGPT“自由发挥”结果之间的巨大差异，也说明了人类的使用方式，还远远不能发挥出大模型的最大效能。

所以，就像开头Brockman说的一样，这个实验预示着，人类和AI之间，还需要进一步加强合作。

论文地址：
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
参考链接：
[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html
[2]https://x.com/gdb/status/1858337346514485362

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

佛山顺德一4A景区灰塑被人拿下，官方通报

南方都市报 2026-02-26 12:58:14
623 跟贴 623
“反诈老陈”账号被封，本人回应：问心无愧！MCN机构：即刻解除所有合约，双方合作立即终止

都市快报橙柿互动 2026-03-01 07:15:47
1086 跟贴 1086

年前100多元一斤，年后价格腰斩！有湖北人已迫不及待下单

环球网资讯 2026-02-27 09:52:19
526 跟贴 526

男子爬到何仙姑雕像头顶拍照，山东蓬莱阁景区回应：“八仙过海”石雕属于公共区域无人值守，后续会加强巡逻

三湘都市报 2026-02-28 13:37:39
1188 跟贴 1188
湖南将派出14个副厅级领导担任组长的督导组，赴市州督导

湖南日报 2026-03-01 14:28:00
1 跟贴 1

极氪公布春节十大猎装旅行路线，揭秘深度自驾游版图

鲁中晨报 2026-02-26 12:29:41
15583 跟贴 15583

已有杭州飞往迪拜的航班取消！多家航空公司暂停航班，滞留旅客花费人均近万元回国

都市快报橙柿互动 2026-03-01 10:18:58
416 跟贴 416
上海“校长杯”围棋赛举行推进"围棋进校园"

看看新闻Knews 2026-03-01 15:55:04
1 跟贴 1

月月315｜男子花52.5万全款购买婚房，5年多未等来房产证，湖南岳阳县住建局：房款未进入开发商账户，正全力推动解决

大风新闻 2026-03-01 14:34:03
3 跟贴 3
刚刚 | 退钱了！有人退了3万多！

天津广播 2026-03-01 08:20:12
156 跟贴 156
全国政协会议议程来了

央视新闻客户端 2026-03-01 09:49:59
48 跟贴 48
“太恐怖，iPhone半夜自己给陌生人打47分钟电话！”

都市快报橙柿互动 2026-02-25 11:28:41
78 跟贴 78
外媒：比利时与法国合作扣押一艘据称属于俄“影子舰队”油轮

环球网资讯 2026-03-01 19:01:39
2 跟贴 2
中南大学学子刷新马拉松全国纪录，将中国马拉松带入“205时代”！

潇湘晨报 2026-03-01 19:22:10
1 跟贴 1
“手机将全面涨价”，冲上热搜

南方都市报 2026-02-27 14:31:12
0 跟贴 0
“河南人的七彩丹霞”！河南淅川丹霞地貌惊艳网友，官方回应

极目新闻 2026-03-01 18:51:52
1 跟贴 1
今天下午浦东新区建桥学院门前道路塌陷多部门迅速应急抢险

上观新闻 2026-03-01 20:47:41
0 跟贴 0
再现逆转！中国男篮击败中国台北男篮，世预赛赛场斩获连胜

澎湃新闻 2026-03-01 17:52:27
4 跟贴 4
警示当耳旁风？雨崩景区游客硬闯冰面，拍照后突然冰裂掉落

8099999街头巷尾 2026-03-01 20:51:32
0 跟贴 0
切断霍尔木兹海峡后会发生什么？专家：布伦特原油可能率先突破80美元

财联社 2026-03-01 11:29:10
0 跟贴 0
4名中学生违规放烟花“烤”黑大桥

赤脚论坛 2026-03-01 20:34:58
0 跟贴 0

VIVO从印度成功转走7000亿？大批外资企业撤离，莫迪已尝到苦果？

VIVO从印度成功转走7000亿？大批外资企业撤离，莫迪已尝到苦果？

顾史

2026-02-23 23:29:51

“七十不添衣，八十不祝寿”，这句话指的是啥？看完后涨知识了

“七十不添衣，八十不祝寿”，这句话指的是啥？看完后涨知识了

阿龙美食记

2026-02-26 14:30:14

黎笋之子黎坚诚坦言：父亲选择同中国开战，是其毕生最大的失策

黎笋之子黎坚诚坦言：父亲选择同中国开战，是其毕生最大的失策

磊子讲史

2025-12-24 11:04:05

日本女子撞飞中国幼童后续：拒不道歉，身份曝光，专挑游客小孩

日本女子撞飞中国幼童后续：拒不道歉，身份曝光，专挑游客小孩

离离言几许

2026-02-28 12:02:18

巴拿马行动后，李嘉诚72小时狂抛1100亿，西方成强盗窝

巴拿马行动后，李嘉诚72小时狂抛1100亿，西方成强盗窝

谁将笑到最后

2026-02-28 23:34:03

A股：不必等明天开盘了，股市已经有变化，周一很可能这样走了

A股：不必等明天开盘了，股市已经有变化，周一很可能这样走了

财经大拿

2026-03-01 12:02:26

首都医科大学党委书记调整

医学界

2026-03-01 18:42:21

女孩当小姐，一晚要提供4到5次上门服务，2015年被亲人点到不赴约

女孩当小姐，一晚要提供4到5次上门服务，2015年被亲人点到不赴约

汉史趣闻

2025-11-08 09:27:32

杨靖宇后人现状：妻子被丢进粪坑淹死，儿子37岁殉职，留5个子女

杨靖宇后人现状：妻子被丢进粪坑淹死，儿子37岁殉职，留5个子女

近史谈

2026-03-01 13:11:38

人品好!张本美和:我解释后王曼昱同意医疗暂停赛后问我没问题吧

人品好!张本美和:我解释后王曼昱同意医疗暂停赛后问我没问题吧

818体育

2026-03-01 13:27:01

张艺谋：第一次见她，我对她说，你等着我们来找你，不要乱演电影

张艺谋：第一次见她，我对她说，你等着我们来找你，不要乱演电影

秀语千寻

2026-02-22 19:28:42

美媒感慨：若不是中国还在反抗特朗普，几乎全世界都向他投降了

美媒感慨：若不是中国还在反抗特朗普，几乎全世界都向他投降了

悦心知足

2026-02-21 23:03:46

第5波伊朗导弹雨杀到，美军航母基地剧烈大爆炸：彻底拦不住了！

第5波伊朗导弹雨杀到，美军航母基地剧烈大爆炸：彻底拦不住了！

青烟小先生

2026-03-01 14:27:37

你被老外问过哪些离谱问题？网友：我朋友让我给他带一只熊猫

你被老外问过哪些离谱问题？网友：我朋友让我给他带一只熊猫

带你感受人间冷暖

2026-02-02 00:30:03

中东航班深夜返航有旅客中途暴哭：安全最重要

中东航班深夜返航有旅客中途暴哭：安全最重要

看看新闻Knews

2026-03-01 10:35:03

伊朗强势反击美军基地损失惨重，俄法纷纷介入，中方态度非比寻常

伊朗强势反击美军基地损失惨重，俄法纷纷介入，中方态度非比寻常

一盅情怀

2026-03-01 17:47:10

当年举债120亿“吞”下沃尔沃！如今16年过去，李书福赚了多少？

当年举债120亿“吞”下沃尔沃！如今16年过去，李书福赚了多少？

牛锅巴小钒

2026-02-25 15:15:15

单局轰9-1提前终结悬念，孙颖莎4-1轻取师妹，打进决赛再战王曼昱

单局轰9-1提前终结悬念，孙颖莎4-1轻取师妹，打进决赛再战王曼昱

乒谈

2026-03-01 13:57:43

1946年安徽老太给八路军带路,副班长觉察不对,大喊道：这条路不对

1946年安徽老太给八路军带路,副班长觉察不对,大喊道：这条路不对

程哥讲堂

2025-06-25 17:02:07

美以对伊朗斩首轰炸得逞 “反常规”白天空袭是成功关键

美以对伊朗斩首轰炸得逞 “反常规”白天空袭是成功关键

洪超飞军事

2026-03-01 11:47:26

追踪人工智能动态

12211文章数 176399关注度

往期回顾全部

科技要闻

小米超跑概念车全球首秀！杀入顶豪俱乐部

头条要闻

伊朗代表在安理会会议上直接警告美方:建议你保持礼貌

头条要闻

伊朗代表在安理会会议上直接警告美方:建议你保持礼貌

体育要闻

火箭输给热火：乌度卡又输斯波教练

娱乐要闻

《江山为聘》：吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆历史累计交付超159万辆

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

本地

亲子

游戏

公开课

转头就晕的耳石症，能开车上班吗？

本地新闻

津南好·四时总相宜

亲子要闻

春日敏感肌自救指南，你get了吗？

《COD》吃瘪！被卷入法律纠纷：痛失一项知名品牌

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版