网易首页 > 网易号 > 正文 申请入驻

AI临床推理97.5%满分,医生35%,建议87.5%正确

0
分享至



随着能力的提升,AI 在某个医疗基准数据集上获得 SOTA 已不足为奇。但现在,研究人员证明 AI 在真实病例场景下表现出与医生相当或更高的准确率。这意味着,AI 不是在训练过的场景下背诵标准答案,而是在临床实战中给出诊断推理。

近日,哈佛医学院、斯坦福大学等研究团队在 Science 发布了一项迄今最大规模 AI 医疗对比研究1,并首次用真实的患者病历来检验 AI 的推理能力,真实场景意味着可能存在病历混乱、信息不全的情况。

研究人员让 OpenAI 的 o1 模型与几百名医生在六种不同场景中进行诊断 比对。结果表明,AI 在多项临床推理任务中的准确率与医生持平甚至更高,包括急诊决策、诊断以及为患者制定下一步的治疗方案。



研究团队设计了不同方面的实验,来考察 AI 的临床推理能力。在第一组实验中,研究人员使用了 The New England Journal of Medicine(NEJM)自 20 世纪 50 年代开始作为“金牌标准”的临床病理会议病例。

在 2012 年至 2024 年期间的 143 个临床病例中,o1-preview 覆盖了 78.3% 的正确病因,其给出的首个诊断即是正确答案的比例占 52%。如果将“非常接近”的诊断也看作正确答案,该比例则进一步提升至 97.9%。

研究人员还将 GPT-4 与 o1-preview 进行了性能对比。结果显示,GPT-4 在同一批病例上的准确率是 72.9%,而 o1-preview 在 70 个重叠病例中,24.3% 的病例表现优于 GPT-4,仅 7.1% 的病例表现落后。

值得关注的是,在 136 例诊断检查选择测试中,o1-preview 选择检查项目的正确率是 87.5%。评审医生认为,AI 提出的检查建议中有 11% 具备临床价值,仅 1.5% 的建议无帮助。



在临床推理的书写质量评估中,差距进一步凸显。研究团队采用 20 个来自 NEJM Healer 课程的教学病例,该项能力采用经过验证的 R-IDEA 量表评分。

o1-preview 在 80 次评分中 78 次获得满分,与之对比的是,GPT-4 仅获得 47 次满分,而主治医师和住院医师得到满分的次数分别是 28 次和 16 次。在高风险误诊项识别上,o1-preview 的中位命中率是 92%。但需要了解的是,尽管其在数值上比人类更高,但与医生并未达到统计学显著差异的水平。



管理决策能力的测试结果同样值得关注。研究团队使用了五个基于真实病例开发的临床场景,并在每个场景下设置了一系列治疗决策问题。结果显示,o1-preview 的中位得分是 89%,GPT-4 为 42%,将 GPT-4 作为辅助工具的医生则获得 41% 的中位得分,而使用传统资源制定方案的医生得分仅 34%。



此外,为防止模型“刷题”,研究人员还使用了 6 个从未公开发布的标志性诊断病例进行实验。结果发现,尽管 o1-preview 获得了 97% 的中位得分,但与 GPT-4 的 92% 以及人类医师的 74% 相比,统计学的优势并不显著。这也从侧面上说明,大模型能力的提升并非在所有任务上都保持同一幅度。

在最接近真实临床环境实验中,研究人员以波士顿一家医院急诊室的 76 名患者作为研究对象,并设置了三个临床决策节点从早期分诊、接诊后以及决定收入病房。

标准电子病历涵盖了生命体征数据、人口统计信息以及对患者就诊原因的简要描述等信息。与此前研究不同,研究人员提供给模型的信息未进行预处理,而是直接来源于真实的电子病历。模型基于这些数据,生成相关诊断结果,并提出下一步治疗建议。

结果显示,在分诊阶段医生的正确率仅 50% 至 55%,而 AI 在 67% 的病例中做出了接近医生或更准确的诊断。研究人员发现,在需要快速决策且信息有限的紧急情况下,AI 的优势更加突出。当提供更多细节信息,人类专家的准确率提升至 70% 至 79%;而 OpenAI 的 o1 模型的诊断准确率则提升至近 82%。

值得一提的是,整个实验的过程采取的是严格的盲法设计,两位评审医生在判断答案来源是人还是 AI 时,猜对的比例分别仅 15.2% 和 3.1%,大多数情况下他们无法区分回答是来自 AI 还是人类。



需要了解的是,急诊室的核心决策通常是分诊、处理和即时管理,而非仅取决于诊断的正确性。因此,这项研究并不意味着 AI 将全面替代急诊医生。

今年 3 月,美国医学协会发布的一项研究显示 2,现在已有近 20% 的美国医生正在使用 AI 作为辅助诊断的工具。在英国,16% 的医生每天使用 AI。据英国皇家内科医师学会今年 1 月发布的一项调查 3,在临床决策中医生将 AI 作为辅助诊断是最常见的一种用途。

尽管 AI 在相关方面表现出色,但 AI 并不是万能的。不容忽视的是,一方面,AI 有可能带来出错和承担责任风险。另一方面,也需要警惕的是,医生可能在无意中接受了 AI 给出的建议,而非自己的独立思考。此外,AI 在诊断老年患者或非英语母语患者方面仍存在相关挑战。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三星想给每名员工发230万奖金,不仅被拒绝还可能罢工!工会的理由让人意外

三星想给每名员工发230万奖金,不仅被拒绝还可能罢工!工会的理由让人意外

可达鸭面面观
2026-05-08 12:03:22
南京经济技术开发区管委会原巡视员倪德龙接受纪律审查和监察调查

南京经济技术开发区管委会原巡视员倪德龙接受纪律审查和监察调查

扬子晚报
2026-05-08 15:24:55
国务院一纸令下!六月起强制执行,骑电动车再也不用见警就躲了

国务院一纸令下!六月起强制执行,骑电动车再也不用见警就躲了

今朝牛马
2026-05-07 20:58:21
5月1日起红灯右转全国统一新规:不是不让转,是不要再乱转了

5月1日起红灯右转全国统一新规:不是不让转,是不要再乱转了

笑熬浆糊111
2026-05-08 05:47:49
37死1失联!涉浏阳"5·4"烟花爆炸事故8名责任者到案!在医救治51人

37死1失联!涉浏阳"5·4"烟花爆炸事故8名责任者到案!在医救治51人

声情专递
2026-05-08 12:22:29
中方宣布无视美国制裁,美媒称史无前例,鲁比奥:或追加二次制裁

中方宣布无视美国制裁,美媒称史无前例,鲁比奥:或追加二次制裁

书纪文谭
2026-05-07 15:11:53
谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

晓栗
2026-05-08 01:08:33
快讯!国际足联还是低头了!

快讯!国际足联还是低头了!

故事终将光明磊落
2026-05-08 16:00:50
巴西免签了,但你可能根本去不了

巴西免签了,但你可能根本去不了

BT财经
2026-05-08 08:24:02
娃哈哈董事长,大婚!

娃哈哈董事长,大婚!

家传编辑部
2026-05-07 22:11:46
队长被打进医院!皇马更衣室彻底失控,内乱不止颜面尽失!

队长被打进医院!皇马更衣室彻底失控,内乱不止颜面尽失!

田先生篮球
2026-05-08 08:16:44
浏阳烟花厂爆炸37人死亡,湖南省委书记召开调度会,现场全体默哀;芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好,星期六》推迟播出

浏阳烟花厂爆炸37人死亡,湖南省委书记召开调度会,现场全体默哀;芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好,星期六》推迟播出

大风新闻
2026-05-08 14:15:10
三亚“4只皮皮虾1035元”店主事发次日去世,年仅43岁,留下两个孩子;家人称其事发前已脑出血,店铺收到威胁电话,不打算继续开业

三亚“4只皮皮虾1035元”店主事发次日去世,年仅43岁,留下两个孩子;家人称其事发前已脑出血,店铺收到威胁电话,不打算继续开业

大象新闻
2026-05-08 13:46:04
保住纳税人的钱!美国防部长宣布采购革命:企业自己掏钱建厂,交不出货就换人

保住纳税人的钱!美国防部长宣布采购革命:企业自己掏钱建厂,交不出货就换人

爆角追踪
2026-05-08 08:22:25
“纸上安全”VS现实噩梦:华为问界产业链为何沦为“忽悠型”造车的重灾区?

“纸上安全”VS现实噩梦:华为问界产业链为何沦为“忽悠型”造车的重灾区?

SmartHey
2026-05-08 10:10:02
中央决定:陈扬帆任中国移动董事、总经理、党组副书记

中央决定:陈扬帆任中国移动董事、总经理、党组副书记

界面新闻
2026-05-08 17:51:43
36岁名校海归博士求职无门:不上班最难受的不是没钱,是精神失重

36岁名校海归博士求职无门:不上班最难受的不是没钱,是精神失重

三言四拍
2026-05-08 09:01:06
国乒5月8号赛程很强,王皓提拔3人,向鹏王楚钦林诗栋挑大梁

国乒5月8号赛程很强,王皓提拔3人,向鹏王楚钦林诗栋挑大梁

阿信点评
2026-05-08 16:16:40
比核弹更致命?伊朗海底7条光缆,扼住全球经济命脉

比核弹更致命?伊朗海底7条光缆,扼住全球经济命脉

网易新闻出品
2026-05-07 19:33:27
赖清德返台后称台湾是国家,下令拆除蒋介石像,大陆六字预言结局

赖清德返台后称台湾是国家,下令拆除蒋介石像,大陆六字预言结局

凉了时光人
2026-05-08 09:46:12
2026-05-08 18:56:49
别让往昔的悲伤和对未来的恐惧
别让往昔的悲伤和对未来的恐惧
别让往昔的悲伤和对未来的恐惧
563文章数 131关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

伊朗成立新部门 所有想过霍尔木兹的船要先填40多道题

头条要闻

伊朗成立新部门 所有想过霍尔木兹的船要先填40多道题

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

轮到豆包收割了?

汽车要闻

智能双舱大五座SUV 乐道L80将于5月15日正式上市

态度原创

数码
亲子
旅游
教育
时尚

数码要闻

AI时代 CPU依然中流砥柱!AMD加冕数据中心之王

亲子要闻

越来越多的80后开始拼三胎了!

旅游要闻

水润历下|湖光山色间,他们“擦亮”一城碧水

教育要闻

南京江宁区2026年小学、初中招生入学工作实施细则

海魂衫搭配白色,更解暑!

无障碍浏览 进入关怀版