网易首页 > 网易号 > 正文 申请入驻

AI诊断真实病例准确率超医生,哈佛称医学评估标准或应重新改写

0
分享至



随着能力的提升,AI 在某个医疗基准数据集上获得 SOTA 已不足为奇。但现在,研究人员证明 AI 在真实病例场景下表现出与医生相当或更高的准确率。这意味着,AI 不是在训练过的场景下背诵标准答案,而是在临床实战中给出诊断推理。

近日,哈佛医学院、斯坦福大学等研究团队在 Science 发布了一项迄今最大规模 AI 医疗对比研究[1],并首次用真实的患者病历来检验 AI 的推理能力,真实场景意味着可能存在病历混乱、信息不全的情况。

研究人员让 OpenAI 的 o1 模型与几百名医生在六种不同场景中进行诊断 比对。结果表明,AI 在多项临床推理任务中的准确率与医生持平甚至更高,包括急诊决策、诊断以及为患者制定下一步的治疗方案。

该研究结果预示着一个重要的转折点:随着模型能力越来越强,传统的医学评估基准和人工设计的测试案例可能正面临失效。“过去可用多项选择题来评估模型的能力,现在它们的得分已长期接近 100%,对于进一步追踪进展并无太大意义。”该论文共同第一作者、哈佛医学院研究员 Peter Brodeur 说。

研究人员强调,AI 或许能给出更准确的的文本建议、避免一些不必要的检查,以及减少漏诊和误诊,但并不意味着 AI 已经能够独立行医,特别是在生死悠关的急诊情景。并且,医生在处理影像、听诊、面部表情等方面具有不可替代的优势。研究团队还呼吁,需尽早开展前瞻性试验,以在真实的患者护理环境中评估相关技术。


图丨相关论文(来源:Science)

研究团队设计了不同方面的实验,来考察 AI 的临床推理能力。在第一组实验中,研究人员使用了 The New England Journal of Medicine(NEJM)自 20 世纪 50 年代开始作为“金牌标准”的临床病理会议病例。

在 2012 年至 2024 年期间的 143 个临床病例中,o1-preview 覆盖了 78.3% 的正确病因,其给出的首个诊断即是正确答案的比例占 52%。如果将“非常接近”的诊断也看作正确答案,该比例则进一步提升至 97.9%。

研究人员还将 GPT-4 与 o1-preview 进行了性能对比。结果显示,GPT-4 在同一批病例上的准确率是 72.9%,而 o1-preview 在 70 个重叠病例中,24.3% 的病例表现优于 GPT-4,仅 7.1% 的病例表现落后。

值得关注的是,在 136 例诊断检查选择测试中,o1-preview 选择检查项目的正确率是 87.5%。评审医生认为,AI 提出的检查建议中有 11% 具备临床价值,仅 1.5% 的建议无帮助。


(来源:Science)

在临床推理的书写质量评估中,差距进一步凸显。研究团队采用 20 个来自 NEJM Healer 课程的教学病例,该项能力采用经过验证的 R-IDEA 量表评分。

o1-preview 在 80 次评分中 78 次获得满分,与之对比的是,GPT-4 仅获得 47 次满分,而主治医师和住院医师得到满分的次数分别是 28 次和 16 次。在高风险误诊项识别上,o1-preview 的中位命中率是 92%。但需要了解的是,尽管其在数值上比人类更高,但与医生并未达到统计学显著差异的水平。


(来源:Science)

管理决策能力的测试结果同样值得关注。研究团队使用了五个基于真实病例开发的临床场景,并在每个场景下设置了一系列治疗决策问题。结果显示,o1-preview 的中位得分是 89%,GPT-4 为 42%,将 GPT-4 作为辅助工具的医生则获得 41% 的中位得分,而使用传统资源制定方案的医生得分仅 34%。

图丨 o1-preview、GPT-4 与临床医师在诊断推理能力方面的比较(来源:Science)



此外,为防止模型“刷题”,研究人员还使用了 6 个从未公开发布的标志性诊断病例进行实验。结果发现,尽管 o1-preview 获得了 97% 的中位得分,但与 GPT-4 的 92% 以及人类医师的 74% 相比,统计学的优势并不显著。这也从侧面上说明,大模型能力的提升并非在所有任务上都保持同一幅度。

在最接近真实临床环境实验中,研究人员以波士顿一家医院急诊室的 76 名患者作为研究对象,并设置了三个临床决策节点从早期分诊、接诊后以及决定收入病房。

标准电子病历涵盖了生命体征数据、人口统计信息以及对患者就诊原因的简要描述等信息。与此前研究不同,研究人员提供给模型的信息未进行预处理,而是直接来源于真实的电子病历。模型基于这些数据,生成相关诊断结果,并提出下一步治疗建议。

结果显示,在分诊阶段医生的正确率仅 50% 至 55%,而 AI 在 67% 的病例中做出了接近医生或更准确的诊断。研究人员发现,在需要快速决策且信息有限的紧急情况下,AI 的优势更加突出。当提供更多细节信息,人类专家的准确率提升至 70% 至 79%;而 OpenAI 的 o1 模型的诊断准确率则提升至近 82%。

值得一提的是,整个实验的过程采取的是严格的盲法设计,两位评审医生在判断答案来源是人还是 AI 时,猜对的比例分别仅 15.2% 和 3.1%,大多数情况下他们无法区分回答是来自 AI 还是人类。


(来源:Science)

需要了解的是,急诊室的核心决策通常是分诊、处理和即时管理,而非仅取决于诊断的正确性。因此,这项研究并不意味着 AI 将全面替代急诊医生。

此外,这项研究仍存在局限性,例如实验中仅测试了 AI 与人类在解读可通过文本传递的患者数据方面的表现,并未测试患者痛苦程度和外貌等信号方面的解读能力。与此同时,研究所覆盖的临床推理场景也有限,病例主要集中在内科和急诊领域,未来仍需进一步验证在外科、专科等更广泛领域的适用性。

今年 3 月,美国医学协会发布的一项研究显示 [2],现在已有近 20% 的美国医生正在使用 AI 作为辅助诊断的工具。在英国,16% 的医生每天使用 AI。据英国皇家内科医师学会今年 1 月发布的一项调查 [3],在临床决策中医生将 AI 作为辅助诊断是最常见的一种用途。

尽管 AI 在相关方面表现出色,但 AI 并不是万能的。不容忽视的是,一方面,AI 有可能带来出错和承担责任风险。另一方面,也需要警惕的是,医生可能在无意中接受了 AI 给出的建议,而非自己的独立思考。此外,AI 在诊断老年患者或非英语母语患者方面仍存在相关挑战。

因此,综合来看,当前 AI 的核心角色仍然是辅助医生决策而非独立诊疗,它可以帮助整合海量文献、指南与历史病例,在信息处理的速度与广度方面具有独特优势,有利于快速给出医生容易遗漏的重要信息或辅助判断。但是,在非结构化临床情境的感知、伦理权衡及医患共情等场景下,医生具有不可替代的作用。

因此,人机协同或是一种理想的模式:AI 提供精准、实时的数据支持,而医生则把握整体判断与人文温度。未来,更重要的或许不是比较人和 AI 谁的能力更强,而是谁先学会与机器高效协作。

参考资料:

1. 相关论文:https://www.science.org/doi/10.1126/science.adz4433

2.https://www.ama-assn.org/system/files/physician-ai-sentiment-report.pdf

3.https://www.rcp.ac.uk/policy-and-campaigns/policy-documents/snapshot-of-uk-physicians-artificial-intelligence-in-healthcare/

4.https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing

5.https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses

排版:刘雅坤

注:封面/首图由 AI 辅助生成

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特斯拉中国新品上架!这价格真的好良心

特斯拉中国新品上架!这价格真的好良心

XCiOS俱乐部
2026-05-04 16:47:23
17岁陈妤颉,接住了姐姐们的42秒62

17岁陈妤颉,接住了姐姐们的42秒62

林子说事
2026-05-04 15:05:19
痛惜!39岁上海科大教授王晨辉,为救7岁女儿永远留在五一

痛惜!39岁上海科大教授王晨辉,为救7岁女儿永远留在五一

冷月侃娱乐
2026-05-03 21:12:05
人老了确实没太大意思,我妈今年72岁,独自在家每天就做这两件事

人老了确实没太大意思,我妈今年72岁,独自在家每天就做这两件事

心理观察局
2026-05-04 11:19:11
5月车市“神仙打架”!这10款大六/七座SUV杀疯了,最高纯电950km

5月车市“神仙打架”!这10款大六/七座SUV杀疯了,最高纯电950km

侃故事的阿庆
2026-05-04 14:57:34
8死!丹东发生一起交通事故,当地网友爆料,是“一车摘草莓的”

8死!丹东发生一起交通事故,当地网友爆料,是“一车摘草莓的”

火山詩话
2026-05-04 18:55:32
五一降价潮下的车市哀歌:豪车裸价卖,谁在为燃油车唱挽歌?

五一降价潮下的车市哀歌:豪车裸价卖,谁在为燃油车唱挽歌?

娱乐圈的笔娱君
2026-05-04 14:33:07
这才是真正的东方美人,不接受反驳

这才是真正的东方美人,不接受反驳

情感大头说说
2026-05-04 21:57:45
王楚钦没想到,世乒赛国乒男团连败不到一天,竟让樊振东口碑大涨

王楚钦没想到,世乒赛国乒男团连败不到一天,竟让樊振东口碑大涨

八斗小先生
2026-05-04 17:18:35
巨好笑的神评来了!高手从不露脸,只在评论区大展身手

巨好笑的神评来了!高手从不露脸,只在评论区大展身手

兰妮搞笑分享
2026-05-04 19:07:21
哈腾一家近照,早已甩开周琦,8700万合同+总冠军,娇妻是超模

哈腾一家近照,早已甩开周琦,8700万合同+总冠军,娇妻是超模

科学发掘
2026-05-04 02:10:09
赠礼环节,赖清德送上8头精心挑选的公牛,这礼品把很多人看懵了

赠礼环节,赖清德送上8头精心挑选的公牛,这礼品把很多人看懵了

魔都姐姐杂谈
2026-05-04 15:07:00
允许一切,自在随心

允许一切,自在随心

青苹果sht
2026-05-04 05:03:52
范冰冰 大方公开 :18亿是真 ,没打算复合。

范冰冰 大方公开 :18亿是真 ,没打算复合。

In风尚
2026-05-02 06:04:17
中年危机啊!男子年近50失业,妻子哭诉其深耕行业20余年不敢创业

中年危机啊!男子年近50失业,妻子哭诉其深耕行业20余年不敢创业

火山詩话
2026-05-04 06:50:10
当场傻眼!日本高层抵华,中方未安排要员接见,高市早苗亲自求援

当场傻眼!日本高层抵华,中方未安排要员接见,高市早苗亲自求援

井普椿的独白
2026-05-04 15:10:50
李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

西楼知趣杂谈
2026-04-26 10:18:11
高市放话准备战斗,解放军深夜发出重磅信号,“大刀”已准备就绪

高市放话准备战斗,解放军深夜发出重磅信号,“大刀”已准备就绪

石江月
2026-05-02 19:11:37
国乒男团为何输给瑞典?林诗栋连输2局,刘国正一针见血指出问题

国乒男团为何输给瑞典?林诗栋连输2局,刘国正一针见血指出问题

体育大学僧
2026-05-03 23:23:59
5月4日俄乌最新:最糟糕的外交政策

5月4日俄乌最新:最糟糕的外交政策

西楼饮月
2026-05-04 19:14:32
2026-05-05 00:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16658文章数 514915关注度
往期回顾 全部

科技要闻

在中国市场搞「付费订阅」,豆包咋想的?

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

手机
本地
游戏
数码
艺术

手机要闻

小米17 Max本月发布 小米手机史上最大电池

本地新闻

用青花瓷的方式,打开西溪湿地

PS6新爆料太狠了:SSD性能翻倍 还能玩PS5游戏

数码要闻

华硕推出ZenScreen OLED MQ16FC便携显示器:16英寸,280欧元起

艺术要闻

火灾后第17年,TVCC电视文化中心正式启用

无障碍浏览 进入关怀版