网易首页 > 网易号 > 正文 申请入驻

哈佛Science重磅:AI急诊诊断准确率67%,超越资深主治!取代医生尚早

0
分享至



新智元报道

编辑:犀牛 所罗门

【新智元导读】哈佛研究登上Science:在76名真实急诊患者的双盲对决中,OpenAI o1诊断准确率67%碾压人类医生的50%,治疗方案得分89%对34%更是断崖式领先——但AI还看不见患者的脸色和痛苦,真正的变革不是「AI赢了」,而是急诊室正在走向「医生×患者×AI」三方共治的新范式。

刚刚,一颗重磅炸弹砸进了全球医疗圈。

哈佛大学医学院联合贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center),把一项令人坐立不安的研究结果发在了《Science》上。


在急诊室的真实分诊场景中,OpenAI的o1推理模型诊断准确率达到67%,而两位经验丰富的内科主治医生,一个55%,一个50%。

AI赢了。

不是在做题,不是在考试,而是在真刀真枪的急诊室里。


更扎心的数据还在后面——在制定治疗管理方案的测试中,o1拿了89%,而人类医生使用传统资源辅助后,中位数只有34%


差距不是一星半点,是两倍多。

这不是一个AI公司的自卖自夸,这是哈佛医学院牵头、顶级学术期刊背书、双盲评审确认的结果。

研究论文的通讯作者、哈佛医学院AI实验室负责人Arjun Manrai说了一句意味深长的话:「我们用几乎所有基准测试了这个AI模型,它超越了此前所有模型和医生基线。」


一个时代的裂缝,就这么被撕开了。

76个真实患者,零预处理,双盲对决

这项研究最硬核的地方在于:它不是拿精心整理的教科书病例去考AI,而是直接把急诊室里最原始、最混乱的电子病历扔给了机器。

研究团队从贝斯以色列急诊科随机选取了76名真实患者,在三个关键诊断节点进行对比——急诊分诊(患者刚进门)、急诊医生首次接诊、以及收治入院或进ICU。

每个节点,两位内科主治医生和OpenAI的o1、4o模型同时给出鉴别诊断,每方最多列5个可能诊断。

关键细节是:研究人员对数据零预处理

论文明确写道,AI模型接收到的信息和医生看到的电子病历完全一致——那些凌乱的、缺失的、充满噪声的真实临床数据。


然后,由另外两名主治医生进行「盲评」——他们不知道哪个诊断来自人类、哪个来自AI。

盲评结果显示,评审医生几乎完全无法分辨诊断来源:一位医生猜对AI/人类的准确率仅15.2%(83.6%的时候选了「分不清」),另一位更夸张,只有3.1%(94.4%「分不清」)。

换句话说,AI写的诊断,连资深医生都看不出是机器生成的。

在这样的严苛条件下,o1模型在急诊分诊阶段——信息最少、时间最紧、决策最关键的环节——给出了67.1%的准确率(包含精确诊断或非常接近的诊断)。

两位人类医生分别是55.3%和50.0%。


随着信息逐渐增多,所有人的表现都在提升:到入院阶段,o1准确率升至81.6%,医生分别为78.9%和69.7%。

但差距始终存在,而且在信息最匮乏的初始阶段差距最大。

这恰恰是最可怕的发现——急诊最要命的就是「前几分钟」,患者刚被推进来,信息碎片化,生死攸关,医生需要在极度不确定中做出判断。

而恰恰在这个环节,AI表现最突出。

急诊医生不干了:拿内科医生跟AI比,能说明什么?

论文发布后,一位名叫Kristen Panthagani的急诊科医生在社交媒体上直接开怼:这是一个「被过度炒作的有趣研究」。

她的核心质疑是:研究中和AI对比的是内科主治医生,不是急诊科医生。

「如果我们要拿AI和医生的临床能力做比较,至少应该拿同一个专科的医生来比。我不会惊讶于一个大语言模型能在神经外科的专科考试中打败皮肤科医生,但这并不能说明什么。」


她还指出了急诊医学的本质逻辑:「作为一名第一次看到患者的急诊医生,我的首要目标不是猜出最终诊断。我的首要目标是判断你是否有一种可能会杀死你的疾病。」

这个反驳有力量吗?

有。但也需要注意,研究论文本身已经承认了这一局限性,而且论文的核心论点从来不是「AI可以替代急诊医生」,而是「AI在有限信息下的推理能力已经达到值得临床试验的水平」。

急诊医生在现场做的远不止「猜病名」——他们要看患者的面色、听呼吸的声音、感受疼痛的程度、判断生命体征的微妙变化。

这些细微的非语言信号,有时候比任何检验指标都重要。

一个经验丰富的急诊医生走进病房,扫一眼患者,可能就已经做出了80%的判断——这种能力叫「临床直觉」(clinical gestalt),它来自数以万计的真实接诊经验,目前没有任何AI能够复制。

Manrai自己也承认,团队正在研究AI处理影像和其他非文本信号的能力,「看到了快速进步的结果」,但距离临床部署还有很长的路。

辛顿的「预言」教训:放射科医生没下岗,反而更忙了

说到AI取代医生这个话题,不得不提一个经典的「打脸」案例。

2016年,AI教父、诺贝尔奖得主Geoffrey Hinton说了一句震动医学界的话:人们现在就应该停止培训放射科医生了。深度学习在五年内就会比放射科医生做得更好,这完全是显而易见的。


这句话当时吓退了不少准备选择放射科的医学生。整个2010年代后期,媒体上铺天盖地都是「放射科即将消亡」的文章。

十年过去了。

梅奥诊所的放射科医生团队从2016年至今增长了55%,达到400人。美国放射学会预测,未来30年放射科医生供给还将增长26%。

全球最大的放射科医生短缺正在发生——不是因为AI抢走了工作,而是因为AI让影像检查变得更便捷,反而催生了更多需求。

Hinton本人后来也承认自己「说得太宽泛了」。

他修正了预测:未来的医学影像解读将由「AI和放射科医生的组合」来完成,AI会让放射科医生「效率大大提高,同时提升准确率」。

这个故事里有一个深刻的经济学原理——杰文斯悖论:当一项技术让某种资源的使用更高效时,这种资源的总需求反而可能大幅增加。

影像诊断变便宜、变快了,于是医生开了更多检查,放射科医生反而更忙了。

哈佛这项新研究的作者们显然吸取了辛顿的教训。

论文通讯作者Manrai在新闻发布会上明确说:「我们的发现并不意味着AI取代医生,尽管有些卖AI医疗产品的公司可能会这么说。」

共同通讯作者、贝斯以色列AI项目负责人Adam Rodman则更直白:「目前AI诊断没有任何正式的问责框架。患者想要的是人来引导他们度过生死攸关的决策,引导他们面对艰难的治疗选择。」

不是「AI赢了」

而是医疗决策权在重组

据美国医学会(AMA)2026年调查,超过80%的美国医生已经在职业中使用AI——是2023年的两倍。

17%的医生使用AI进行「辅助诊断」。

2025年的一项Elsevier研究发现,20%的临床医生已经在向大语言模型寻求「第二意见」。

哈佛这项研究证明,AI在信息最匮乏、决策最紧迫的急诊场景中,推理能力已经超过了人类医生。

三个数据叠加在一起,指向一个清晰的趋势:医疗决策的权力结构正在发生根本性的重组。

过去的急诊室模式是:患者进来→医生判断→做出决策。

未来的模式可能变成:患者进来→AI快速扫描电子病历给出初步判断→医生结合临床观察和AI建议做出决策→患者参与讨论治疗方案。

研究作者Rodman预测,未来会出现三种分化:一部分任务人类持续做得更好,一部分任务AI持续做得更好,还有一部分任务需要人机协作增强。

这就是研究者所说的「医生-患者-AI」三方协作模式。

听起来很像自动驾驶。

L2级别——AI辅助人类决策;L3级别——AI主导、人类监督;L4级别——特定场景全自动。

目前AI在医疗领域大概处在L2到L3之间的阶段:它已经能在「文字世界」里给出超越人类的判断,但在真实的、多模态的临床场景中,它还需要人类的眼睛、耳朵和直觉来补位。

AI误诊了,谁负责?

在所有讨论中,有一个房间里的大象无人敢正面触碰:AI出错了,谁来承担责任?

Rodman在接受《卫报》采访时坦言:目前AI诊断没有任何正式的问责框架。

如果一名医生误诊了,有成熟的医疗纠纷处理体系——患者可以投诉、可以诉讼、医生面临执照风险。

但如果AI给出了错误建议,医生采纳了,患者受到了伤害——是算医生的责任?AI公司的责任?医院的责任?还是三方共担?

更复杂的场景是:如果AI给出了正确建议,但医生否决了AI的判断、坚持自己的错误诊断,导致患者延误治疗——此时医生要不要为「忽视A建议」承担额外责任?

还有一个更隐蔽的风险:过度依赖

当医生习惯了AI给出的高准确率判断,他们的独立思考能力会不会退化?就像GPS让很多人丧失了自主导航能力一样,AI辅助诊断是否会让医生的临床推理「肌肉」逐渐萎缩?

这些问题,目前没有任何国家有清晰的答案。

参考资料:

https://www.science.org/doi/10.1126/science.adz4433

https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study

风险提示及免责条款:市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资责任自负。


点个在看支持一下❤️

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度新战机刚首飞,印军元帅:歼20不可怕,巴基斯坦都不愿意采购

印度新战机刚首飞,印军元帅:歼20不可怕,巴基斯坦都不愿意采购

别吵吵
2026-05-04 08:53:43
假日惊雷!浏阳重大爆炸冲击波袭来 5月6日A股这些板块迎剧烈分化

假日惊雷!浏阳重大爆炸冲击波袭来 5月6日A股这些板块迎剧烈分化

乡野小珥
2026-05-05 19:44:13
以革命的名义杀人,对法国大革命的重新审视与批判

以革命的名义杀人,对法国大革命的重新审视与批判

壹家言
2026-04-28 20:27:12
土媒:费内巴切计划签下卢卡库,将为其开出超1500万欧元年薪

土媒:费内巴切计划签下卢卡库,将为其开出超1500万欧元年薪

懂球帝
2026-05-05 15:15:05
我请假参加哥哥婚礼,却被新来上司裁员,谁知准嫂子就是我上司

我请假参加哥哥婚礼,却被新来上司裁员,谁知准嫂子就是我上司

小月文史
2025-04-01 18:14:07
又一国家要走委内瑞拉老路?巴西亲美势力反扑,卢拉陷入困境

又一国家要走委内瑞拉老路?巴西亲美势力反扑,卢拉陷入困境

民间胡扯老哥
2026-05-06 01:38:37
香港演员施明去世,终年74岁,曾出演《倚天屠龙记》紫衫龙王,精通武术曾做史泰龙保镖

香港演员施明去世,终年74岁,曾出演《倚天屠龙记》紫衫龙王,精通武术曾做史泰龙保镖

大象新闻
2026-03-31 14:49:05
山东多地强对流天气即将到达 风力最大11级

山东多地强对流天气即将到达 风力最大11级

闪电新闻
2026-05-05 20:31:36
兰州市政府致信祝贺吴宜泽勇夺2026斯诺克世锦赛冠军

兰州市政府致信祝贺吴宜泽勇夺2026斯诺克世锦赛冠军

环球网资讯
2026-05-05 17:54:57
刀刀切中痛点!Model Y迎最猛改款

刀刀切中痛点!Model Y迎最猛改款

刘哥谈体育
2026-05-05 17:11:36
越来越猖狂的早餐店“铝包子”,我们应提高警惕,该如何辨别呢?

越来越猖狂的早餐店“铝包子”,我们应提高警惕,该如何辨别呢?

心中的麦田
2026-05-04 18:47:55
刚返台,赖清德收到两大噩耗!蓝白封杀关键人选,郑丽文定下调子

刚返台,赖清德收到两大噩耗!蓝白封杀关键人选,郑丽文定下调子

爱意随风起呀
2026-05-06 01:52:30
“典型的职校女孩行为”,脱袜踩讲台跳舞,就说明了一切

“典型的职校女孩行为”,脱袜踩讲台跳舞,就说明了一切

蝴蝶花雨话教育
2026-03-30 13:24:14
前港姐冠军遭骗2.8亿积蓄后崩溃自闭,近况曝光

前港姐冠军遭骗2.8亿积蓄后崩溃自闭,近况曝光

打小我就醜
2026-05-04 16:35:46
在泰国电影院与中国电影院看电影有什么不同

在泰国电影院与中国电影院看电影有什么不同

马克在泰国
2022-09-21 14:01:01
历史上令人无比头痛的匈奴,如今演变成了哪个民族?令人唏嘘不已

历史上令人无比头痛的匈奴,如今演变成了哪个民族?令人唏嘘不已

文史达观
2025-05-01 22:50:28
如果不是外媒披露,可能国人不敢相信,中国已经强大到了如此地步

如果不是外媒披露,可能国人不敢相信,中国已经强大到了如此地步

春序娱乐
2026-05-05 03:21:02
湖人不要,尼克斯不要!31岁1亿王牌再逆袭:轰21+10扎心马刺

湖人不要,尼克斯不要!31岁1亿王牌再逆袭:轰21+10扎心马刺

李喜林篮球绝杀
2026-05-05 13:27:57
女子抢方向盘致车祸:正脸曝光很漂亮,人民法治定性,闺蜜更可恶

女子抢方向盘致车祸:正脸曝光很漂亮,人民法治定性,闺蜜更可恶

奇葩游戏酱
2026-05-05 21:03:38
历史老师跌入“无人区”:某高中20人教研组,近一半无学生可教

历史老师跌入“无人区”:某高中20人教研组,近一半无学生可教

听心堂
2026-03-31 15:52:04
2026-05-06 04:28:49
图解金融 incentive-icons
图解金融
图解金融,你的金融视界
5475文章数 26716关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
手机
游戏
数码
公开课

艺术要闻

AI应用“豆包”要收费,第一批“韭菜”是谁?

手机要闻

小米18再曝光,小折叠手机产品线已暂停

全新类魂3A美女角色盔甲太性感!外媒锐评像劣质手游

数码要闻

亚马逊押注“诺奖材料”除湿技术 可大幅削减建筑能耗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版