网易首页 > 网易号 > 正文 申请入驻

Hinton梦想的AI医生要来了!斯坦福哈佛实测:o1以78%正确率超人类

0
分享至

新智元报道

编辑:犀牛

【新智元导读】AI正在颠覆医疗领域!哈佛、斯坦福等顶尖学术医疗中心的研究表明,OpenAI的o1-preview在诊断推理任务中全面超越人类医生。从新英格兰医学杂志的临床病例到真实急诊室场景,o1不仅精准识别疾病,还在关键时刻提供可靠的第二意见。

AI医生的时代正在到来!

哈佛、斯坦福等学术医疗中心的医生发布重磅论文,测试了OpenAI o1-preview在医疗推理和诊断任务中的表现。

结果表明,在所有的实验中,无论是临床案例还是急诊室的第二意见,o1-preview的表现都全面超出人类医生!

论文地址:https://arxiv.org/pdf/2412.10849

文章中,研究团队全面评估了o1-preview与数百名医生表现的对比。

此外,他们还在波士顿一所大型学术三级急诊中心随机抽取患者,采用盲评方式,把大模型给出的「第二诊疗意见」与专家医生的诊断进行对比。

实验结果惊人

团队首先使用《新英格兰医学杂志》(NEJM)发表的临床病例讨论(CPCs)来评估o1-preview。

两位医生对o1-preview给出的诊断质量评价高度一致——在143个病例中有120例观点相同(84%)。

o1-preview在近八成病例(78.3%)中都把正确诊断列进了它的「待选清单」(图 1)。

如果只看它给出的第一个诊断,有52%一击即中。

另外,无论是在预训练数据截止点之前还是之后,模型的表现没有明显差异:截止点前准确率为79.8%,截止点后为73.5%。

在之前的用GPT-4评估的70个病例中,o1-preview在88.6%的病例中给出了完全正确或非常接近的诊断,相比之下GPT-4为72.9%(图2)。

接下来,研究团队评估了o1-preview在NEJM CPC病例中选择下一步诊断检查的能力。

两位医生对o1-preview提出的检查方案评分。在87.5%的病例中,o1-preview选择了正确的检查;另外11%的病例中,方案被两位医生视为「有帮助」;仅1.5%的病例中被认为「无帮助」(图3)。

推理表现

研究团队选取了NEJM Healer课程中的20个临床病例,NEJM Healer病例是一种面向临床推理评估的虚拟患者就诊场景。

在经过修订的IDEA(R-IDEA,一套验证过的10分量表,用来评估临床推理记录的四个核心维度)评分上,两位评审医生的意见高度一致——在80份记录里有79份达成一致。

在80份记录中,o1-preview有78份拿到了R-IDEA满分。它的成绩显著领先于GPT-4 (47/80,p < 0.0001)、主治医生(28/80,p < 0.0001)和住院医师(16/80,p < 0.0001)。(见图4A)

团队还统计了o1-preview在初始分诊阶段覆盖「绝不能漏诊」病因的比例(图4B)。该模型的中位覆盖率为0.92,但与GPT-4、主治医生或住院医生相比无显著差异。

此外,在灰色事项管理案例、标志性诊断案例、诊断概率推理案例中,o1-preview都比GPT-4、使用GPT-4的医生及使用常规资源的医生表现要好。(图5A/B、图6)

急诊案例

研究团队比较了o1、GPT-4o和两位主治医师在诊断疾病方面的能力。

他们选取了贝斯以色列女执事医疗中心的79个病例,并将诊断过程分为三个关键节点:急诊室初步分诊、急诊室医生诊断,以及转入普通病房或重症监护室时的诊断。

总的来说,o1的表现比4o和两位专家医生都要好。

这个评估是由另外两位医生进行的,他们事先都不知道自己评估的诊断结果是来自人类医生还是AI。

这种「盲评」很成功:一位评估医生猜对诊断来源(AI还是人类)的准确率只有 14.8%(83.5%的情况表示「无法判断」),另一位医生则只有 2.7%(84.6%的情况表示「无法判断」)。

在每一个诊断节点上,o1的表现要么优于两位医生和4o,要么与他们持平。

尤其是在第一个诊断节点——急诊室初步分诊时,表现差异最为明显。在这个阶段,关于患者的信息最少,但做出正确诊断的紧迫性却最高。

o1在初步分诊中识别出完全正确或非常接近的诊断的比例为65.8%,急诊医生阶段为69.6%,ICU阶段为79.7%,均超过两位医生(医生1:54.4%、60.8%、75.9%;医生2:48.1%、50.6%、68.4%)。

o1表现超越医生

总的来说,o1在所有实验中都展现了超越人类的表现。尤其是在急诊科使用真实且非结构化的临床数据进行真实病例诊断时,o1的表现超越了专业医生。

随着可用信息的增加,o1、4o和人类医生的诊断能力均有所提升。

然而,两个模型的表现始终优于人类,尤其是在信息量较少的情况下,o1的优势最为明显。

对于该论文的研究成果,沃顿教授Ethan Mollick认为,医生应该使用AI来获取诊断的「第二意见」。

他们可以选择是否采纳AI的建议,但不使用AI「越来越像自愿放弃一种能帮助患者的重要工具。」

本文作者之一,医学博士Liam McCoy也表示称,AI尤其适合执行鉴别诊断的任务。这类任务富有创造性,且高度依赖联想。

不像敲定最终诊断结果那样,需要依赖「世界模型」或无懈可击的推理能力。

o1-preview的突破表明,AI不仅能辅助医生,还可能重塑医疗诊断流程,未来或将广泛应用于临床实践。

正如沃顿教授Ethan Mollick所言,拒绝AI辅助如同「放弃重要工具」。但这场变革的核心,或许不在于谁更优秀,而在于如何让人类医生的经验与AI的精准形成合力。

参考资料:

https://x.com/emollick/status/1925362565946786206

https://arxiv.org/pdf/2412.10849

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

LULU生活家
2026-03-26 14:50:15
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

洲洲影视娱评
2026-03-25 13:16:24
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

180视角
2026-03-25 10:17:11
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

小樾说历史
2026-03-26 11:30:53
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
2026-03-26 16:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
家居
教育
亲子
艺术

转头就晕的耳石症,能开车上班吗?

家居要闻

傍海而居 静观蝴蝶海

教育要闻

2026湖北高职单招工作启动

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版