网易首页 > 网易号 > 正文 申请入驻

AI看病比医生强?哈佛、斯坦福最新研究:o1-preview模型诊断准确率高达近80%

0
分享至

哈佛大学、斯坦福大学、微软等顶尖学府和机构的多名医学、AI专家日前联合开展了一项研究,对OpenAI旗下o1-preview模型在医学推理任务的表现进行了综合评估。

结果显示,o1-preview模型在多项任务中表现出卓越的能力,在鉴别诊断生成(判断“这是什么病”)、诊断临床推理(判断“这最可能是什么病”)和管理推理(判断“应该如何治疗”)方面,甚至达到了超人类水平。

目前,AI技术在一些医院已初步展开应用,覆盖了分诊导诊、预先问诊、病历生成等多种场景。

清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及告诉《每日经济新闻》记者,“AI在医疗领域的应用难度较大,但会逐步渗透到一些典型场景中。”

图片来源:论文《大型语言模型在医学推理任务中的超人表现》

o1-preview诊断准确率高达近80%

该研究通过五个实验对o1-preview模型进行了综合能力评估,包括鉴别诊断生成、诊断推理、分诊鉴别诊断、概率推理和管理推理能力。

这些实验由医学专家使用经过验证的心理测量方法进行评估,旨在将o1-preview的性能与以前的人类对照组和早期大型语言模型基准进行比较。结果表明,与医生、已有的大语言模型相比,o1-preview在鉴别诊断、诊断临床推理和管理推理的质量都有明显提高

在评估o1-preview鉴别诊断生成的能力时,研究人员使用了发表在国际顶级医学期刊《新英格兰医学杂志》(NEJM)上的临床病理会议(CPC)病例。结果表明,o1-preview在鉴别诊断中的准确率高达78.3%

图片来源:论文《大型语言模型在医学推理任务中的超人表现》

值得注意的是,o1-preview在88.6%的病例中得出了准确或非常接近准确的诊断结果,而GPT-4只有72.9%

图片来源:论文《大型语言模型在医学推理任务中的超人表现》

此外,在87.5%的病例中,o1-preview选择了恰当的检查项目;另在11%的病例中,两位医生均认为该模型所选检查方案是有效的;而在仅有的1.5%的病例中,其检查方案被两位医生认为是无效的。

图片来源:论文《大型语言模型在医学推理任务中的超人表现》

为了进一步评估o1-preview的临床推理能力,研究人员使用了NEJM Healer(一款在线工具,学习者可以通过与虚拟患者的互动来提升他们的临床推理和诊断技能)中的20个临床病例。

结果表明,o1-preview的表现明显优于GPT-4、主治医师和住院医师。在80例病例中,有78例获得了完美的R-IDEA评分。R-IDEA评分是一个10分制量表,用于评估临床推理能力。

图片来源:论文《大型语言模型在医学推理任务中的超人表现》

此外,研究人员还通过灰质管理案例和标志性诊断案例评估了o1-preview的管理和诊断推理能力。

在灰质管理案例中,o1-preview得分明显高于GPT-4、使用GPT-4的医生和使用传统资源的医生。在标志性诊断案例中,o1-preview的性能与GPT-4相当,但优于使用GPT-4或传统资源的医生。

研究仍有局限性

研究表明,大语言模型如o1-preview在辅助医生进行诊断决策方面具有巨大潜力。然而,该项研究也具有部分局限性。

首先,o1-preview有“啰嗦”倾向,而这种特性可能会让其在试验中取得更高分。

其次,目前的研究只反映了模型性能,但现实中离不开人机交互。人机交互对开发临床决策辅助工具至关重要,下一步应该确定大语言模型(如o1-preview)能否增强人机交互。人类与计算机之间的交互或许是不可预测的,表现良好的模型与人类交互中甚至可能出现能力退化的情况。

第三,研究只考察了临床推理的五个方面,但目前已知有几十个其它任务可能对实际的临床护理有更大影响。

第四,研究案例集中在内科,并不能代表所有医疗实践。此外,研究在设计上也未将诊断类型、患者个体差异以及就医地点的不同等因素纳入考量。

研究人员强调,医学领域诊断推理的基准正迅速接近饱和状态,因此亟需开发更具挑战性和贴近实际应用的评估手段。他们呼吁在真实的临床环境中测试这些技术,并为临床医生与人工智能的合作创新做好准备。

专家:AI将逐步渗透医疗典型场景

目前,AI技术在一些医院已初步展开应用,覆盖了分诊导诊、预先问诊和病历生成等多种场景。

美国耶鲁大学教授威廉·基西克(WiliamKissick)提出了著名的“医疗不可能三角”理论。这个理论指出,在既定的约束条件下,一个国家的医疗系统很难同时实现提高医疗服务质量、增加医疗服务可及性和降低医疗服务的价格。现实中的医疗困境,如“看病难、看病贵”以及不断出现的医患矛盾,正是传统医疗体系“医疗不可能三角”的具体表现。

图片来源:甲子光年智库

而医疗AI的兴起可能为解决这一难题提供新的答案。AI赋能下的医疗服务可以大规模接待患者,实现随时随地的无限供应,并且其水平会随着持续训练迅速提升,已经达到了具有10至15年临床经验医生的水准,且每月还在不断进步。

清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及在接受《每日经济新闻》记者采访时指出,相比自动化、智能设备等场景,AI在医疗场景的应用更为复杂

吴及提到,医疗本质上是人对人的服务,这一过程非常复杂,医学诊疗不仅包含理论和科学,还涉及大量经验,很多时候依赖专家的直觉。因此,“AI在医疗领域的应用难度较大,但会逐步渗透到一些典型场景中。”

据市场研究机构Global Market Insights的统计,2023年,医疗保健领域的AI市场规模价值为187亿美元,预计到2032年将达到3171亿美元,2024年至2032年的复合年增长率为37.1%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
评论区炸锅!顽皮狗光头女主新作官宣今年6月亮相

评论区炸锅!顽皮狗光头女主新作官宣今年6月亮相

游民星空
2026-05-03 16:39:25
英国政坛要大变天?

英国政坛要大变天?

观察者网
2026-05-03 21:45:03
禁赛25场反而帮到了76人!完成黑七,场均17+4,年薪5000万真不贵

禁赛25场反而帮到了76人!完成黑七,场均17+4,年薪5000万真不贵

你的篮球频道
2026-05-03 10:52:20
马刺VS森林狼赛程出炉,华子伤情更新,戈贝尔文班亚马英雄相惜

马刺VS森林狼赛程出炉,华子伤情更新,戈贝尔文班亚马英雄相惜

世界体育圈
2026-05-03 09:47:36
永远不会倒闭的四大行业,选对一辈子衣食无忧!

永远不会倒闭的四大行业,选对一辈子衣食无忧!

细说职场
2026-04-08 06:22:58
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
十年前的1080Ti,居然把RTX 5060给“反杀”了?

十年前的1080Ti,居然把RTX 5060给“反杀”了?

辉哥说动漫
2026-05-03 10:47:55
牛散葛卫东家族221亿元持仓曝光

牛散葛卫东家族221亿元持仓曝光

21世纪经济报道
2026-05-03 19:59:42
本赛季各项赛事已丢72球,为利物浦自1992/93赛季以来最多

本赛季各项赛事已丢72球,为利物浦自1992/93赛季以来最多

懂球帝
2026-05-04 02:51:16
美日慌了!日本军舰闯台海,中国解放军直接把军舰开到家门口!

美日慌了!日本军舰闯台海,中国解放军直接把军舰开到家门口!

林子说事
2026-05-04 02:25:41
微软力推32GB内存才够打游戏 被玩家骂到删帖!

微软力推32GB内存才够打游戏 被玩家骂到删帖!

游民星空
2026-05-03 12:14:25
上映多时票房只有零元,一个观众都没有,五一档最惨电影诞生了

上映多时票房只有零元,一个观众都没有,五一档最惨电影诞生了

影视高原说
2026-05-01 08:47:30
2026养老金上涨“暂停键”已按下?真相:钱已到账,信号已出

2026养老金上涨“暂停键”已按下?真相:钱已到账,信号已出

陈恧侃故事
2026-05-03 16:16:17
辛纳2-0横扫兹维列夫,首夺马德里大师赛冠军

辛纳2-0横扫兹维列夫,首夺马德里大师赛冠军

懂球帝
2026-05-04 00:33:17
央国企内最大的内耗:随时问责,从不奖励,做多错多,不做不错

央国企内最大的内耗:随时问责,从不奖励,做多错多,不做不错

职场资深秘书
2026-05-03 17:57:43
汤姆斯杯决赛前瞻:石宇奇PK小波波夫定乾坤!法国豪赌三单打

汤姆斯杯决赛前瞻:石宇奇PK小波波夫定乾坤!法国豪赌三单打

小兰看体育
2026-05-03 09:44:32
突然高烧39.7℃!上海七旬阿姨左手像充了气一样肿胀、剧痛!医生:72小时未干预死亡率接近100%

突然高烧39.7℃!上海七旬阿姨左手像充了气一样肿胀、剧痛!医生:72小时未干预死亡率接近100%

新民晚报
2026-05-02 18:26:43
Mac卖断货:苹果自己也没算到这笔账

Mac卖断货:苹果自己也没算到这笔账

碳基打工人
2026-05-01 15:02:53
李湘在长沙小区被路人偶遇,整个人瘦到像换了个人,忒美了

李湘在长沙小区被路人偶遇,整个人瘦到像换了个人,忒美了

手工制作阿歼
2026-05-03 19:24:56
阿莱格里:我们绝不能就这样把过去10个月的努力付诸东流

阿莱格里:我们绝不能就这样把过去10个月的努力付诸东流

懂球帝
2026-05-04 00:33:17
2026-05-04 04:08:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1558923文章数 2725709关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

房产
旅游
艺术
数码
公开课

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

旅游要闻

五一假期,全国最拥堵10个地方出炉:放眼望去一片黑压压的人头

艺术要闻

看!比利时画家图森特如何用油画定义女性优雅!

数码要闻

自费测评aigoGS11耳机:一篇可能得罪厂商,但必须发出来的真实体验

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版