网易首页 > 网易号 > 正文 申请入驻

性能登顶!GPT-o3碾压人类医生,OpenAI重新定义AI医疗行业新标准!

0
分享至

人类医生要被AI拉爆了?

5月12日,OpenAI联手全球60个国家,262名执业医生,打造出专为医疗大模型设计的AI医疗大模型标准——HealthBench

根据测试,OpenAI最强推理模型GPT-o3,直接力压Grok 3Gemini 2.5 Pro,比人类医生的回答率高出4倍。

与此前过时的数据集不同,该基准包含了5000个基于现实场景的健康对话,并且获得了医生评分反馈。

也就是说,该评分体系能够衡量AI的可信度和临床价值,而不是AI做题的能力和回答流畅度。

当该评价基准如同ImageNet推广开后,一个AI医疗新时代,真的来了。

定义行业新标准

作为全球AI领头羊,OpenAI来定义AI医疗新基准了。

一个好的AI测试集对于技术发展非常重要,例如ImageNet挑战赛直接推动了深度学习革命

但当前,以各种医学问答、执业医生考试为主的医学测试集过于僵化,不能代表医生真实的临床工作,导致AI应用受限。

于是,OpenAI团队基于以下原则打造出HealthBench:

有意义(Meaningful):即能够突破考试问题的局限,捕捉复杂的真实场景和工作流程,反映了患者和临床医生与模型交互的方式

值得信赖(Trustworthy)评分能够真实体现医生判断,反映医护人员的行业标准和优先事项,为改进 AI 模型提供严格的基础。

未饱和(Unsaturated)基准测试将推动行业进步。现有模型必须展现巨大的改进空间,持续激励开发者持续改进AI性能

HealthBench耗时一年,由来自60个国家/地区262位执业医生共同打造,支持包括英语、普通话在内的49种语言,以及26个医学专业。

它们被创建为逼真且类似于大型语言模型的实际使用:它们是多轮次和多语言的,捕获一系列外行和医疗保健提供者角色,跨越一系列医学专业和上下文,并根据难度进行选择。

此外,HealthBench 对话分为七个主题,每个主题都包含相关示例,每个示例都有特定的评分量规标准。

与以前的狭窄基准不同,HealthBench涵盖了多个维度,力求全面衡量模型性能。它们主要包括“场景”和“轴”两类。

场景即7个真实世界的主题,包括全球健康、紧急转诊等,轴则着重测试模式的行为维度,包括准确性、遵循指示、沟通等。

模型性能

根据测试,GPT-o3 的表现优于其他AI,得分明显高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。(截至2025年3月)。

值得一提的是,OpenAI 的前沿模型在 HealthBench 上提高了28%

与 GPT-4o(2024 年 8 月)和 GPT-3.5 Turbo 之间的相比,在模型安全性和性能上实现飞跃。

成本与准确性

除开性能外,OpenAI还根据模型大小和测试时计算指标,研究了成本与性能的关系。

结果发现,小模型在最近几个月,有了显着改进。大模型也成本与性能也遵循摩尔定律。

例如,2025年4月发布的GPT-4.1 nano 的性能,优于 2024 年 8 月的 GPT-4o 模型,并且成本仅有其1/25。

当下OpenAI的最强推理模型GPT-o3之间的差异,显著打羽GPT-4o和GPT-3.5Turbo之间的差异。

由于行业的特殊性,医疗AI对于回答的错误容忍率非常低。

因此,OpenAI在HealthBench上评估了各模型在k个样本下的最差表现(worst-of-n performance)。结果发现,o3模型在16个样本时的最差分数是GPT-4o的两倍。

战人类医生

在真实对话的数据集测评中,AI有可能战胜人类医生吗?

OpenAI对此也非常好奇,找来了262名医生参与测试,以比较 AI 模型性能与专家临床判断。

OpenAI把参与测试的262位人类医生分为两组,并和AI回答进行比较。

1、第一组医生可以使用互联网进行回复,但不能使用AI工具

2、第二组医生能够使用OpenAI的模型,医生能够对生成的答案进行改编,以及编写新的答案

结果发现随着时间的推移,AI模型性能进化迅速,人类医生也甘拜下风。

2024年9月,OpenAI测试了GPT-o1-preview和GPT-4o。

结果发现,AI辅助的医生答案>AI的参考回答>没有AI辅助的医生答案。

也就是说人类医生对进行编辑后,明显提升了AI的回答质量。

而到了2025年4月测试GPT-o3 和 GPT-4.1 ,情况有了巨大改变。

AI辅助的医生答案=AI的参考回答>>没有AI辅助的医生答案。

这表明AI不仅比人类医生强,还比使用相同AI工具的人类医生强,人类甚至限制了AI的回答!

OpenAIAGI野心

HealthBench基准数据集已在GitHub全面上传。

除本体外,OpenAI还引入了HealthBench 的两种变体——HealthBenchConsensusHealthBenchHard

HealthBench Consensus的回答经过绝大多数医生验证,几乎保证了答案的准确度。HealthBench Hard则优选其中 1,000 高难度问题,即使是最好的模型在该标准中得分率也仅为32%,也是AI可以努力的重要方向。

可以说,HealthBench重新定义了AI在医疗领域的评估方式——转向了以大模型为基础的现实世界评估,这也是打造AGI的重要工具。

而随着时间的推移,大型语言模型已经有了显著的改进,并且在编写基准测试的答案已经优于人类专家。

不止于此,当前表现最优的AI仍然有很大的改进空间。

而该评价体系的发布,有望帮助整个行业和学界打造出更好的医疗模型,改善人类健康。

—The End—

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不落下风!2026 高考潮汕地区 5 人成绩被屏蔽!比肩深圳,力压广佛!

不落下风!2026 高考潮汕地区 5 人成绩被屏蔽!比肩深圳,力压广佛!

华庭讲美食
2026-06-25 14:56:35
伊朗没有赢下一场全面战争,却替中国废掉了美国一张最狠的牌

伊朗没有赢下一场全面战争,却替中国废掉了美国一张最狠的牌

贱议你读史
2026-06-24 19:35:03
上海一小区业委会选举,得票最高业主因打过12345被一票否决,居委会:打12345是部分原因,其在联审中综合评定后落选;12345热线回应

上海一小区业委会选举,得票最高业主因打过12345被一票否决,居委会:打12345是部分原因,其在联审中综合评定后落选;12345热线回应

大象新闻
2026-06-25 18:05:03
发现了没,凡是家里添了孙子,大部分爷爷奶奶都会发生2个变化

发现了没,凡是家里添了孙子,大部分爷爷奶奶都会发生2个变化

大熊欢乐坊
2026-06-21 12:28:13
女儿高考671分父母办答谢宴,摆宴席时班主任急电:别办了出事了!

女儿高考671分父母办答谢宴,摆宴席时班主任急电:别办了出事了!

诡谲怪谈
2025-07-08 23:59:11
就是这张图,刘亦菲让内娱从水光变“哑光”,全身涂粉时代开启

就是这张图,刘亦菲让内娱从水光变“哑光”,全身涂粉时代开启

书咚咚
2026-06-25 18:46:30
温州太牛了!温中浙江前十!知临数学满分!

温州太牛了!温中浙江前十!知临数学满分!

温晓生
2026-06-26 01:49:54
很多人已经在崩k的边缘了!

很多人已经在崩k的边缘了!

黯泉
2026-06-21 17:42:51
盖茨第三段婚外情对象曝光,系哈佛医学博士及美医疗创业者,曾获评“最值得关注女性”

盖茨第三段婚外情对象曝光,系哈佛医学博士及美医疗创业者,曾获评“最值得关注女性”

红星新闻
2026-06-25 12:14:14
俄罗斯频繁喊话乌克兰和谈

俄罗斯频繁喊话乌克兰和谈

原某报记者
2026-06-25 11:05:40
为何时代精英总被原宪之问叩击良知?

为何时代精英总被原宪之问叩击良知?

烽火瞭望者
2026-06-25 06:28:02
奉劝大家:一旦公司给出降薪留下、拿赔偿走人两个选择的时候,一定不要选择降薪后留下来。

奉劝大家:一旦公司给出降薪留下、拿赔偿走人两个选择的时候,一定不要选择降薪后留下来。

纯洁的微笑
2026-06-22 12:57:51
用豆包专业版干活后,我承认之前是我说话太大声了。。

用豆包专业版干活后,我承认之前是我说话太大声了。。

差评XPIN
2026-06-25 03:05:53
俄罗斯和伊朗血泪教训,提醒中国,想收台,必先扫平西太美军基地

俄罗斯和伊朗血泪教训,提醒中国,想收台,必先扫平西太美军基地

何轐说
2026-06-24 21:21:59
深圳人的早餐火了!网友:已经吃了大半个月......

深圳人的早餐火了!网友:已经吃了大半个月......

深圳晚报
2026-06-22 13:22:28
内马尔妻子产后颜值仍高,被赞气质胜C罗女友

内马尔妻子产后颜值仍高,被赞气质胜C罗女友

铁锤妹妹是只猫
2026-06-17 11:32:44
世界杯疯狂:亚洲杯冠亚军全部出局,亚足联颜面尽失

世界杯疯狂:亚洲杯冠亚军全部出局,亚足联颜面尽失

民哥台球解说
2026-06-25 06:57:51
总分708分!辽宁省实验中学孙茗想:心态稳、节奏准、生活有热爱

总分708分!辽宁省实验中学孙茗想:心态稳、节奏准、生活有热爱

王姐懒人家常菜
2026-06-25 01:19:48
农村一种野草,形同韭菜,如今已被列为“国宝”,农民请保护好它

农村一种野草,形同韭菜,如今已被列为“国宝”,农民请保护好它

邹小蘑菇
2026-06-24 15:15:05
一个家庭最大的悲哀,就是全家没一个能上得了台面的男人

一个家庭最大的悲哀,就是全家没一个能上得了台面的男人

心理观察局
2026-06-18 07:00:08
2026-06-26 03:28:49
智药局 incentive-icons
智药局
我们更懂药物创新
1214文章数 221关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

艺术
教育
本地
数码
公开课

艺术要闻

税务局大楼能是这样?5个立方体扭40度,高171米!

教育要闻

每晚带背真的给我学上瘾了!!!不知道暑期背什么的新传人请看这里!!!

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

数码要闻

IDC报告:2026Q1全球手持智能相机市场出货量同比增长33%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版