网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

性能登顶！GPT-o3碾压人类医生，OpenAI重新定义AI医疗行业新标准！

2025-05-14 19:26:49　来源: 智药局

四川举报

0

分享至

人类医生要被AI拉爆了？

5月12日，OpenAI联手全球60个国家，262名执业医生，打造出专为医疗大模型设计的AI医疗大模型标准——HealthBench。

根据测试，OpenAI最强推理模型GPT-o3，直接力压Grok 3和Gemini 2.5 Pro，比人类医生的回答率高出4倍。

与此前过时的数据集不同，该基准包含了5000个基于现实场景的健康对话，并且获得了医生评分反馈。

也就是说，该评分体系能够衡量AI的可信度和临床价值，而不是AI做题的能力和回答流畅度。

当该评价基准如同ImageNet推广开后，一个AI医疗新时代，真的来了。

定义行业新标准

作为全球AI领头羊，OpenAI来定义AI医疗新基准了。

一个好的AI测试集对于技术发展非常重要，例如ImageNet挑战赛直接推动了深度学习革命。

但当前，以各种医学问答、执业医生考试为主的医学测试集过于僵化，不能代表医生真实的临床工作，导致AI应用受限。

于是，OpenAI团队基于以下原则打造出HealthBench：

有意义（Meaningful）：即能够突破考试问题的局限，捕捉复杂的真实场景和工作流程，反映了患者和临床医生与模型交互的方式

值得信赖（Trustworthy）：评分能够真实体现医生判断，反映医护人员的行业标准和优先事项，为改进 AI 模型提供严格的基础。

未饱和（Unsaturated）：基准测试将推动行业进步。现有模型必须展现巨大的改进空间，持续激励开发者持续改进AI性能

HealthBench耗时一年，由来自60个国家/地区的262位执业医生共同打造，支持包括英语、普通话在内的49种语言，以及26个医学专业。

它们被创建为逼真且类似于大型语言模型的实际使用：它们是多轮次和多语言的，捕获一系列外行和医疗保健提供者角色，跨越一系列医学专业和上下文，并根据难度进行选择。

此外，HealthBench 对话分为七个主题，每个主题都包含相关示例，每个示例都有特定的评分量规标准。

与以前的狭窄基准不同，HealthBench涵盖了多个维度，力求全面衡量模型性能。它们主要包括“场景”和“轴”两类。

场景即7个真实世界的主题，包括全球健康、紧急转诊等，轴则着重测试模式的行为维度，包括准确性、遵循指示、沟通等。

模型性能

根据测试，GPT-o3 的表现优于其他AI，得分明显高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。（截至2025年3月）。

值得一提的是，OpenAI 的前沿模型在 HealthBench 上提高了28%。

与 GPT-4o（2024 年 8 月）和 GPT-3.5 Turbo 之间的相比，在模型安全性和性能上实现飞跃。

成本与准确性

除开性能外，OpenAI还根据模型大小和测试时计算指标，研究了成本与性能的关系。

结果发现，小模型在最近几个月，有了显着改进。大模型也成本与性能也遵循摩尔定律。

例如，2025年4月发布的GPT-4.1 nano 的性能，优于 2024 年 8 月的 GPT-4o 模型，并且成本仅有其1/25。

当下OpenAI的最强推理模型GPT-o3之间的差异，显著打羽GPT-4o和GPT-3.5Turbo之间的差异。

由于行业的特殊性，医疗AI对于回答的错误容忍率非常低。

因此，OpenAI在HealthBench上评估了各模型在k个样本下的最差表现（worst-of-n performance）。结果发现，o3模型在16个样本时的最差分数是GPT-4o的两倍。

挑战人类医生

在真实对话的数据集测评中，AI有可能战胜人类医生吗？

OpenAI对此也非常好奇，找来了262名医生参与测试，以比较 AI 模型性能与专家临床判断。

OpenAI把参与测试的262位人类医生分为两组，并和AI回答进行比较。

1、第一组医生可以使用互联网进行回复，但不能使用AI工具

2、第二组医生能够使用OpenAI的模型，医生能够对生成的答案进行改编，以及编写新的答案

结果发现随着时间的推移，AI模型性能进化迅速，人类医生也甘拜下风。

2024年9月，OpenAI测试了GPT-o1-preview和GPT-4o。

结果发现，AI辅助的医生答案>AI的参考回答>没有AI辅助的医生答案。

也就是说人类医生对进行编辑后，明显提升了AI的回答质量。

而到了2025年4月测试GPT-o3 和 GPT-4.1 ，情况有了巨大改变。

AI辅助的医生答案=AI的参考回答>>没有AI辅助的医生答案。

这表明AI不仅比人类医生强，还比使用相同AI工具的人类医生强，人类甚至限制了AI的回答！

OpenAI的AGI野心

HealthBench基准数据集已在GitHub全面上传。

除本体外，OpenAI还引入了HealthBench 的两种变体——HealthBenchConsensus和HealthBenchHard。

HealthBench Consensus的回答经过绝大多数医生验证，几乎保证了答案的准确度。HealthBench Hard则优选其中 1,000 高难度问题，即使是最好的模型在该标准中得分率也仅为32%，也是AI可以努力的重要方向。

可以说，HealthBench重新定义了AI在医疗领域的评估方式——转向了以大模型为基础的现实世界评估，这也是打造AGI的重要工具。

而随着时间的推移，大型语言模型已经有了显著的改进，并且在编写基准测试的答案已经优于人类专家。

不止于此，当前表现最优的AI仍然有很大的改进空间。

而该评价体系的发布，有望帮助整个行业和学界打造出更好的医疗模型，改善人类健康。

—The End—

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

投资600万元的加油站，建成即被“责令限期拆除”？河南淮滨县发布情况通报

环球网资讯 2026-06-25 14:21:30
7694 跟贴 7694
男生查分看到屏幕显示不敢信，妈妈也蒙了，爸爸直呼“怎么可能”

星视频 2026-06-25 11:45:00
118 跟贴 118

佛得角震撼世界足坛佛得角足协给中国男足支招

上游新闻 2026-06-25 20:50:01
30 跟贴 30

微信有77万条未读！多名老人被微信群“轰炸”，家属称投诉无门，律师解读

潇湘晨报 2026-06-25 21:31:17
861 跟贴 861
俄境内唯一氦气厂不到一年再遭乌军打击

三湘都市报 2026-06-25 14:39:10
49 跟贴 49

瑞士2-1加拿大两队携手出线

财联社 2026-06-25 05:12:50
222 跟贴 222

刚买的奔驰，只能停在车库“吃灰”，类似情况的车主还不止1个人……浙江这家老牌奔驰4S店怎么了？

都市快报橙柿互动 2026-06-25 09:50:28
2628 跟贴 2628
男子网购银条，行情一跌就7天无理由退货，商家：已反复退货3次，银价涨了他就要留，银价跌了他就要退

扬子晚报 2026-06-25 07:14:44
2509 跟贴 2509

有人33元时买白银如今已“腰斩”：以后不买了

每日经济新闻 2026-06-26 00:32:07
15 跟贴 15
绝代双骄为何遭遇“绝代双标”？

新民晚报 2026-06-25 10:18:52
598 跟贴 598
莫氏鸡煲流量退去以前一天卖200多只现在不到20只

极目新闻 2026-06-25 13:38:50
734 跟贴 734
从首战赢球到听天由命，高开低走的韩国队终要告别孙兴慜

澎湃新闻 2026-06-25 15:06:28
128 跟贴 128
知名纯果汁品牌300ml仅含果汁3克不少广东人被坑

上观新闻 2026-06-25 11:26:32
68 跟贴 68
网友反映重庆云阳有廉租房大量转租，住建部门回应：情况不实

极目新闻 2026-06-25 16:47:07
55 跟贴 55
商务部：美方做法严重损害中企合法权益

环球网资讯 2026-06-25 15:41:26
27 跟贴 27
山姆买的啤酒罐口长毛了消费者拒绝代金券补偿，厂家出面赔付千元

信网 2026-06-25 21:35:18
11 跟贴 11
NBA｜落选秀历史最大合同！湖人四年1.85亿美元续约里夫斯

北青网-北京青年报 2026-06-25 11:01:43
77 跟贴 77
视频：女生靠考得好攒下30万元积蓄

极目新闻 2026-06-25 17:15:17
254 跟贴 254
山姆的品控该醒醒了！男子称使用山姆凉席后头昏脑涨嗓子发痒 8个月宝宝身上起疹子

闪电新闻 2026-06-25 12:25:57
1057 跟贴 1057
欧洲热浪已致上百人死亡，为什么不开空调？

中国能源网 2026-06-25 10:05:41
560 跟贴 560
阿曼：霍尔木兹海峡未来安排中不涉及收费

新华社 2026-06-25 21:14:04
542 跟贴 542
内塔尼亚胡称只要其在任以军就不会撤出黎南部“安全区”

环球网资讯 2026-06-25 06:36:37
574 跟贴 574
全员超600分班主任查完分彻夜未眠

潇湘晨报 2026-06-25 21:43:11
50 跟贴 50
“天津大港区域即将通地铁”不实（2026·06·25）

今日辟谣 2026-06-25 16:19:02
50 跟贴 50
692分！独家专访高考同分姐妹花：打篮球解压，没上过培优班

极目新闻 2026-06-25 22:41:54
0 跟贴 0

不落下风！2026 高考潮汕地区 5 人成绩被屏蔽！比肩深圳，力压广佛！

不落下风！2026 高考潮汕地区 5 人成绩被屏蔽！比肩深圳，力压广佛！

华庭讲美食

2026-06-25 14:56:35

伊朗没有赢下一场全面战争，却替中国废掉了美国一张最狠的牌

伊朗没有赢下一场全面战争，却替中国废掉了美国一张最狠的牌

贱议你读史

2026-06-24 19:35:03

上海一小区业委会选举，得票最高业主因打过12345被一票否决，居委会：打12345是部分原因，其在联审中综合评定后落选；12345热线回应

上海一小区业委会选举，得票最高业主因打过12345被一票否决，居委会：打12345是部分原因，其在联审中综合评定后落选；12345热线回应

大象新闻

2026-06-25 18:05:03

发现了没，凡是家里添了孙子，大部分爷爷奶奶都会发生2个变化

发现了没，凡是家里添了孙子，大部分爷爷奶奶都会发生2个变化

大熊欢乐坊

2026-06-21 12:28:13

女儿高考671分父母办答谢宴，摆宴席时班主任急电:别办了出事了！

女儿高考671分父母办答谢宴，摆宴席时班主任急电:别办了出事了！

诡谲怪谈

2025-07-08 23:59:11

就是这张图，刘亦菲让内娱从水光变“哑光”，全身涂粉时代开启

就是这张图，刘亦菲让内娱从水光变“哑光”，全身涂粉时代开启

书咚咚

2026-06-25 18:46:30

温州太牛了！温中浙江前十！知临数学满分！

温州太牛了！温中浙江前十！知临数学满分！

温晓生

2026-06-26 01:49:54

很多人已经在崩k的边缘了！

黯泉

2026-06-21 17:42:51

盖茨第三段婚外情对象曝光，系哈佛医学博士及美医疗创业者，曾获评“最值得关注女性”

盖茨第三段婚外情对象曝光，系哈佛医学博士及美医疗创业者，曾获评“最值得关注女性”

红星新闻

2026-06-25 12:14:14

俄罗斯频繁喊话乌克兰和谈

原某报记者

2026-06-25 11:05:40

为何时代精英总被原宪之问叩击良知？

为何时代精英总被原宪之问叩击良知？

烽火瞭望者

2026-06-25 06:28:02

奉劝大家：一旦公司给出降薪留下、拿赔偿走人两个选择的时候，一定不要选择降薪后留下来。

奉劝大家：一旦公司给出降薪留下、拿赔偿走人两个选择的时候，一定不要选择降薪后留下来。

纯洁的微笑

2026-06-22 12:57:51

用豆包专业版干活后，我承认之前是我说话太大声了。。

用豆包专业版干活后，我承认之前是我说话太大声了。。

差评XPIN

2026-06-25 03:05:53

俄罗斯和伊朗血泪教训，提醒中国，想收台，必先扫平西太美军基地

俄罗斯和伊朗血泪教训，提醒中国，想收台，必先扫平西太美军基地

何轐说

2026-06-24 21:21:59

深圳人的早餐火了！网友：已经吃了大半个月......

深圳人的早餐火了！网友：已经吃了大半个月......

深圳晚报

2026-06-22 13:22:28

内马尔妻子产后颜值仍高，被赞气质胜C罗女友

内马尔妻子产后颜值仍高，被赞气质胜C罗女友

铁锤妹妹是只猫

2026-06-17 11:32:44

世界杯疯狂：亚洲杯冠亚军全部出局，亚足联颜面尽失

世界杯疯狂：亚洲杯冠亚军全部出局，亚足联颜面尽失

民哥台球解说

2026-06-25 06:57:51

总分708分！辽宁省实验中学孙茗想：心态稳、节奏准、生活有热爱

总分708分！辽宁省实验中学孙茗想：心态稳、节奏准、生活有热爱

王姐懒人家常菜

2026-06-25 01:19:48

农村一种野草，形同韭菜，如今已被列为“国宝”，农民请保护好它

农村一种野草，形同韭菜，如今已被列为“国宝”，农民请保护好它

邹小蘑菇

2026-06-24 15:15:05

一个家庭最大的悲哀，就是全家没一个能上得了台面的男人

一个家庭最大的悲哀，就是全家没一个能上得了台面的男人

心理观察局

2026-06-18 07:00:08

我们更懂药物创新

1214文章数 221关注度

往期回顾全部

科技要闻

存储成本压力山大！苹果罕见全球提价

头条要闻

女孩在网红景点拍照时坠湖身亡前一天刚参加中考

头条要闻

女孩在网红景点拍照时坠湖身亡前一天刚参加中考

体育要闻

世界杯最动人一吻：我若离世你就改嫁吧

娱乐要闻

这国产剧太装了，居然还热播第一？

财经要闻

又有纸尿裤送检后被检测出甲酰胺！

汽车要闻

老板们的新座驾！65万元起，尊界V800/V680开启预订

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

教育

本地

数码

公开课

艺术要闻

税务局大楼能是这样？5个立方体扭40度，高171米！

教育要闻

每晚带背真的给我学上瘾了!!!不知道暑期背什么的新传人请看这里!!!

本地新闻

2026世界杯全勤太难？这份保姆级攻略请收好

数码要闻

IDC报告：2026Q1全球手持智能相机市场出货量同比增长33%

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版