网易首页 > 网易号 > 正文 申请入驻

发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被反超

0
分享至

来源:市场资讯

(来源:极客公园)


百川智能表示今年上半年,将陆续发布两款 to C 的医疗产品。

作者|Li Yuan

编辑|郑玄

你有没有向 AI 助手问过你的健康问题?

如果你和我一样是一个 AI 的深度用户,大概率你也试过。

OpenAI 自己给出来的数据是,健康已成为 ChatGPT 最常见的使用场景之一,全球每周有超过 2.3 亿人提出与健康和保健相关的问题。

正因如此,跨入 2026 年,健康领域也大有成为 AI 领域必争之地的迹象了。

1 月 7 日,OpenAI 发布 ChatGPT 健康,允许用户连接电子医疗记录和各类健康应用,让用户能够获得更针对性的医疗回复;而 1 月 12 日,Anthropic 也立马推出了 Claude for Healthcare,并强调了新模型的医学场景能力。

不过有趣的是,这次,中国公司没有落下,甚至大有领先之意。

1 月 13 日,百川智能宣布发布百川 M3 模型,在 OpenAI 发布的医疗健康领域评估测试集 HealthBench,反超 OpenAI 的 GPT-5.2 High,获得 SOTA。

在宣布 All-in 医疗受到诸多质疑后,百川智能似乎终于证明了自己。极客公园此次也专程与王小川聊了聊百川智能如何看待此次 M3 模型的能力,以及 AI 医疗的终局。

01

首次在健康领域测试集超越 OpenAI

此次发布的 M3 模型,最亮眼的成绩之一,在于模型第一次在 OpenAI 发布的医疗健康领域评估测试集 HealthBench,超越 OpenAI 的 GPT-5.2 High,获得 SOTA。


SOTA On Healthbench、Healthbench Hard and Hallucination Evaluation

Healthbench 是 OpenAI 在 2025 年 5 月份发布的医疗健康领域评估测试集,由 262 位来自 60 个国家的医生共同构建,收录了 5000 组高度逼真的多轮医疗对话,是目前全球最权威、也最贴近真实临床场景的医疗评测集之一。

发布后,OpenAI 的模型一直霸榜。

而此次,百川智能的新一代开源医疗大模型 Baichuan-M3,则获得了 65.1 分的综合成绩位列全球第一,甚至在专门考验复杂决策能力的 HealthBench Hard 上,M3 也成功夺冠,刷新了最高分。

百川还同步公布了一个幻觉率的测试结果,在幻觉率,M3 模型达到了 3.5%,属于全球最低。

值得注意的是,这个幻觉率是不依赖外部检索工具,纯模型设置下的医疗幻觉率。

百川智能表示,能够达到这两点,关键的模型提升在于为医疗引入了合适于医疗的强化学习算法。

百川在 M3 模型上首次使用了 Fact Aware RL(事实感知强化学习)技术,达到了既让模型不说套话,也不让模型乱说话的效果。

这在医疗领域实际上是非常关键的。

在没有优化的模型中提问医疗问题,最容易出现的问题就是两类,一是模型直接胡编乱造你的症状,臆测一个疾病出来;而另一个则是语义模糊,最终提示你还是得去看医生,而这无论对于医生还是患者,都没有太大帮助。

这正是因为很多模型以纯幻觉率作为优化目标,此时模型可能通过堆砌简单正确的事实来稀释整体幻觉率。而百川引入语义聚类与重要性加权机制——聚类消除冗余表述的干扰,加权确保核心医学论断获得更高权重。

同时,如果单纯引入高权重的幻觉惩罚,极易迫使模型陷入「少说少错」的保守策略,因此 Fact Aware RL 的算法中还设计了动态权重调节机制,根据模型当前的能力水平自适应地平衡这两个目标——在能力构建阶段,侧重医疗知识的学习与表达(高 Task Weight);在能力成熟后,逐步收紧事实性约束(提升 Hallucination Weight)。

当可以联网搜索时,百川还加入了基于多轮搜索的在线校验模块,同时引入了高效的缓存系统,进行海量医疗知识的对齐。

02

问诊水平超过人类医生,

步入可用阶段

不过,在 Healthbench 上超过 OpenAI 并不是此次唯一的亮点。

此次更有趣的一个点,百川自己创造性地构建了一个 SCAN-benche 评测集。比起刷榜 OpenAI 的评测集,百川自己构建的评测集,或许更能说明百川智能在医疗上想要优化的方向。

此次百川构建的测评集,关键点在于优化「端到端的问诊能力」。这源于百川自己做的实验洞察:问诊准确度每增加 2%,诊疗结果准确度就会增加 1%。

也就是说相比于 OpenAI 的 HealthBench,仍然主要关注「AI 会不会回答问题」,百川的 SCAN-benche 希望评测出的是:AI 是否能在一问一答中,获取有效信息,同时给出正确的诊疗结果和医疗意见。

通常情况下,我们向 AI 助手提问,如果只是提到「你是一位经验丰富的医生」,通常并不会得到太好的模型效果。因为真正的医生,问诊的流程是十分规范的——百川将其归纳为四个象限的 SCAN 原则:Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与 Normative Protocol(规范化输出)。

围绕 SCAN 原则,百川借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程,也以在这几个流程中,都获得更好的结果,来优化模型。

此次百川也公布了 M3 模型在 SCAN-benche 上的测评结果。


结果十分有趣。百川此次不仅和模型进行了对比,还找来了真人医生进行对比。而在四个象限中,真人医生实际上都已经落后于模型能够达到的水平了。

极客公园特意对此向百川团队进行了提问,得到的回答是:此次的测评,全都是真人的专科医生在专科案例上与模型进行的比较。模型能够获胜,其一,在于模型更耐心,但更重要的是,模型拥有更好的跨学科的知识的掌握能力。

比如在一个案例中,提到 10 岁孩子反复发热,而发热是一个非常综合的医疗现象,如果只询问咳嗽等肺部情况,就容易忽略关节和泌尿系统中的严重问题,误判为普通感染。

人类医生通常只对分科的病情比较擅长,这也是复杂症状常常需要专家会诊,或者疑难病症专家也常常要去翻书找资料的原因。

而没有经过专门训练,只是扮演医生的普通模型,往往也很难回答好这类问题。

03

下一步:逐渐开始做 C 端产品,

推进更严肃的医疗

对于百川智能而言,超过人类医生这个节点,意义十分重大:这意味着 AI 开始迈过可用性的门槛,开始能够被部署到使用场景中了。

从 1 月 13 日起,用户已经可以开始在百小应的网站和 app 中,体验到 M3 模型提供的回答了。

目前的网站设计十分有趣,虽然都是使用 M3 模型进行回答,但是区分医生版和用户版。在医生版,回答更加简洁,引用更多参考文献,也更「不说人话」。而在普通病人版,模型几乎不会一次性给出回答,都会进行更多追问,进行更明确的诊断。


百川智能提到,模型在后台的思考很有意思。「我们经常能看到这个模型在思维链中提到,『这个患者没有理我的这个问题,但是这个问题我必须要问。』甚至我们有看到过那种极端的,说我已经问了患者 20 轮了,这个已经超出了设定的最大轮数,但是这个问题我还是要问。这是因为在训练的过程中模型把话说得讨巧,是得不到奖励的,它必须真的得到了足够多的关键的信息,得到正确的诊断,才能得到奖励。这个是我们跟其他人训练模型的一个明显的不同。」

近来很多 AI 公司都开始介入医疗领域。这也是百川智能认为自己的最大不同之处——要做更严肃的医疗。

「这意味着百川在选择场景时,并不是看哪个场景最好做就去做哪个。相反,百川坚持要不断上推技术能力,挑战更难的问题。」王小川讲到。

一个典型的例子是未来百川会优先做肿瘤专科的解决场景,而心理疗愈排在百川的优先级的比较靠后的位置。

在通俗观点中,普遍认为 AI 提供心理疗愈会更简单,也是一个更容易落地的场景。百川的判断逻辑则不同。他们认为肿瘤领域有更严格的科学依据。在这里,AI 更有可能做出严肃的医疗效果,从而达到或者超越人类医生的水平。相比之下,心理学领域缺乏这种确定性的科学锚点。

再比如有的公司选择给医生做分身,王小川则认为这种方向并不是百川想要做的方向。医生的分身本身不能完整复用医生的水平,更不能超越医生的水平。这样的 AI 最终只能沦为幌子和获客工具,并不能真正推动严肃医疗。

这种对严肃性的坚持,深刻影响了百川的很多商业选择。

这直接关系到王小川对医疗 AI 下个阶段根本问题的思考。他认为,当前这个阶段最重要的任务是在增强 AI 能力的基础上,逐渐提供更多的医疗供给。

中国多年来一直尝试推行分级诊疗和全科医生制度。初衷是希望老百姓先在基层看病,解决大医院挂号难、排队长、拥堵不堪的现状。

这个制度之所以推行困难,本质上是因为医疗资源的供给不足。基层医疗机构缺乏高水平的医生。大家即便只是感冒也愿意去三甲医院排队,是因为对基层的诊疗水平不放心。

这正是医疗 AI 发挥作用的关键点。大模型能够把顶尖的医学知识实现规模化分发。它填补了基层的供给缺口,让每一个社区、每一个家庭都能拥有像三甲医院专家一样的诊疗能力。

而长远来开,这还能有更广泛的影响,可能让医疗的让决策权从医生手中逐渐转移到用户身上。在传统的医疗场景中,患者是利益的受益方,但往往没有决策权。决策权集中在医生手中。这种权力的不对称往往会带来沟通成本和治疗中的痛苦。

而百川希望通过 AI,让患者能够更容易地获得优质医疗资源的供给。「很多人觉得医疗太复杂了,患者是永远理解不了的。但我们想的在美国的司法体系里面有个叫陪审团制度。法律也是非常专业的一个事,陪审团的普通人不懂,那就要求在法官、律师和检察官能够进行带领,做充分的辩论,把话说清楚,说到一个普通人能判断有罪没罪的程度,让普通人能依据逻辑正常判断即可。」王小川讲到。

这也是百川智能不愿意只做简单场景,而是希望不断向高难度的严肃诊疗推进的原因之一。

当被问到解决高难度问题是否在商业上最有回报时,王小川给出了深刻的回答。

他认为,解决感冒发烧这类小问题,很难在用户心中建立起足够的信任。医疗是一个高度依赖信任的行业。只有当 AI 能够解决重疾等高难度难题时,才能真正建立起信任的基础。

从商业逻辑上看,患者面对严肃的健康问题时,也更有意愿为高质量的 AI 服务付费。这种信任不仅是商业回报的前提,更是 AI 医疗能够规模化应用的核心。

而从更根本的意义上讲,医疗对于百川智能和王小川本人而言,仍然意味着是一条接近通用人工智能(AGI)的路径。

王小川认为,AI 目前在文、理、工、艺等领域都已找到了切实的解法,医疗则是一个极为独特的领域。人类对医学的探索尚未穷尽,AI 在这一领域也正处于摸索阶段。

百川的路线图非常清晰。首先通过 AI 提升诊病效率,解决当前医疗供给短缺的问题。在此基础上,百川致力于建立与患者之间的深度信任。当患者愿意使用 AI 工具,长期进行医疗咨询,AI 就能在长期的陪伴中积累真实且高质量的医疗数据。

这些数据的终极目标是构建生命的数学模型。这是一条人类医生至今尚未完全走通的道路,未来很有可能由 AI 率先实现。如果能完成对生命本质的建模,这将成为推动通用人工智能迈向更高阶进步的关键一步。

*头图来源:百川智能官网

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待 AI 医疗?

苹果首款折叠 iPhone Fold 手机壳金属模具曝光。

点赞关注极客公园视频号,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1979年,党中央抓捕许世友儿子,许世友得知后:抓得好,抓得妙

1979年,党中央抓捕许世友儿子,许世友得知后:抓得好,抓得妙

大海的诺言
2024-10-04 08:55:11
特朗普亲率大规模代表团出席达沃斯论坛,世界面临“新现实”

特朗普亲率大规模代表团出席达沃斯论坛,世界面临“新现实”

澎湃新闻
2026-01-20 12:38:25
狂轰55分!NBA历史首人!这就是他能拿5年2.6亿顶薪美金的原因

狂轰55分!NBA历史首人!这就是他能拿5年2.6亿顶薪美金的原因

篮球扫地僧
2026-01-20 17:49:31
有转机?房东松口,嫣然天使先把欠的3000万房租还上就能谈降租金

有转机?房东松口,嫣然天使先把欠的3000万房租还上就能谈降租金

安宁007
2026-01-19 17:57:20
黄国昌访陆提出条件,赖清德大本营“沦陷”,统一条件已经出现

黄国昌访陆提出条件,赖清德大本营“沦陷”,统一条件已经出现

咖啡店的老板娘
2026-01-20 09:54:49
浙江衢州一超市员工用小刀替同事刮脚皮,超市回应:刀一般用来削菜根,涉事员工或被开除

浙江衢州一超市员工用小刀替同事刮脚皮,超市回应:刀一般用来削菜根,涉事员工或被开除

大象新闻
2026-01-20 17:53:09
湖人逆转猛龙,詹姆斯再破历史纪录,篮球传奇持续上演!

湖人逆转猛龙,詹姆斯再破历史纪录,篮球传奇持续上演!

麦咪熊熊
2026-01-21 00:54:56
提前过年了!22年后,中国男足再进决赛!

提前过年了!22年后,中国男足再进决赛!

湖报体育
2026-01-21 01:36:45
意媒:拒绝埃弗顿和贝西克塔斯,卢卡库不想在冬窗离队

意媒:拒绝埃弗顿和贝西克塔斯,卢卡库不想在冬窗离队

懂球帝
2026-01-20 20:38:12
斯帕莱蒂:还没想过续约问题,我目前并没有做出值得期待的事

斯帕莱蒂:还没想过续约问题,我目前并没有做出值得期待的事

懂球帝
2026-01-21 01:59:11
特朗普:若未就格陵兰岛问题达成协议,“100%”会落实对欧洲八国加征关税措施

特朗普:若未就格陵兰岛问题达成协议,“100%”会落实对欧洲八国加征关税措施

环球网资讯
2026-01-20 08:59:31
笑不活了,真是半大小子,吃穷老子,评论区笑翻我

笑不活了,真是半大小子,吃穷老子,评论区笑翻我

夜深爱杂谈
2026-01-12 20:14:58
董明珠:未来广汽集团的汽车芯片中一半由格力芯片替代

董明珠:未来广汽集团的汽车芯片中一半由格力芯片替代

快科技
2026-01-20 16:35:06
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
董赤赤拳击赛后首次更新并发言:自己塌的房,就要自己盖起来

董赤赤拳击赛后首次更新并发言:自己塌的房,就要自己盖起来

草莓解说体育
2026-01-21 00:29:51
中国男足22年后再进亚洲杯决赛!5场0失球刷爆5纪录 赢日本就夺冠

中国男足22年后再进亚洲杯决赛!5场0失球刷爆5纪录 赢日本就夺冠

念洲
2026-01-21 01:29:53
神二十返回不到12小时,意外传来三个好消息,神舟二十三号已就位

神二十返回不到12小时,意外传来三个好消息,神舟二十三号已就位

元爸体育
2026-01-21 00:14:28
龙洋虽错,错不在龙洋!

龙洋虽错,错不在龙洋!

布衣乱弹
2026-01-19 18:51:10
年轻时的高市早苗,在相貌上已经占据了优势,人变相貌也跟着变

年轻时的高市早苗,在相貌上已经占据了优势,人变相貌也跟着变

大江
2025-11-27 11:28:33
“事前没有征询,现在都是隐患!”沪上小区引入“不速之客”,遭居民集体质疑

“事前没有征询,现在都是隐患!”沪上小区引入“不速之客”,遭居民集体质疑

新民晚报
2026-01-20 19:03:26
2026-01-21 02:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057571文章数 5291关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

特朗普改口:英国做法愚蠢至极

头条要闻

特朗普改口:英国做法愚蠢至极

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

本地
亲子
旅游
时尚
公开课

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

亲子要闻

这是真的先天法医圣体阿!

旅游要闻

寒假怎么玩?来四川解锁通往未来的彩蛋

冬季不臃肿穿搭指南来了,奔五奔六照着穿,拿捏温暖与高级感

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版