网易首页 > 网易号 > 正文 申请入驻

百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力

0
分享至

勇砺商业评论 阿桶观察 白丽

2026年1月13日,百川智能正式开源新一代医疗大模型 Baichuan-M3,其在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一;在专门考验复杂决策能力的 HealthBench Hard 上,也以44.4分的成绩夺冠。这一成绩,不仅刷新了 HealthBench 的最高分,更首次在医疗领域实现了对 GPT-5.2 的全面超越。在OpenAI引以为傲的低幻觉领域,M3也实现了超越,幻觉率3.5全球最低。

此外,M3 还首次具备了原生的“端到端”严肃问诊能力。它能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。评测显示,其问诊能力显著高于真人医生的平均水平。

Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B

GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B

医疗沟通和推理能力超越 GPT-5.2,登顶世界第一

2025年5月份,OpenAI发布HealthBench,由 262 位来自 60 个国家的医生共同构建,收录了 5000 组高度逼真的多轮医疗对话,构建了全球最权威、也最贴近真实临床场景的医疗评测集。这一事件,被视为 OpenAI 在医疗领域开始“重兵投入”,吹响进军医疗的号角。

相当长一段时间里,无论是HealthBench总分还是 HealthBench-Hard 子集, GPT系列模型从未被超越。2025 年 8 月,百川开源医疗增强大模型 M2 在 HealthBench 上力压 gpt-oss-120B、DeepSeek-R1 等同期所有开源模型,并在 HealthBench Hard 上取得 34.7 分的成绩,仅次于GPT-5,成为全球唯二突破 32 分的模型。



2025年,强化学习无疑是新一代 Scaling Law 的技术中轴。在M2 发布后的五个月里,我们对强化学习系统进行了全面升级,将原本以患者模拟器和静态 Rubric 为主的半动态反馈,升级为随模型能力不断演进的全动态 Verifier System。随着监督信号持续变细、变难,模型得以不断突破能力上限,使 M3 在复杂医学问题上的表现实现跃迁,不仅在 HealthBench 总分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登顶,成为当前全球医疗沟通和推理能力最强的医疗大模型。

重构幻觉抑制的训练范式,刷新医疗幻觉率底线

幻觉是这一代大模型技术范式的通病,更是AI进入严肃医疗的拦路虎。在大多数场景幻觉只是体验问题,而在严肃医疗场景可导致安全事件。

降低幻觉,一直是 OpenAI 最重视的研究方向之一。几乎每一代 GPT 模型的幻觉率均为行业最低。OpenAI也是第一个单独评测医疗能力和提供医疗服务的通用模型公司。

国内 DeepSeek等模型的普及,让越来越多人开始使用AI并尝试进行医疗健康咨询。但大多数模型公司并没有把“降幻觉”提升到与推理、代码等相同的高度。用这样的模型获取健康咨询和诊疗建议,对AI医疗的普及和医患信任建立带来很大困扰。

百川M3将医疗幻觉抑制前移至模型训练阶段,在强化学习过程中将医学事实一致性作为核心训练目标之一,将“知之为知之,不知为不知”直接作用于模型自身能力的形成过程。这一新的训练方法将医学事实可靠性内化为M3自身的基础能力,使其在不借助任何外部系统的情况下,依然能够基于自身医学知识进行稳定、可信的作答。

通过将事实一致性约束融入训练流程,M3重构了幻觉抑制的训练范式,在不依赖工具或检索增强的纯模型设置下,医疗幻觉率3.5,超越GPT-5.2,达到全球最低水平。



构建「严肃问诊」新能力,端到端问诊超越真人医生

除了强推理和低幻觉,端到端的问诊能力是本次M3最重要的一项突破。2025年行业的技术共识是,用户提供更完整的上下文,模型才有更好的表现。可在医疗领域,患者很难完整表达自己的病症,需要模型像医生一样有能力把患者的混乱叙述转变成可做诊疗决策的信息。

HealthBench代表了OpenAI对临床场景的认知高度,然而它本质上是一个切片式的评测,考核的更像是“AI会不会回答问题”,而不是带着诊疗目标,完整的患者信息收集。这也正说明了行业对问诊重要性和建模思路的理解不足。

应用实践中,通过prompt“你是一位经验丰富的医生”,激活模型的“角色扮演”是更常见的做法。这种方式得到的是模型的表演行为,而非内生能力,激活的是模型应该提问的行为,而不是必须获取关键信息的思考。例如,临床医生面对患者的第一反应,永远是先排除危急重症,再考虑常规诊疗,这是刻在职业本能里的安全优先级。但常见的“角色扮演”的问诊方式,无法将“红旗征识别与处置”作为核心行动原则。这种不围绕关键风险点展开的信息收集,即便对话看似完整,也难以支撑安全、可靠的临床判断,从根本上偏离了医疗“安全第一”的原则。

针对这一行业困境,我们提出了“严肃问诊范式”与“SCAN原则”,通过Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地“白盒化”。

围绕SCAN原则,我们借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,该体系以真实临床经验作为“标准答案”,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相比于HealthBench,SCAN-bench是更加全流程端到端的动态评测新范式。

同时,我们还使用原生模型训练方法取代角色扮演prompt,针对GRPO无法稳定进行长对话训练的问题,设计了新的 SPAR 算法,使模型能够在有限对话轮次中,把临床真正需要的关键问题问全、问准,把风险兜住,让输出经得起复核。

在实验过程中我们发现,问诊准确度每增加2%,诊疗结果准确度就会增加1%。评测结果显示,M3 在SCAN的四个维度均显著高于人类医生基线水平,并大幅领先于国内外顶尖模型,成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。



从 1 月初 OpenAI 发布医疗产品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 医疗正在全球范围内提档加速,竞争也正式进入深水区。在这场竞速中,作为国内唯一专注医疗的大模型企业,百川持续突破低幻觉率、端到端问诊和复杂临床推理等核心能力,已从“跟随者”跃迁为行业“引领者”与新范式的“定义者”,正以硬核实力扛起中国 AI 医疗发展的旗帜。

我们的医疗应用“百小应”已同步接入 M3,面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路,患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。(白丽)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
铜梁龙官方:套票不退换和设置21岁以下学生票是行业惯例

铜梁龙官方:套票不退换和设置21岁以下学生票是行业惯例

懂球帝
2026-03-12 09:27:12
神奇!加州州长竞选最新民调,民主党人迅速超越,稳居第一

神奇!加州州长竞选最新民调,民主党人迅速超越,稳居第一

大洛杉矶LA
2026-03-12 04:26:41
阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

39健康网
2026-02-17 18:31:37
正式离队!孙颖莎团队3人离开,原因已曝光,何卓佳离开得出结论

正式离队!孙颖莎团队3人离开,原因已曝光,何卓佳离开得出结论

体坛亦说
2026-03-12 08:41:40
智利30年来最右倾总统将就职 卢拉取消出席

智利30年来最右倾总统将就职 卢拉取消出席

看看新闻Knews
2026-03-11 23:46:02
真正累死你的,不是工作,而是跟谁一起工作

真正累死你的,不是工作,而是跟谁一起工作

洞见
2026-03-11 10:18:25
一个残忍真相:孩子一旦休学在家,不管你多爱他、多想帮他,都不要给他最好的,否则,他会彻底失去奋斗动力

一个残忍真相:孩子一旦休学在家,不管你多爱他、多想帮他,都不要给他最好的,否则,他会彻底失去奋斗动力

青春期父母成长学堂
2026-03-11 20:00:39
大S骤然火化背后隐情曝光,小S老公与马筱梅牵连不清!

大S骤然火化背后隐情曝光,小S老公与马筱梅牵连不清!

观察鉴娱
2026-03-12 08:48:08
张兰发释怀文!回应儿子喊娘改嫁,汪小菲扭头回台北,洋总道实情

张兰发释怀文!回应儿子喊娘改嫁,汪小菲扭头回台北,洋总道实情

离离言几许
2026-03-10 22:29:06
一场战争逼出一个技术强国乌克兰

一场战争逼出一个技术强国乌克兰

难得君
2026-03-12 09:28:43
中央定调,养老金调整方向明确,2026年若上涨,不按工龄调了吗?

中央定调,养老金调整方向明确,2026年若上涨,不按工龄调了吗?

丁丁鲤史纪
2026-03-11 11:33:00
约基奇16+12+13造NBA神迹,穆雷30分死神哑火,掘金36分大胜火箭

约基奇16+12+13造NBA神迹,穆雷30分死神哑火,掘金36分大胜火箭

钉钉陌上花开
2026-03-12 12:24:47
谁抢走了订单?外企扎堆越南后才明白,“世界工厂”只是一场美梦

谁抢走了订单?外企扎堆越南后才明白,“世界工厂”只是一场美梦

百科密码
2026-02-25 15:17:32
网红王炸姐直播时去世!仅39岁,临终画面曝光,穿的衣服像寿衣

网红王炸姐直播时去世!仅39岁,临终画面曝光,穿的衣服像寿衣

潮鹿逐梦
2026-03-11 22:48:51
随着广岛三箭2-3出局,亚冠精英赛八强诞生4席:东南亚球队占2席

随着广岛三箭2-3出局,亚冠精英赛八强诞生4席:东南亚球队占2席

侧身凌空斩
2026-03-11 20:01:50
最新中国船员战区通讯录音曝光,多艘中国货船被公司要求撤离霍尔木兹海峡

最新中国船员战区通讯录音曝光,多艘中国货船被公司要求撤离霍尔木兹海峡

爆角追踪
2026-03-11 12:37:33
“赶飞机时间比坐飞机还长”?全国政协委员王煜呼吁:合理控制机场与城市距离

“赶飞机时间比坐飞机还长”?全国政协委员王煜呼吁:合理控制机场与城市距离

红星新闻
2026-03-11 13:18:38
4上春晚红遍全国,却因冯巩一句话离开中国,大山如今过得如何?

4上春晚红遍全国,却因冯巩一句话离开中国,大山如今过得如何?

揽星河的笔记
2026-03-11 13:06:21
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
谢杏芳的冷漠,揭开林丹的婚姻真相,10年才看懂她的这盘大棋

谢杏芳的冷漠,揭开林丹的婚姻真相,10年才看懂她的这盘大棋

以茶带书
2026-03-09 19:08:24
2026-03-12 14:07:00
曾宪勇 incentive-icons
曾宪勇
有趣的科技互联网原创自媒体
709文章数 63关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

18辆越野车擅闯罗布泊无人区 警方搜索4小时成功拦截

头条要闻

18辆越野车擅闯罗布泊无人区 警方搜索4小时成功拦截

体育要闻

要脸,还是要83分纪录?

娱乐要闻

李湘瘦身惊艳亮相肖邦之夜 携女儿出席

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

数码
家居
教育
时尚
军事航空

数码要闻

华清同创N70系列笔记本亮相,搭载飞腾腾锐D3000M处理器

家居要闻

触感本真 家的迹象

教育要闻

3岁孩子必须知道的防侵犯教育,90%的侵犯者都是熟人

今年春天最时髦的6组搭配,照着穿美出新高度!

军事要闻

特朗普自行宣布对伊朗战争胜利

无障碍浏览 进入关怀版