网易首页 > 网易号 > 正文 申请入驻

百川M3医疗大模型开源,「严肃问诊」定义AI医疗新能力

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。

新一代医疗大模型 Baichuan-M3正式开源,其在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一;在专门考验复杂决策能力的 HealthBench Hard 上,也以44.4分的成绩夺冠。这一成绩,不仅刷新了 HealthBench 的最高分,更首次在医疗领域实现了对 GPT-5.2 的全面超越。在OpenAI引以为傲的低幻觉领域,M3也实现了超越,幻觉率3.5全球最低。

此外,M3 还首次具备了原生的“端到端”严肃问诊能力。它能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。评测显示,其问诊能力显著高于真人医生的平均水平。Baichuan-M3已上线始智AI-wisemodel开源社区,欢迎大家前去体验。


项目地址

https://wisemodel.cn/models/Baichuan-inc/Baichuan-M3-235B

01.

医疗沟通和推理能力超越GPT-5.2,

登顶世界第一

2025年5月份,OpenAI发布HealthBench,由 262 位来自 60 个国家的医生共同构建,收录了 5000 组高度逼真的多轮医疗对话,构建了全球最权威、也最贴近真实临床场景的医疗评测集。这一事件,被视为 OpenAI 在医疗领域开始“重兵投入”,吹响进军医疗的号角。

相当长一段时间里,无论是HealthBench总分还是 HealthBench-Hard 子集, GPT系列模型从未被超越。2025 年 8 月,百川开源医疗增强大模型 M2 在 HealthBench 上力压 gpt-oss-120B、DeepSeek-R1 等同期所有开源模型,并在 HealthBench Hard 上取得 34.7 分的成绩,仅次于GPT-5,成为全球唯二突破 32 分的模型。


2025年,强化学习无疑是新一代 Scaling Law 的技术中轴。在M2 发布后的五个月里,对强化学习系统进行了全面升级,将原本以患者模拟器和静态 Rubric 为主的半动态反馈,升级为随模型能力不断演进的全动态 Verifier System。随着监督信号持续变细、变难,模型得以不断突破能力上限,使 M3 在复杂医学问题上的表现实现跃迁,不仅在 HealthBench 总分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登顶,成为当前全球医疗沟通和推理能力最强的医疗大模型。

02.

重构幻觉抑制的训练范式,

刷新医疗幻觉率底线

幻觉是这一代大模型技术范式的通病,更是AI进入严肃医疗的拦路虎。在大多数场景幻觉只是体验问题,而在严肃医疗场景可导致安全事件。

降低幻觉,一直是 OpenAI 最重视的研究方向之一。几乎每一代 GPT 模型的幻觉率均为行业最低。OpenAI也是第一个单独评测医疗能力和提供医疗服务的通用模型公司。

国内 DeepSeek等模型的普及,让越来越多人开始使用AI并尝试进行医疗健康咨询。但大多数模型公司并没有把“降幻觉”提升到与推理、代码等相同的高度。用这样的模型获取健康咨询和诊疗建议,对AI医疗的普及和医患信任建立带来很大困扰。

百川M3将医疗幻觉抑制前移至模型训练阶段,在强化学习过程中将医学事实一致性作为核心训练目标之一,将“知之为知之,不知为不知”直接作用于模型自身能力的形成过程。这一新的训练方法将医学事实可靠性内化为M3自身的基础能力,使其在不借助任何外部系统的情况下,依然能够基于自身医学知识进行稳定、可信的作答。

通过将事实一致性约束融入训练流程,M3重构了幻觉抑制的训练范式,在不依赖工具或检索增强的纯模型设置下,医疗幻觉率3.5,超越GPT-5.2,达到全球最低水平。


03.

构建“严肃问诊”新能力,

端到端问诊超越真人医生

除了强推理和低幻觉,端到端的问诊能力是本次M3最重要的一项突破。2025年行业的技术共识是,用户提供更完整的上下文,模型才有更好的表现。可在医疗领域,患者很难完整表达自己的病症,需要模型像医生一样有能力把患者的混乱叙述转变成可做诊疗决策的信息。

HealthBench代表了OpenAI对临床场景的认知高度,然而它本质上是一个切片式的评测,考核的更像是“AI会不会回答问题”,而不是带着诊疗目标,完整的患者信息收集。这也正说明了行业对问诊重要性和建模思路的理解不足。

应用实践中,通过prompt“你是一位经验丰富的医生”,激活模型的“角色扮演”是更常见的做法。这种方式得到的是模型的表演行为,而非内生能力,激活的是模型应该提问的行为,而不是必须获取关键信息的思考。例如,临床医生面对患者的第一反应,永远是先排除危急重症,再考虑常规诊疗,这是刻在职业本能里的安全优先级。但常见的“角色扮演”的问诊方式,无法将“红旗征识别与处置”作为核心行动原则。这种不围绕关键风险点展开的信息收集,即便对话看似完整,也难以支撑安全、可靠的临床判断,从根本上偏离了医疗“安全第一”的原则。

针对这一行业困境,团队提出了“严肃问诊范式”与“SCAN原则”,通过Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地“白盒化”。

围绕SCAN原则,借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,该体系以真实临床经验作为“标准答案”,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相比于HealthBench,SCAN-bench是更加全流程端到端的动态评测新范式。

同时,还使用原生模型训练方法取代角色扮演prompt,针对GRPO无法稳定进行长对话训练的问题,设计了新的 SPAR 算法,使模型能够在有限对话轮次中,把临床真正需要的关键问题问全、问准,把风险兜住,让输出经得起复核。

在实验过程中发现,问诊准确度每增加2%,诊疗结果准确度就会增加1%。评测结果显示,M3 在SCAN的四个维度均显著高于人类医生基线水平,并大幅领先于国内外顶尖模型,成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。


从 1 月初 OpenAI 发布医疗产品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 医疗正在全球范围内提档加速,竞争也正式进入深水区。在这场竞速中,作为国内唯一专注医疗的大模型企业,百川持续突破低幻觉率、端到端问诊和复杂临床推理等核心能力,已从“跟随者”跃迁为行业“引领者”与新范式的“定义者”,正以硬核实力扛起中国 AI 医疗发展的旗帜。

医疗应用“百小应”已同步接入 M3,面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路,患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。

编辑:成蕴年

----- END -----

wisemodel相关:

系列模型:


关于wisemodel更多


1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
遭到中方拒绝后,欧盟内部终于意识到:中国已不把他们放在眼里了

遭到中方拒绝后,欧盟内部终于意识到:中国已不把他们放在眼里了

顾史
2026-01-18 23:48:12
陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

粤睇先生
2026-01-18 01:51:44
结婚14年来,老公每晚给我按脚,我妈知道后脸色大变:这不是按脚

结婚14年来,老公每晚给我按脚,我妈知道后脸色大变:这不是按脚

饭小妹说历史
2026-01-16 09:05:50
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
太炸裂了!13家央企市盈率4倍 股息率飙至8%,却在牛市集体创新低?

太炸裂了!13家央企市盈率4倍 股息率飙至8%,却在牛市集体创新低?

股市皆大事
2026-01-18 18:24:02
中方反制开始!2号公告将断日本光刻胶后路,日媒慌了:我们愿意卖

中方反制开始!2号公告将断日本光刻胶后路,日媒慌了:我们愿意卖

白梦日记
2026-01-17 19:08:33
一代女神沦为豪门玩物?结婚8年牙齿全掉,器官切除,面似骷髅

一代女神沦为豪门玩物?结婚8年牙齿全掉,器官切除,面似骷髅

小熊侃史
2026-01-19 07:30:08
警方提醒:凡是拉你参与“俄罗斯军工项目”的,几乎都是诈骗

警方提醒:凡是拉你参与“俄罗斯军工项目”的,几乎都是诈骗

桂系007
2026-01-18 22:44:24
退休后儿子叫我去带孙子,儿媳要伙食费,次日我全款买了对门大别墅

退休后儿子叫我去带孙子,儿媳要伙食费,次日我全款买了对门大别墅

黄家湖的忧伤
2026-01-15 16:35:06
逆转夺赛季首冠!梁王组合印度公开赛成功登顶,国羽2冠1亚收官

逆转夺赛季首冠!梁王组合印度公开赛成功登顶,国羽2冠1亚收官

全景体育V
2026-01-18 19:42:29
很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

忠于法纪
2026-01-18 17:42:24
陈真饰演者梁小龙去世,最终遗言让人泪目,知情人曝离世原因

陈真饰演者梁小龙去世,最终遗言让人泪目,知情人曝离世原因

陈意小可爱
2026-01-19 02:24:52
风雪送棋圣 弈魂世长存

风雪送棋圣 弈魂世长存

新民晚报
2026-01-18 11:42:47
太过分了!欧洲球探询问李昊:嫌185万欧太贵,最好能自由身加盟

太过分了!欧洲球探询问李昊:嫌185万欧太贵,最好能自由身加盟

茜子足球
2026-01-18 17:21:36
泪奔,公司业务量急剧下滑,全员大降薪!

泪奔,公司业务量急剧下滑,全员大降薪!

黯泉
2026-01-16 22:03:51
辽篮输球揪出最大毒瘤!他上场29分钟,投篮10中2,杨鸣真爱用他

辽篮输球揪出最大毒瘤!他上场29分钟,投篮10中2,杨鸣真爱用他

篮球专区
2026-01-18 22:51:23
涡扇-19量产落地,印度70亿购技术防泄密

涡扇-19量产落地,印度70亿购技术防泄密

正经的烧杯1
2026-01-16 20:10:47
身价上千亿?深扒之下,终于知道李湘的钱都是从哪里来的了!

身价上千亿?深扒之下,终于知道李湘的钱都是从哪里来的了!

清晨的世界
2026-01-18 10:10:27
赵露思现身王鹤棣演唱会,眼神锁定狂拽节拍

赵露思现身王鹤棣演唱会,眼神锁定狂拽节拍

火姐娱乐trend
2026-01-18 09:47:23
军事专家李莉清空账号作品,是频频被打脸到无脸见人了么?

军事专家李莉清空账号作品,是频频被打脸到无脸见人了么?

廖保平
2026-01-16 09:53:38
2026-01-19 08:20:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
442文章数 14关注度
往期回顾 全部

科技要闻

编程从此不再有门槛!Claude Code火爆出圈

头条要闻

央视揭菜商使用含毒农药 村民:自己根本不吃这些蔬菜

头条要闻

央视揭菜商使用含毒农药 村民:自己根本不吃这些蔬菜

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

时尚
手机
家居
教育
军事航空

美拉德过时了?今年冬天最火的4个颜色竟然是它们

手机要闻

三星Galaxy S26系列渲染图曝光,边角设计更圆润

家居要闻

岁月柔情 现代品质轻奢

教育要闻

健全的家庭≠健全的家庭教育

军事要闻

特朗普突然转变态度"谢谢"伊朗 淡化对伊朗的军事威胁

无障碍浏览 进入关怀版