网易首页 > 网易号 > 正文 申请入驻

百川智能宣布开源全球最强医疗大模型Baichuan-M3,能力超GPT-5.2

0
分享至

【TechWeb】1月13日消息,百川智能宣布开源新一代医疗大模型 Baichuan-M3,该模型具有强推理、低幻觉和端到端的严肃问诊能力,能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。

据悉,Baichuan-M3在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一;在专门考验复杂决策能力的 HealthBench Hard 上,也以44.4分的成绩夺冠,首次在医疗领域实现了对 GPT-5.2 的全面超越。在OpenAI引以为傲的低幻觉领域,M3也实现了超越,幻觉率3.5全球最低。


同时,百川智能的医疗应用“百小应”已同步接入 M3,面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路,患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。

Baichuan-M3开源:

Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B

GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B

2025年8月,百川开源医疗增强大模型 M2 在 HealthBench 上力压 gpt-oss-120B、DeepSeek-R1 等同期所有开源模型,并在 HealthBench Hard 上取得 34.7 分的成绩,仅次于GPT-5,成为全球唯二突破 32 分的模型。

在M2 发布后的五个月里,百川团队对强化学习系统进行了全面升级,将原本以患者模拟器和静态 Rubric 为主的半动态反馈,升级为随模型能力不断演进的全动态 Verifier System。随着监督信号持续变细、变难,模型得以不断突破能力上限,使 M3 在复杂医学问题上的表现实现跃迁,不仅在 HealthBench 总分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登顶,成为当前全球医疗沟通和推理能力最强的医疗大模型。

幻觉是这一代大模型技术范式的通病,更是AI进入严肃医疗的拦路虎。在大多数场景幻觉只是体验问题,而在严肃医疗场景可导致安全事件。

百川M3将医疗幻觉抑制前移至模型训练阶段,在强化学习过程中将医学事实一致性作为核心训练目标之一,将“知之为知之,不知为不知”直接作用于模型自身能力的形成过程。这一新的训练方法将医学事实可靠性内化为M3自身的基础能力,使其在不借助任何外部系统的情况下,依然能够基于自身医学知识进行稳定、可信的作答。通过将事实一致性约束融入训练流程,M3重构了幻觉抑制的训练范式,在不依赖工具或检索增强的纯模型设置下,医疗幻觉率3.5,超越GPT-5.2,达到全球最低水平。



除了强推理和低幻觉,端到端的问诊能力是本次M3最重要的一项突破。

百川团队提出了“严肃问诊范式”与“SCAN原则”,通过Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地“白盒化”。

围绕SCAN原则,团队借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,该体系以真实临床经验作为“标准答案”,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相

比于HealthBench,SCAN-bench是更加全流程端到端的动态评测新范式。同时,我们还使用原生模型训练方法取代角色扮演prompt,针对GRPO无法稳定进行长对话训练的问题,设计了新的 SPAR 算法,使模型能够在有限对话轮次中,把临床真正需要的关键问题问全、问准,把风险兜住,让输出经得起复核。百川团队在实验过程中发现,问诊准确度每增加2%,诊疗结果准确度就会增加1%。


评测结果显示,M3 在SCAN的四个维度均显著高于人类医生基线水平,并大幅领先于国内外顶尖模型,成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。

百川智能表示,从 去年1 月初 OpenAI 发布医疗产品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 医疗正在全球范围内提档加速,竞争也正式进入深水区。在这场竞速中,作为国内唯一专注医疗的大模型企业,百川持续突破低幻觉率、端到端问诊和复杂临床推理等核心能力,已从“跟随者”跃迁为行业“引领者”与新范式的“定义者”,正以硬核实力扛起中国 AI 医疗发展的旗帜。(果青)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
取消2万亿出口退税,这一次我站胡锡进

取消2万亿出口退税,这一次我站胡锡进

冰川思想库
2026-01-13 12:10:22
3-0!德甲第2狂胜:联赛10场不败,追赶拜仁,差距依然很大

3-0!德甲第2狂胜:联赛10场不败,追赶拜仁,差距依然很大

足球狗说
2026-01-14 05:23:27
他是道德上的小人,却是政治上的巨人

他是道德上的小人,却是政治上的巨人

小豫讲故事
2026-01-10 06:00:08
欧篮联警告NBA不得继续接触欧洲俱乐部,否则将采取法律行动

欧篮联警告NBA不得继续接触欧洲俱乐部,否则将采取法律行动

懂球帝
2026-01-14 00:25:08
陆家嘴,没落了?

陆家嘴,没落了?

环线房产咨询
2026-01-13 11:39:23
朝鲜不会成为第二个委内瑞拉!因为朝鲜有两个后盾

朝鲜不会成为第二个委内瑞拉!因为朝鲜有两个后盾

米君文史
2026-01-07 10:01:47
冲4连胜!快船3人缺席,奇才特雷杨赛前决定,卢谈祖巴茨需要时间

冲4连胜!快船3人缺席,奇才特雷杨赛前决定,卢谈祖巴茨需要时间

一登侃球
2026-01-13 20:00:13
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
卡里克锁定曼联重建核心!不是 B 费,竟是被阿莫林弃用的他

卡里克锁定曼联重建核心!不是 B 费,竟是被阿莫林弃用的他

奶盖熊本熊
2026-01-14 02:11:51
广州的廖一帆爸爸火了,因为他揭开了家委会的真相

广州的廖一帆爸爸火了,因为他揭开了家委会的真相

清晖有墨
2025-09-05 19:24:18
中国24小时内正式反击对美韩加征113%报复关税

中国24小时内正式反击对美韩加征113%报复关税

阿晪美食
2026-01-13 19:10:25
郑州市人民政府关于毛新辉等21人职务任免的通知

郑州市人民政府关于毛新辉等21人职务任免的通知

大象新闻
2026-01-13 19:41:04
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
郭富城大房:掌管郭富城20亿身家,却30年没有名分,甘愿为郭带娃

郭富城大房:掌管郭富城20亿身家,却30年没有名分,甘愿为郭带娃

玥来玥好讲故事
2025-12-27 17:01:58
谷歌英伟达遥遥领先,亚洲科技股持续看涨,“美股七巨头”统治力面临挑战

谷歌英伟达遥遥领先,亚洲科技股持续看涨,“美股七巨头”统治力面临挑战

环球网资讯
2026-01-14 07:03:44
30岁高颜值少妇出租屋卖淫:一次百元,被抓画面流出,证据摆一地

30岁高颜值少妇出租屋卖淫:一次百元,被抓画面流出,证据摆一地

博士观察
2026-01-13 20:25:42
今晚,江苏气温“暴跌”16℃!

今晚,江苏气温“暴跌”16℃!

江南晚报
2026-01-14 03:31:04
刚刚,卡到爆!网页终于出来额度全部0了……

刚刚,卡到爆!网页终于出来额度全部0了……

都市快报橙柿互动
2026-01-13 22:24:20
军事专家李莉并没有清空作品

军事专家李莉并没有清空作品

难得君
2026-01-13 11:46:20
当法国超跑撞上美国大排量——姆总与伊万卡这对跨界CP的离谱瓜田

当法国超跑撞上美国大排量——姆总与伊万卡这对跨界CP的离谱瓜田

罗氏八卦
2026-01-14 07:54:54
2026-01-14 09:07:00
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
15286文章数 43050关注度
往期回顾 全部

科技要闻

美国放宽对英伟达H200芯片出口中国的管制

头条要闻

加拿大总理访问中国 在华加拿大商界感到非常兴奋

头条要闻

加拿大总理访问中国 在华加拿大商界感到非常兴奋

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

特朗普抨击鲍威尔:"那个混蛋"很快走人

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

艺术
房产
亲子
手机
公开课

艺术要闻

世界各地的男女厕所标志, 看得都大笑了!

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

亲子要闻

3岁半女孩学习跳舞,小小年纪为了收腹用尽力气 #睡个好觉

手机要闻

苹果推送iOS / iPadOS / macOS 26.3第二个公测版

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版