网易首页 > 网易号 > 正文 申请入驻

AI 医疗还在比进度,百川已在比高度

0
分享至


Baichuan-M3:以为医疗决策过程建模为核心,三项关键评测达到全球最优水平。

作者丨郑佳美

编辑丨岑峰

近一年来,AI 医疗正在进入一个明显不同于以往的新阶段。无论在国内还是海外,越来越多大型科技公司、医药企业和产业资本开始通过投资、并购或深度合作的方式,进入 AI 健康与医疗领域。

这背后并不只是对赛道规模的押注,而是一个更清晰的共识正在形成:医疗,正在成为少数真正需要、也能够检验大模型能力上限的核心场景之一。

但现实问题同样突出。尽管应用数量快速增长,受限于能力,真正能进入医疗核心流程的 AI依然有限。当前主流医疗大模型,大多仍建立在静态问答或医生角色扮演的范式之上,模型被要求给出看起来合理、语气专业的回答,却并不真正理解医疗决策是如何发生的。

在真实场景中,这类模型往往难以主动发现信息缺口,无法构建完整的医学推理路径,也缺乏对医疗幻觉的有效约束,最终只能反复输出模糊而安全的高频建议。这正是AI医疗看起来很热,但落地很难的根本原因。

行业真正需要的,并不是更像医生的回答,而是更接近医疗决策过程本身的模型能力。

百川给出的解法,正是从这一点切入。百川新一代医疗增强大语言模型 Baichuan-M3,没有继续强化问答或对话表现,而是将训练目标直接对准医疗决策过程本身。新的模型不再只负责生成结论,而是被训练为能够主动收集关键信息、构建医学推理路径,并在推理过程中持续抑制幻觉。这意味着,模型第一次被系统性地当作决策参与者,而不是回答生成器。

这种能力定义的变化,直接提升了模型在真实医疗场景中的可用性与可靠性。在多项医疗评测中,Baichuan-M3 已经展现出超越当前国际主流模型的表现,它的优势并不体现在表达更自然,而在于判断更稳定、推理更完整、风险更可控。

从更宏观的角度看,百川的路径,或许代表着 AI 医疗正在发生的一次重要转向:行业关注点正从模型能不能回答医学问题,转向模型是否能被信任地嵌入医疗系统

当这一条件逐步成立,AI 医疗的价值,才可能真正从单点工具,演进为医疗体系中的基础能力。

01
百川用三个SOTA破局AI临床落地难题

在严肃医疗场景中,判断一个大模型能不能真正用起来,关键并不在于它能不能给出一个看起来合理的答案,而在于它能不能在复杂、不确定、要求很高的情况下,稳定走完整个医疗决策过程。

百川在新一代医疗增强大语言模型 Baichuan-M3 中,正是围绕这一点做系统性设计的。模型的实际效果,主要体现在三个关键评测维度上,而且在这三个维度中都达到了当前行业的最好水平。

第一个维度,是HealthBench评估基准。HealthBench 是由 OpenAI 发布的医疗健康评测测试集,一共包含5000 组来自真实医疗场景的多轮对话,覆盖了多种实际应用情况。它和常见的问答测试不一样,不是看答得像不像,而是由 262 名医生共同制定了 48,562 项评估标准,用来系统评估模型在连续问诊、医学推理和风险控制等方面的能力。这一基准,也是 OpenAI 用来评估自家最先进模型和医疗健康产品的重要参考,包括 GPT-5.2 和 ChatGPT Health。

在 HealthBench 及其高难度子集 HealthBench-Hard 的测试中,Baichuan-M3表现出了明显的代际提升。和上一代模型 Baichuan-M2 相比,M3 在 HealthBench-Hard 上的得分提高了 27.9 个百分点,最终达到 44.4 分,并超过 GPT-5.2,刷新了这一基准的最好成绩。同时,在HealthBench的综合排行榜中,Baichuan-M3也排在第一位。这说明,在更复杂、更接近真实使用环境的医疗场景中,模型的稳定性和一致性已经明显提高。


第二个维度,是对医疗幻觉的控制。降低幻觉一直是百川在医疗方向上的长期目标。此前在 Baichuan-M2 Plus 中,百川已经验证,通过六源证据体系引入外部证据,可以在一定程度上缓解幻觉问题。 Baichuan-M3 更进一步,重点进一步前移到了模型本身,也就是在不使用外部工具、不做检索增强的情况下,尽量减少模型仅凭内部知识生成时出现幻觉。


为此,百川采用了一种更严格的评估方式。模型生成的长文本,会被拆解成一条条可以核查的医学判断,再逐条和权威医学来源进行比对,从而量化模型的事实准确性。

在这种无工具场景下的测试中,Baichuan-M3 的幻觉问题明显减少,整体可靠性已经超过 GPT-5.2。这意味着,模型在信息不充分时,不再急于给出结论,而是更倾向于收敛判断、降低风险。


第三个维度,是端到端的严肃问诊能力。为此,百川提出了“严肃问诊范式”与“SCAN原则”,通过Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与 Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地“白盒化”。

围绕 SCAN 原则,百川借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,这个体系以真实临床经验作为“标准答案”,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相比于 HealthBench,SCAN-bench 是更加全流程端到端的动态评测新范式。

同时,百川还使用原生模型训练方法取代角色扮演 prompt,针对 GRPO 无法稳定进行长对话训练的问题,设计了新的SPAR 算法,使模型能够在有限对话轮次中,把临床真正需要的关键问题问全、问准,把风险兜住,让输出经得起复核。


SCAN-bench的综合评测中,Baichuan-M3 在临床问诊、实验室检查和疾病诊断三个核心环节中都排在第一位。

尤其是在最难、也最能拉开差距的临床问诊阶段,Baichuan-M3 得到了 74.9 分,不仅比第二名模型 GPT-5.2-High 高出 12.4 分,也明显高于 53.5 分的人类基线水平。在实验室检查建议和最终诊断两个环节,模型分别取得 72.1 分和 74.4 分,同样保持最高准确率。这些结果说明,Baichuan-M3已经具备从病史采集、检查决策到最终诊断的完整医疗推理能力。


支撑这些结果的,是百川对医疗长决策链训练方式的系统调整。在训练中,复杂的诊疗流程被拆分成多个阶段分别优化,并通过分段流水线强化学习提高整体效率。同时,引入 SPAR 算法,对多轮对话中的每一步进行更精细的奖励和约束,减少无效提问和逻辑跳跃,让模型在保证准确率的同时,保持交互过程的连贯和可控。

在此基础上,Baichuan-M3 把推理能力的提升和幻觉控制放在同一套工程目标中一起优化。通过事实感知强化学习训练架构,模型在提升推理能力的同时,引入对医学事实的动态校验机制,避免因为推理能力变强而放大幻觉风险。最终形成的,是一种既能深入推理、又足够可靠的医疗服务能力。


整体来看,Baichuan-M3 在 HealthBench、幻觉评估和 SCAN-bench 三个维度上的领先,并不是零散成绩,而是同一套设计思路在不同评测体系中的集中体现。当模型被训练为真正理解医疗决策是如何一步步发生的,它在真实医疗场景中的长期使用价值,才真正开始成立。

02
真正的
AI医疗,不是一场短跑

如果把视角从单一模型或单次技术突破中抽离出来,放到更长的产业周期中去看,百川在医疗方向上的持续投入,本质上是一种少见但更具确定性的长期主义选择

医疗从来不是 AI 最容易兑现价值的领域,它不允许快速试错,也不接受模糊结论,对安全性、可解释性和责任边界都有近乎苛刻的要求。正因如此,医疗也成为少数几个真正能够逼迫大模型走出生成能力舒适区、检验其工程成熟度与系统可靠性的场景之一。

近一年来,国内外 AI 医疗的密集升温,并不是偶然的市场情绪变化,而是多重因素叠加后的结果。一方面,大模型在推理、长链条决策和多轮交互上的能力开始逼近可用门槛,另一方面,医疗系统内部长期存在的信息割裂、效率瓶颈和结构性压力,也在主动寻找新的技术解法。

这种供需在时间点上的重合,使 AI 医疗从是否可行的讨论,逐步转向如何进入核心流程的现实问题。在这一背景下,早期就选择深度参与医疗的公司,开始显现出路径上的先发优势。

也正是在这一阶段,行业内不同路径之间的差异开始被放大。

一类玩家选择用规模和连接来证明自身价值,通过强调日活用户数量、资金投入规模以及连接了多少医生和医疗资源,来展示自身的存在感。但如果整个行业都用这些产品经理所熟悉的B端规模指标来衡量AI价值时,医疗AI其实正在陷入一种‘数据焦虑’。

从某种程度上说,这段时间一些原本以医疗为核心叙事的产品将重心转向大健康领域,更多聚焦饮食管理、运动建议和情绪价值,同样也是互联网产品经理数据焦虑的另一种体现。这种选择能够立竿见影地改善数据,但客观上回避了医疗中最困难、也最不可回避的核心问题,即诊断责任

在严肃医疗场景中,上述数据的优势和体验的优化,并不会自动转化为诊断能力本身。AI 医疗或许并不需要另一个更亲民的‘导诊员’或‘挂号助手’,真正稀缺的是能够像主治医师一样,在复杂病史中抽丝剥茧、构建推理路径的‘决策大脑’。

相比于走向泛健康、泛陪伴的‘轻型助手’路径,百川选择了最难的一条路:硬碰硬地进入严肃医疗场景,把重心前移到模型能力上,关注的不是连接了多少医生、患者,而是模型本身是否具备医生级别的能力结构——医疗AI不应只是缓解焦虑的‘情绪搭子’,而应是解决病痛的‘科学工具’。

百川更看重的,不是优化看病的流程,而是提升诊断的质量。

这也意味着,百川面对的并不是短期竞争,而是一场标准更高、周期更长的系统工程

严肃医疗要求模型不仅能够给出结论,还必须在信息是否充分、判断是否稳健、风险是否可控等方面经得起反复检验。这类能力很难通过简单的模型堆叠或话术优化获得,而更依赖长期的训练范式、评估体系和工程经验积累。这也是为什么,真正有能力进入医疗核心流程的AI系统,始终屈指可数。

从这个意义上看,百川正在构建的并不仅是一代模型的领先优势,而是一套更底层的能力结构。它试图让 AI 从辅助工具,逐步转变为可以被医疗系统理解、审核和接续的能力模块。

这种结构一旦成立,价值就不会局限于某个产品或某次应用上线,而会在更长时间内持续释放复利效应。它看起来很慢,但回报方式本身,更符合医疗系统的演进逻辑。

AI 医疗真正的分水岭,或许不在于模型参数规模或单项指标的领先,而在于是否有足够的耐心和判断力,去承担严肃医疗所必然伴随的复杂性、约束与长期投入。当行业逐步从热度回归理性,那些真正围绕医疗本身做系统性建设的路径,才会开始显现出不可替代的价值。百川正在押注的,正是这样一个更长远、也更具确定性的未来。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马斯克警告中国在AI计算和电力上大幅领先美国:中国电力产能2026年达到美国的3倍

马斯克警告中国在AI计算和电力上大幅领先美国:中国电力产能2026年达到美国的3倍

知识圈
2026-01-15 16:49:27
西贝创始人贾国龙发长文为华杉正名:华与华是“最好的企业咨询公司”,当时他流泪劝我不要回应,是我不听

西贝创始人贾国龙发长文为华杉正名:华与华是“最好的企业咨询公司”,当时他流泪劝我不要回应,是我不听

大风新闻
2026-01-16 08:14:05
言论翻车!张维为“特朗普捉马杜罗显美弱势”言论遭狂批

言论翻车!张维为“特朗普捉马杜罗显美弱势”言论遭狂批

老马拉车莫少装
2026-01-15 23:11:25
原来他就是聂卫平长子,移民日本改国籍娶日本妻,拒绝让儿子姓聂

原来他就是聂卫平长子,移民日本改国籍娶日本妻,拒绝让儿子姓聂

一娱三分地
2026-01-15 16:10:35
关闭102家门店!胡锡进:贾国龙不该那么蠢,互联网也不该这么狠

关闭102家门店!胡锡进:贾国龙不该那么蠢,互联网也不该这么狠

火山诗话
2026-01-16 06:11:54
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
聂卫平全家福曝光太催泪,3个子女近况各不同,最后露面暴瘦!

聂卫平全家福曝光太催泪,3个子女近况各不同,最后露面暴瘦!

古希腊掌管松饼的神
2026-01-15 13:55:45
航母打击群开往中东,特朗普:希望“速战速决”!伊朗进入最高战备状态,约2000枚导弹可覆盖美以基地!多国航班绕飞伊领空

航母打击群开往中东,特朗普:希望“速战速决”!伊朗进入最高战备状态,约2000枚导弹可覆盖美以基地!多国航班绕飞伊领空

每日经济新闻
2026-01-15 19:49:32
委内瑞拉对莫斯科感到失望:俄罗斯被斥为“纸老虎”

委内瑞拉对莫斯科感到失望:俄罗斯被斥为“纸老虎”

老马拉车莫少装
2026-01-14 23:21:48
文班在防守字母哥时与对方对撞膝盖痛苦倒地,现已返回更衣室

文班在防守字母哥时与对方对撞膝盖痛苦倒地,现已返回更衣室

懂球帝
2026-01-16 09:40:09
赢麻了!深圳一工厂称海外订单爆棚,春节期不放假,工资按4倍拿

赢麻了!深圳一工厂称海外订单爆棚,春节期不放假,工资按4倍拿

火山诗话
2026-01-16 05:45:07
三位离退休“老干部”分别在美国、日本和澳大利亚去世...

三位离退休“老干部”分别在美国、日本和澳大利亚去世...

深度报
2026-01-15 22:44:55
原来她们是聂卫平妻子,第一任棋手第二任王刚妹妹 第三任最特别

原来她们是聂卫平妻子,第一任棋手第二任王刚妹妹 第三任最特别

揽星河的笔记
2026-01-15 15:16:44
“棋圣”聂卫平去世不到3小时,恶心的一幕发生,女儿曾凌晨发文

“棋圣”聂卫平去世不到3小时,恶心的一幕发生,女儿曾凌晨发文

鋭娱之乐
2026-01-15 12:42:52
23岁女子因被逼嫁给38岁男子喝药轻生?当地妇联:救治结束后会澄清一些事情;双方知情人士讲述

23岁女子因被逼嫁给38岁男子喝药轻生?当地妇联:救治结束后会澄清一些事情;双方知情人士讲述

大风新闻
2026-01-15 21:46:37
几乎被抢光!清仓首日大排长队,门口500米堵车2小时,网友:全是人,信号都没有

几乎被抢光!清仓首日大排长队,门口500米堵车2小时,网友:全是人,信号都没有

新民晚报
2026-01-15 22:17:59
原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

以茶带书
2026-01-15 14:14:27
全网学中式养生:TikTok上掀起“当中国人很酷”的潮流

全网学中式养生:TikTok上掀起“当中国人很酷”的潮流

上游新闻
2026-01-15 22:26:07
QQ官方回应沈腾空间被盗传闻:非盗号,是腾哥的来时路

QQ官方回应沈腾空间被盗传闻:非盗号,是腾哥的来时路

TechWeb
2026-01-15 17:56:03
四川泸州“花坛白骨案”告破:女老板遭谋杀藏尸,嫌疑人“换脸”逃亡28年

四川泸州“花坛白骨案”告破:女老板遭谋杀藏尸,嫌疑人“换脸”逃亡28年

封面新闻
2026-01-15 19:13:05
2026-01-16 09:52:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7043文章数 20725关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

马克龙警告美国:侵犯格陵兰岛将引发"前所未有后果"

头条要闻

马克龙警告美国:侵犯格陵兰岛将引发"前所未有后果"

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

旅游
游戏
数码
公开课
军事航空

旅游要闻

闪电新闻“孔孟之乡·运河之都”建设世界文化旅游名城专题上线!一站式解锁济宁文旅新体验

《波斯王子:时之砂》重制版网页更新显示今日发售

数码要闻

Keychron海外推出K3 Max全木版机械键盘=,119.99美元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版