AI 医疗还在比进度，百川已在比高度|医生|医学|ai医疗

AI 医疗还在比进度，百川已在比高度

2026-01-15 18:44:50　来源: AI科技评论

广东举报

分享至

Baichuan-M3：以为医疗决策过程建模为核心，三项关键评测达到全球最优水平。

作者丨郑佳美

编辑丨岑峰

近一年来，AI 医疗正在进入一个明显不同于以往的新阶段。无论在国内还是海外，越来越多大型科技公司、医药企业和产业资本开始通过投资、并购或深度合作的方式，进入 AI 健康与医疗领域。

这背后并不只是对赛道规模的押注，而是一个更清晰的共识正在形成：医疗，正在成为少数真正需要、也能够检验大模型能力上限的核心场景之一。

但现实问题同样突出。尽管应用数量快速增长，受限于能力，真正能进入医疗核心流程的 AI依然有限。当前主流医疗大模型，大多仍建立在静态问答或医生角色扮演的范式之上，模型被要求给出看起来合理、语气专业的回答，却并不真正理解医疗决策是如何发生的。

在真实场景中，这类模型往往难以主动发现信息缺口，无法构建完整的医学推理路径，也缺乏对医疗幻觉的有效约束，最终只能反复输出模糊而安全的高频建议。这正是AI医疗看起来很热，但落地很难的根本原因。

行业真正需要的，并不是更像医生的回答，而是更接近医疗决策过程本身的模型能力。

百川给出的解法，正是从这一点切入。百川新一代医疗增强大语言模型 Baichuan-M3，没有继续强化问答或对话表现，而是将训练目标直接对准医疗决策过程本身。新的模型不再只负责生成结论，而是被训练为能够主动收集关键信息、构建医学推理路径，并在推理过程中持续抑制幻觉。这意味着，模型第一次被系统性地当作决策参与者，而不是回答生成器。

这种能力定义的变化，直接提升了模型在真实医疗场景中的可用性与可靠性。在多项医疗评测中，Baichuan-M3 已经展现出超越当前国际主流模型的表现，它的优势并不体现在表达更自然，而在于判断更稳定、推理更完整、风险更可控。

从更宏观的角度看，百川的路径，或许代表着 AI 医疗正在发生的一次重要转向：行业关注点正从模型能不能回答医学问题，转向模型是否能被信任地嵌入医疗系统。

当这一条件逐步成立，AI 医疗的价值，才可能真正从单点工具，演进为医疗体系中的基础能力。

01
百川用三个SOTA破局AI临床落地难题

在严肃医疗场景中，判断一个大模型能不能真正用起来，关键并不在于它能不能给出一个看起来合理的答案，而在于它能不能在复杂、不确定、要求很高的情况下，稳定走完整个医疗决策过程。

百川在新一代医疗增强大语言模型 Baichuan-M3 中，正是围绕这一点做系统性设计的。模型的实际效果，主要体现在三个关键评测维度上，而且在这三个维度中都达到了当前行业的最好水平。

第一个维度，是HealthBench评估基准。HealthBench 是由 OpenAI 发布的医疗健康评测测试集，一共包含5000 组来自真实医疗场景的多轮对话，覆盖了多种实际应用情况。它和常见的问答测试不一样，不是看答得像不像，而是由 262 名医生共同制定了 48,562 项评估标准，用来系统评估模型在连续问诊、医学推理和风险控制等方面的能力。这一基准，也是 OpenAI 用来评估自家最先进模型和医疗健康产品的重要参考，包括 GPT-5.2 和 ChatGPT Health。

在 HealthBench 及其高难度子集 HealthBench-Hard 的测试中，Baichuan-M3表现出了明显的代际提升。和上一代模型 Baichuan-M2 相比，M3 在 HealthBench-Hard 上的得分提高了 27.9 个百分点，最终达到 44.4 分，并超过 GPT-5.2，刷新了这一基准的最好成绩。同时，在HealthBench的综合排行榜中，Baichuan-M3也排在第一位。这说明，在更复杂、更接近真实使用环境的医疗场景中，模型的稳定性和一致性已经明显提高。

第二个维度，是对医疗幻觉的控制。降低幻觉一直是百川在医疗方向上的长期目标。此前在 Baichuan-M2 Plus 中，百川已经验证，通过六源证据体系引入外部证据，可以在一定程度上缓解幻觉问题。 Baichuan-M3 更进一步，重点进一步前移到了模型本身，也就是在不使用外部工具、不做检索增强的情况下，尽量减少模型仅凭内部知识生成时出现幻觉。

为此，百川采用了一种更严格的评估方式。模型生成的长文本，会被拆解成一条条可以核查的医学判断，再逐条和权威医学来源进行比对，从而量化模型的事实准确性。

在这种无工具场景下的测试中，Baichuan-M3 的幻觉问题明显减少，整体可靠性已经超过 GPT-5.2。这意味着，模型在信息不充分时，不再急于给出结论，而是更倾向于收敛判断、降低风险。

第三个维度，是端到端的严肃问诊能力。为此，百川提出了“严肃问诊范式”与“SCAN原则”，通过Safety Stratification（安全分层)、Clarity Matters（信息澄清)、Association & Inquiry（关联追问)与 Normative Protocol（规范化输出)，将临床问诊中高度依赖经验的思维过程，第一次系统性地“白盒化”。

围绕 SCAN 原则，百川借鉴医学教育里长期使用的 OSCE 方法，联合 150 多位一线医生，搭建了 SCAN-bench 评测体系，这个体系以真实临床经验作为“标准答案”，将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段，通过动态、多轮的方式进行考核，完整模拟医生从接诊到确诊的全过程。相比于 HealthBench，SCAN-bench 是更加全流程端到端的动态评测新范式。

同时，百川还使用原生模型训练方法取代角色扮演 prompt，针对 GRPO 无法稳定进行长对话训练的问题，设计了新的SPAR 算法，使模型能够在有限对话轮次中，把临床真正需要的关键问题问全、问准，把风险兜住，让输出经得起复核。

在SCAN-bench的综合评测中，Baichuan-M3 在临床问诊、实验室检查和疾病诊断三个核心环节中都排在第一位。

尤其是在最难、也最能拉开差距的临床问诊阶段，Baichuan-M3 得到了 74.9 分，不仅比第二名模型 GPT-5.2-High 高出 12.4 分，也明显高于 53.5 分的人类基线水平。在实验室检查建议和最终诊断两个环节，模型分别取得 72.1 分和 74.4 分，同样保持最高准确率。这些结果说明，Baichuan-M3已经具备从病史采集、检查决策到最终诊断的完整医疗推理能力。

支撑这些结果的，是百川对医疗长决策链训练方式的系统调整。在训练中，复杂的诊疗流程被拆分成多个阶段分别优化，并通过分段流水线强化学习提高整体效率。同时，引入 SPAR 算法，对多轮对话中的每一步进行更精细的奖励和约束，减少无效提问和逻辑跳跃，让模型在保证准确率的同时，保持交互过程的连贯和可控。

在此基础上，Baichuan-M3 把推理能力的提升和幻觉控制放在同一套工程目标中一起优化。通过事实感知强化学习训练架构，模型在提升推理能力的同时，引入对医学事实的动态校验机制，避免因为推理能力变强而放大幻觉风险。最终形成的，是一种既能深入推理、又足够可靠的医疗服务能力。

整体来看，Baichuan-M3 在 HealthBench、幻觉评估和 SCAN-bench 三个维度上的领先，并不是零散成绩，而是同一套设计思路在不同评测体系中的集中体现。当模型被训练为真正理解医疗决策是如何一步步发生的，它在真实医疗场景中的长期使用价值，才真正开始成立。

02
真正的AI医疗，不是一场短跑

如果把视角从单一模型或单次技术突破中抽离出来，放到更长的产业周期中去看，百川在医疗方向上的持续投入，本质上是一种少见但更具确定性的长期主义选择。

医疗从来不是 AI 最容易兑现价值的领域，它不允许快速试错，也不接受模糊结论，对安全性、可解释性和责任边界都有近乎苛刻的要求。正因如此，医疗也成为少数几个真正能够逼迫大模型走出生成能力舒适区、检验其工程成熟度与系统可靠性的场景之一。

近一年来，国内外 AI 医疗的密集升温，并不是偶然的市场情绪变化，而是多重因素叠加后的结果。一方面，大模型在推理、长链条决策和多轮交互上的能力开始逼近可用门槛，另一方面，医疗系统内部长期存在的信息割裂、效率瓶颈和结构性压力，也在主动寻找新的技术解法。

这种供需在时间点上的重合，使 AI 医疗从是否可行的讨论，逐步转向如何进入核心流程的现实问题。在这一背景下，早期就选择深度参与医疗的公司，开始显现出路径上的先发优势。

也正是在这一阶段，行业内不同路径之间的差异开始被放大。

一类玩家选择用规模和连接来证明自身价值，通过强调日活用户数量、资金投入规模以及连接了多少医生和医疗资源，来展示自身的存在感。但如果整个行业都用这些产品经理所熟悉的B端规模指标来衡量AI价值时，医疗AI其实正在陷入一种‘数据焦虑’。

从某种程度上说，这段时间一些原本以医疗为核心叙事的产品将重心转向大健康领域，更多聚焦饮食管理、运动建议和情绪价值，同样也是互联网产品经理数据焦虑的另一种体现。这种选择能够立竿见影地改善数据，但客观上回避了医疗中最困难、也最不可回避的核心问题，即诊断责任。

在严肃医疗场景中，上述数据的优势和体验的优化，并不会自动转化为诊断能力本身。AI 医疗或许并不需要另一个更亲民的‘导诊员’或‘挂号助手’，真正稀缺的是能够像主治医师一样，在复杂病史中抽丝剥茧、构建推理路径的‘决策大脑’。

相比于走向泛健康、泛陪伴的‘轻型助手’路径，百川选择了最难的一条路：硬碰硬地进入严肃医疗场景，把重心前移到模型能力上，关注的不是连接了多少医生、患者，而是模型本身是否具备医生级别的能力结构——医疗AI不应只是缓解焦虑的‘情绪搭子’，而应是解决病痛的‘科学工具’。

百川更看重的，不是优化看病的流程，而是提升诊断的质量。

这也意味着，百川面对的并不是短期竞争，而是一场标准更高、周期更长的系统工程。

严肃医疗要求模型不仅能够给出结论，还必须在信息是否充分、判断是否稳健、风险是否可控等方面经得起反复检验。这类能力很难通过简单的模型堆叠或话术优化获得，而更依赖长期的训练范式、评估体系和工程经验积累。这也是为什么，真正有能力进入医疗核心流程的AI系统，始终屈指可数。

从这个意义上看，百川正在构建的并不仅是一代模型的领先优势，而是一套更底层的能力结构。它试图让 AI 从辅助工具，逐步转变为可以被医疗系统理解、审核和接续的能力模块。

这种结构一旦成立，价值就不会局限于某个产品或某次应用上线，而会在更长时间内持续释放复利效应。它看起来很慢，但回报方式本身，更符合医疗系统的演进逻辑。

AI 医疗真正的分水岭，或许不在于模型参数规模或单项指标的领先，而在于是否有足够的耐心和判断力，去承担严肃医疗所必然伴随的复杂性、约束与长期投入。当行业逐步从热度回归理性，那些真正围绕医疗本身做系统性建设的路径，才会开始显现出不可替代的价值。百川正在押注的，正是这样一个更长远、也更具确定性的未来。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.