国产医疗大模型斩获三项SOTA！幻觉率优于GPT-5.2，问诊能力超过人类医生|百川|医疗领域

分享至

智东西
作者陈骏达
编辑漠影

我盯着屏幕上的AI诊断建议，反复读了三次。AI用清晰的专业术语罗列了可能的病因，可我的焦虑却没有丝毫缓解。

如果疼痛加剧该怎么办？这些药需要一起吃吗？我该先去哪个科室挂号？这些真正困扰普通患者的问题，答案里只字未提。AI似乎什么都懂，可我依然不知道该怎么做。

这也正是当前将AI大模型应用于医疗健康产场景的尴尬所在：它们能给出看起来专业感十足的回应，却撑不起一个真正的医疗决策。

作为患者，我们既不知道该怎么描述症状才算准确，也不清楚该提供哪些关键信息。最终，AI只能谨慎地给出一段涵盖各种可能性、却难以落地的建议。

如果，它能更像一位真正的医生呢？不急于抛出结论，而是先一步步引导，主动补齐医疗决策中缺失的那几块关键信息，比如疼痛的具体变化、用药史，或是过往的检查结果。

这，或许才是大模型真正走入现实医疗场景、发挥作用的转折点。

一、从机械问答到主动提问，会问诊的“AI医生”什么样？

昨天，百川智能开源的新一代医疗大模型Baichuan-M3，正是在上述方向上做的一次革新。

如果说传统医疗大模型像是医学知识问答机或医生角色扮演器，那么百川的追求，是尽可能还原真实的医疗决策过程，让模型具备主动收集关键信息、构建医学推理链路、动态抑制内容幻觉等原生医疗增强能力。

我们可以用下方这个案例，来感受Baichuan-M3与此前其他大模型的区别。

比如，当我向通用大模型发送“胸口长了个痘痘，两个月没消”这样的模糊消息时，没有主动收集信息能力的大模型，往往会基于有限的信息，直奔结论，列举出海量相关症状，让人一时间不知如何是好。

而当我与Baichuan-M3交互时，其“严肃问诊”带来的体验则完全不同。发送了相同的信息后，模型会主动要求我给予更多描述，比如具体长在哪个位置，看起来是什么样的，还贴心地给了对应的选项，供我回复。

Baichuan-M3逐步排查了吸烟史、手术史、外伤史、感染史等关键要素，也问了问我的饮食习惯，家族病史，直到它认为获取了足够完整的信息后，才决定给出判断。

这种直观的体验提升，也在榜单上得到了充分体现。去年5月，OpenAI发布了Healthbench。这一基准测试由来自60个国家的262位医生共同构建，收录了5000组高度逼真的多轮医疗对话，是目前较为权威、且贴近真实临床场景的医疗评测集。

长期以来，在Healthbench和HealthBench-Hard榜单上，霸榜的一直是GPT系列模型，Baichuan-M2此前曾冲到开源第一的位置，仅次于GPT-5。

此次发布的Baichuan-M3，则在HealthBench总分上超越OpenAI最新模型GPT-5.2，也在HealthBench Hard上登顶，成为当前全球医疗沟通和推理能力最强的医疗大模型。

在严肃的医疗场景，幻觉率也是一个十分重要的指标。常常被不少患者带着一同前往诊室，寻医问药的DeepSeek，幻觉率大概在6.1%左右，目前业内做得最好的GPT-5.2-High，幻觉率则在3.8%左右。Baichuan-M3则做到了3.5%的幻觉率，同样也是行业SOTA水平。

随着Baichuan-M3的问世，百川也同期发布了一项新的测评集——SCAN-bench。这项基准测试由150多位一线医生联合打造，能将诊疗过程拆解为更符合真实场景的病史采集、辅助检查、精准诊断三大阶段，对模型能力做出更全流程的评估。

在SCAN-bench上，M3在四个重要维度上，均显著高于人类医生基线水平，还大幅领先于国内外顶尖模型。

全新的使用体验与亮眼的榜单成绩背后，百川究竟做对了什么？

二、SCAN原则、强化学习多管齐下，教会AI“像医生一样思考”

在与百川的沟通中，我们了解到，百川内部其实有不少真正的临床医生，他们有的是从大医院辞职到百川全职工作，也有的在业余时间深度参与。这些一线医疗场景的Know-how，成为指导百川提升医疗大模型表现的重要参考。

比如，临床医生在面对患者时的行事逻辑往往是先排除危急重症，然后进行常规诊疗。但基于角色扮演的医疗AI问诊模式，往往无法践行这种安全优先级。没有关键风险点的牵引，问诊本身有可能失去重点，无法支撑安全可靠的临床判断。

为解决上述问题，百川需要的是一种范式的革新。他们提出了“严肃问诊范式”与“SCAN原则”，把临床问诊里的思维过程归纳为：Safety Stratification（安全分层）、Clarity Matters（信息澄清）、Association & Inquiry（关联追问）与Normative Protocol（规范化输出）。

Baichuan-M3登顶的SCAN-bench，正是在这一原则的指导下打造的。这一基准测试的三大阶段、多轮动态考核模式，可以更完整地模拟医生从接诊到确诊的全过程。

如果说SCAN原则、严肃问诊范式，像是给大模型出了一套医疗AI领域的模拟题，那么百川接下来要做的，就是把这套模拟题中的解题思路与评分标准，系统地内化为模型的核心思维框架与行为本能。

传统的强化学习算法，往往基于最终的结果给予模型奖励信号，但是这套模式在医疗决策场景往往会水土不服。一个医疗决策的背后，往往涉及诸多复杂的环节，一个环节出错，就有可能影响最终的结果。

百川的解法是把医疗流程划分为病史采集、鉴别诊断、检验检查和精确诊断四个阶段，这些阶段相互依赖，但是目标是独立的。这就允许百川的团队在训练过程中给每个环节配备独立的奖励机制，让长程决策的复杂度降低。

在强化学习中，另一个常见的问题是“奖励破解”——模型总是能以千奇百怪的捷径，找到拿高分的方式。比如，只要疯狂提问，或许就能刷高分数，但这往往不是我们想要看到的结果。

为此，百川开发了SPAR（基于相对基准的分步惩罚优势算法）。这一算法进一步细化了步骤惩罚机制，还加入了自适应课程学习的因素，最终有效遏制了无效提问。这一算法还解决了模型出现单步瑕疵时的奖励误判，能更为准确地给模型提供指导。

此外，百川使用的强化学习奖励模型还融入了医学教育中的OSCE（客观结构化临床考试）理念，将可计算的动态量表作为奖励标准，不再单纯追逐结果的对错，而是进行全维度的过程考核。

最终效果就是，经过训练的“AI医生”，整个问诊过程变得流畅、清晰、有逻辑，每一步都稳扎稳打，像一个真正在思考的医生，而不是一个只会背诵知识或耍小聪明骗分的机器学生。

Baichuan-M3在医疗推理能力方面的提升，以及幻觉率的下降，则得益于他们提出的事实感知强化学习（Fact-Aware RL）训练架构。

在这一架构中，百川没有把幻觉约束和推理能力作为两个单独的目标进行优化，而是将其结合成一套统一的工程化目标。这样既能保证模型敢于给出坚定、明确的医学判断，也不会使其因过度追求安全而陷入“正确但无用”的沉默，或为追求流畅而滋生危险的事实性幻觉。

简单来说，这套方法让模型学会了一种“负责任的自信”。

三、医疗AI奇点到来，有望缓解行业四大问题

在Baichuan-M3发布之际，我们也来到了百川在北京的办公室，与百川智能创始人兼CEO王小川面对面深度沟通。

此前，百川已在医疗AI方面取得一系列成绩。其开源模型M2发布后，月下载量超过十万次，累计下载近百万次，被业界视为“2025年影响力最大的开源医疗模型之一”。

随后的M2 Plus进一步引入“六元循证”系统，将幻觉降至基线模型的约三分之一，技术实力已吸引同行跟进甚至“挖人”。

对王小川而言，他认为今年是医疗AI奇点到来的一年，范式变革已经真正开始了。以医生为权威、为中心的模式正在逐步开始变化，AI工具提供的更多信息，让患者开始能够对自己健康负责任。

其实，做医疗，一直是百川的一条主线，这源自王小川对当前医疗体系四个根本性问题的认知。

首先，尽管如今我们已经能治愈各种复杂的疾病，但作为一门学科，医学本身仍是高度不发达的，仍处于“现象密集、理论滞后”的阶段。

这并不是百川的一家之言，此前，AI教母李飞飞也曾表达过类似的观点，医疗其实是一个黑暗的空间。人的行为和动作在其中扮演了重要，甚至是过于重要的角色。

同时，医患角色也存在错位的问题，决策权与受益权分离。患者是健康的最终受益者和责任人，但决策权和海量相关信息却掌握在医生手中。然而，医生并不总是能有时间、有条件准确地传达这些信息，可能会沟通不畅、患者体验不佳。王小川比喻，这如同“圣经的解释权只在教士手中”。

此外，医疗体系还面临优质医生资源不足且分布不均，就医体系重心偏高，大医院负荷重，基层与居家健康环节薄弱等结构性问题。

而像Baichuan-M3这样的医疗AI的价值，正在于能够同时从这几个维度寻求突破。大模型熟练掌握全科知识，能对一项具体的病症展开跨学科、跨领域的分析，往往超越人类医生的知识范畴。

医疗AI也让优质医疗服务进一步下沉，并通过为患者提供更多看得懂、能理解的信息，推动决策权回归患者自身。王小川相信，就像不懂法律的陪审团也能通过律师和法官的充分解释，得出判断一样，患者只要掌握了足够的信息，也能对自己的健康做出负责任的决定。

结语：走少有人走的路

在采访中，王小川向我们提及了一组数据：“去年行业发了500个AI医疗模型。”不过，相信对许多患者和普通用户而言，更多与医疗相关的AI对话，可能是发生在DeepSeek、豆包这样的通用AI助手中。

王小川对这一现象并不焦虑，他认为垂直模型能在医疗上做得比通用底座更好。百川对医疗行业理解更深，选择了一条少有人走的路，对医疗AI本身也有信仰。

今年，百川计划陆续推出2款面向C端的产品，除了全科覆盖之外，还会在肿瘤、儿科这两大最复杂、最能体现严肃医疗价值的领域重点发力。未来，我们或许还能看到百川在更多领域，给广大用户带来的惊喜。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.