百川开源医疗大模型 M3，王小川：今年会发布两款 ToC 产品，正在做硬件|春雨医生|健康领域

分享至

AI 医疗突然成为了这个月的热点。

1 月初 OpenAI 发布医疗产品 ChatGPT Health，Anthropic 推出 Claude for Healthcare，昨天，百川智能正式开源新一代医疗大模型 Baichuan-M3。

评测成绩很突出，在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一；在专门考验复杂决策能力的 HealthBench Hard 上，也以 44.4 分的成绩夺冠。这一成绩，不仅刷新了 HealthBench 的最高分，更首次在医疗领域实现了对 GPT-5.2 的全面超越。

在 OpenAI 引以为傲的低幻觉领域，M3 也实现了超越，幻觉率 3.5 全球最低。

此外，M3 还首次具备了原生的「端到端」严肃问诊能力。能像医生一样主动追问、逐层逼近，把关键病史和风险信号问出来，进而在完整的信息上进行深度医学推理。评测显示，其问诊能力显著高于真人医生的平均水平。

百川的医疗应用「百小应」已同步接入 M3，面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路，患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。

发布会上，我们跟创始人王小川就百川在医疗领域的下一步、ToC 产品的策略以及商业化落地上进行了交流。

⬆️关注 Founder Park，最及时最干货的创业分享

超 19000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

01低幻觉之外，

核心是端到端的问诊能力

百川 M3 这次将医疗幻觉抑制前移至模型训练阶段，在强化学习过程中将医学事实一致性作为核心训练目标之一，通过将事实一致性约束融入训练流程，M3 重构了幻觉抑制的训练范式，在不依赖工具或检索增强的纯模型设置下，医疗幻觉率 3.5，超越 GPT-5.2，达到全球最低水平。

除了强推理和低幻觉，端到端的问诊能力是本次 M3 最重要的一项突破。

AI 应用实践中，通过 prompt「你是一位经验丰富的医生」，激活模型的「角色扮演」是更常见的做法。这种方式得到的是模型的表演行为，而非内生能力，激活的是模型应该提问的行为，而不是必须获取关键信息的思考。即便对话看似完整，也难以支撑安全、可靠的临床判断，从根本上偏离了医疗「安全第一」的原则。

针对这一问题，百川提出了「严肃问诊范式」与「SCAN 原则」，通过 Safety Stratification（安全分层）、Clarity Matters（信息澄清）、Association & Inquiry（关联追问）与 Normative Protocol（规范化输出），将临床问诊中高度依赖经验的思维过程，第一次系统性地「白盒化」。

借鉴医学教育里长期使用的 OSCE 方法，联合 150 多位一线医生，搭建了 SCAN-bench 评测体系，该体系以真实临床经验作为「标准答案」，将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段，通过动态、多轮的方式进行考核，完整模拟医生从接诊到确诊的全过程。相比于 HealthBench，SCAN-bench 是更加全流程端到端的动态评测新范式。

同时，还使用原生模型训练方法取代角色扮演 prompt，针对 GRPO 无法稳定进行长对话训练的问题，设计了新的 SPAR 算法，使模型能够在有限对话轮次中，把临床真正需要的关键问题问全、问准，把风险兜住，让输出经得起复核。

在实验过程中发现，问诊准确度每增加 2%，诊疗结果准确度就会增加 1%。评测结果显示，M3 在 SCAN 的四个维度均显著高于人类医生基线水平，并大幅领先于国内外顶尖模型，成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。

02想用 AI 实现医患权力的让渡，

而不是取代医生

Q：百川主要想解决医疗场景中的哪些问题？

王小川：医疗行业有几个核心痛点：

第一是好医生不够。上一波互联网医疗，像好大夫、春雨医生，它们的模式是通过互联网解决连接问题，这就像做滴滴和美团，前提是供给端要充足。医疗行业的供给恰恰是不足的，所以互联网时代解决不了这个问题。AI 的爆发，可以创造出高质量的医生供给。大家可能 2023 年还不太信这个东西，但到了 2025 年，感受就会越来越明显。

第二是医患关系不平等。医疗是少有的受益和决策分离的行业。作为受益方，患者很难在决策中获得充分的信息和话语权。

我们认为 AI 可以填补医患之间的 gap，不是说医生什么都不干了，检查、手术、治疗都是医生干的事情，但我们希望让患者明明白白地看病，对于自己的健康状况有更多地了解，更好地理解医生说的话。之前谈得比较少，要么就是 AI 取代医生，要么就是 AI 帮助医生，但更重要的是医患权力的让渡，医生把一部分权力逐步让渡给患者。

我们认为，未来的医疗模式既不会动医生的蛋糕，也不会让患者产生焦虑，解决权力让渡的问题，这是必然的趋势。比如，一个病症，医生可能给出两个方案，一个保守，一个激进，或者三个医生每个方案都不一样，患者怎么选？我们的 AI 医生足够强，能够补充各种信息，把解释做好时，患者和医生的关系就会进入一个新的阶段。

第三，三甲医院消耗过度。中国和美国有个区别，美国有家庭医生体系，大多数人都有自己的全科大夫，小病先找他们，有了大病再转到专科，医疗行为主要发生在基层。中国，大家习惯都往大医院、三甲医院挤，导致医疗负担非常重。国家虽然一直在推行基层首诊，但虹吸效应依然很强。今后一个大的趋势就是医疗场景会发生变化，大家拥有 AI 助手以后，更不去基层了，小毛病自己就看了。国家号召的「强基层」，未来可能不仅包括社区医院，居家也会成为一个重要的医疗场景。人们在家里就能跟 AI 对话、获取初步诊断，从根本上改变中国三级诊疗的格局。

第四，对人体的医学机制认知还不够深入。患者总是觉得自己不懂，医生懂，其实医生有的时候也不懂，每个科室的医生都是知道局部的信息，复杂问题需要跨科室会诊。今天的 AI for Science，比如过去的蛋白质解码、虚拟细胞、临床数字孪生，可以帮助我们更好地建立人体模型。现在我们有能力收集更丰富的患者真实数据，在 AI 的辅助下，有机会做到「看病即入组」，更有机会做好生命模型。

Baichuan-M3 在今年上半年就能辅助做出更好的医疗决策，不仅是帮助医生，也会帮助患者。这就是我们想推动的事，能够有 AI 医生陪着你，时时刻刻照顾你。

Q：未来的大模型，多模态会是主战场吗？

王小川：多模态主战场这句话，我是不认同的。

我们在 2023 年就提过，语言是智能的中轴。ChatGPT 发布时，大家最震撼的是它展现的智力。智力是把不抽象的事情变成抽象事情的能力，所以符号才是核心。类比即智力，人类智能主要通过三种符号语言来体现：自然语言、数学语言和代码语言。

到目前为止，评判哪个公司的模型能力强，核心标准依然是基于符号的。像 Sora 这种视频生成能力，可用性很强，但它不代表智力本身。在医疗场景里，很多都是决策问题，不只是看片子就行了。医院里已经有很多小模型在辅助阅片，比如推想医疗或其他影像公司的模型。这些图像模型输出结果后，最终还是要符号化，然后用语言模型来做后续的推理工作。

感知模型和认知模型需要结合，表现就是把影像变成报告和诊断模型。最近还有胰腺癌频扫 CT 模型，这些感知模型更像是主干上的叶子，不是「主战场」。我们很快也会发布和图像相关的模型，把医疗影像诊断做到 SOTA 的水平。

Q：很多公司都提到，多模态数据很难「出院」，百川怎么看待医院内数据的处理？

王小川：主要是两个要点：技术和场景。

我们认为，未来巨大的增量是在院外，不在院内。院内更多是执行场所，比如做手术、输液。我们的目标不是在院内帮医生解决流程问题，那个想象空间是有限的。我们的策略是「隔山打牛」，最重要的价值是帮到患者。

今天大家总是讲数据不够，投了上千亿进去，去年发布了 500 款医疗垂直大模型，但大家有体感吗？美国，已经有两件事做成了：OpenEvidence，很多医生都在用它辅助诊疗，安全性和准确度提升了很多；二是 ChatGPT 马上就要接入健康数据，2.3 亿人很快就可以直接受益。

AI 直接产生作用是在院外，以前信息化是以医院为中心、医生为中心的这种模式，它都离 AI 的本质和 Toc 是远的。我们始终强调，这次的技术红利是发生在语言智能上，不是在图像识别上。能力识别不代表真正的智力，它只是一个「做题家」手里的活儿。

03今年会发布两款 ToC 产品，

正在做睡眠类硬件产品

Q：像「阿福」这类拥有海量用户的 App，他们获得的动态反馈数据，会不会让模型迭代速度超过你们？

王小川：用反馈来推动模型迭代，主要体现在两点：第一，你的个人档案完善了，服务更个性化了，这跟用户多少没关系；第二，用户多了，团队可以通过反馈来改进产品，但这更像是传统互联网的产品迭代，不是技术层面的模型进化。你看 Anthropic、Gemini 也没有那么庞大的 C 端用户，但模型依然发展得很快。这件事本质上还是技术驱动的。

注：「阿福」是由蚂蚁集团推出的一款 AI 健康应用。

Q：百川接下来的产品路线想怎么走？

王小川：我们跟「阿福」的定位不太一样，阿福更偏向泛健康，「健康」本身是一个很宽泛的概念。我们希望更聚焦，做到至少能取代家庭医生的角色。

从第一天起就想做 ToC，帮助患者做辅助决策这件事，价值非常清晰。我倒不担心商业模式，只要我们能跨过医疗的专业门槛，真正为用户创造价值，无论是直接向用户收费，还是通过服务包整合后续的医疗、药械资源来收费，都会是很容易的事情。

我们今年上半年就会正式入场，之前停顿了一段时间，目标想得很清楚，我们不是只赚医院或医生的钱。我们会有两款产品发布，免费使用，但包含付费模块。

首先是百小应，医生和患者都能用。虽然是同一个产品，但医生和患者的身份不同，给出的结果也不同。医生版更像 OpenEvidence，非常强调循证，每一句话的出处、引用的文献都会清晰标明。医生可以接受各种专业的答案，我们给到患者的，是几个清晰的选项和要点，必须让他们看得懂，把专业语言翻译成他们能理解的内容，同时保留循证的能力。

患者模式会强调补充信息，具备进入启发式的、端到端的问诊能力。医生不会这样，因为医生有自己提问的方法。在这种情况下，我们和 OpenEvidence 的区别在于，OpenEvidence 只是服务于医生，我们的产品是信息可复现、专业内容可懂、患者可决策、建议可行动、最终服务到患者本人，这样的产品定位，在全球是独一无二的。

Q：如果做 ToC 产品，早期怎么培养用户心智？

王小川：需要三件事：第一，需要一定的市场宣传投入，我们会适量增加；第二，要得到医生的认可。我们的路线和阿福不同，他们可能对老医生触动不大，但我们希望医生和患者是一体两面，共享一款产品。所以不仅要让患者鼓掌，更要让专家点头；第三，产品本身做得足够好，能自然形成一定的口碑效应。

Q：百川的护城河是什么？

王小川：护城河分三部分。第一，模型本身。在前沿领域，模型领先一代就是优势，尤其在医疗领域，大家一定会选择更好的；第二，对问题切入点的选择。我们更愿意切入一些严肃、高价值、非共识的场景。大厂通常要从共识的地方切入；第三，产品形态。大家后续会看到，我们的产品形态也是不一样的。

Q：你提到做严肃医疗，这会涉及权责问题，诊疗责任由谁来负责？

王小川：今天我们不会去碰法律红线。法律要求诊断结论和治疗方案必须由执业医师给出。但我们可以在这个框架内，把辅助诊断做得更好。

现在的痛点是，患者在拿到结论之前，需要大量的解释和信息。我们主打的概念是「让患者明明白白看医生」，核心是缩短医患之间的 gap。比如医生给了两个治疗方案，一个保守一个激进，选哪个？我们可以帮助患者分析利弊，辅助他们做决策。诊疗和决策是两回事，我们认为未来决策权会更多地让渡给患者。我们不是替患者做决策，是给建议，帮助患者自己做决策。

Q：M3 的能力已经可以支撑这个目标了吗？

王小川：模型能力已经足够了，现在需要的是建立产品形象和用户信任。

Q：国内会出现类似 OpenEvidence这样的产品吗？

王小川：可能性不大。在美国，OpenEvidence 确实能对医疗效果提升很多。但在中国有几个障碍：第一，中国医生没有使用这类辅助系统的习惯；第二，他们非常忙，没有额外的时间去使用一个新工具；第三，用不用这类工具，对他们的职称评定和论文发表可能帮助不大。

Q：百川最初为什么选择儿科作为切入点？

王小川：一开始选儿科，也是想从院外、从相对轻症的场景切入。儿童很多时候是小问题，但家长焦虑感很强。所以它不是从疾病的严重程度出发，而是从用户的焦虑感出发。现在技术进步了，我们才敢拓展到肿瘤这种最核心的领域。

Q：儿科还会继续重投入吗？

王小川：会的。「一老一小」始终是我们的方向，我们主要就是慢病、儿科和肿瘤这三个方向。

Q：你们会做硬件吗？

王小川：会，目前正在做一款和睡眠相关的硬件产品。

转载原创文章请添加微信：founderparker

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.