首创“证据锚定”技术，百川智能打通医疗AI“最后一公里”|医生|医学|循证|医疗ai

分享至

氨基观察-数字医疗组原创出品

作者 | 林白

很多人可能没有意识到，放眼全球，医疗是 AI 渗透速度最快的核心行业之一。

根据 Menlo Ventures 的最新研究，2023 年全球医疗机构的 AI 采用率仅为 3%，但到 2025 年，这一数字已飙升至 22%。短短两年，增长超过 7 倍。

然而，当大洋彼岸的医疗 AI 加速狂飙，患者开始习惯 AI 辅助，甚至超过 45% 的美国医生已经高频使用 OpenEvidence 辅助决策时，国内的图景却呈现出一种微妙的“错位”。

一方面，超过1000家医院开始使用AI系统，国家医疗AI专项投入数百亿元，在持续探索如何把AI应用到医疗行业。另一方面，面对复杂的临床决策，医生不敢轻易将信任交付给一个偶尔会“胡说八道”的黑盒。

这一困境的本质，是市面上始终缺乏一个真正成熟、严谨、且可托付的医疗大模型底座。幸运的是，这个长期困扰行业的“信任死结”，正在被解开。

近期，百川智能正式发布了面向医疗应用开发者的 Baichuan-M3 Plus。

与上一代 M3 相比，M3 Plus 不再仅仅追求通用能力的提升，而是将触角伸向了真实医疗场景最痛的地方——如何让模型变得足够可靠，并具备规模化落地的经济性。

如果说之前的医疗 AI 还是“尝鲜品”，那么 M3 Plus 的发布，或许真正有望打通国内医疗 AI 落地的“最后一公里”。

它是如何做到的？我们一起来看看。

AI医疗的“最后一公里”——信任

在所有垂直 AI 赛道中，医疗已经成为资金最密集、确定性最高的方向之一。

2025 年，全球医疗 AI 的年度支出达到 14 亿美元，几乎是 2024 年的三倍。这一数据也标志着一个历史性时刻：医疗首次超越法律、金融、设计，成为 AI 垂直领域中资金最密集的赛道。

仅在 AI 医疗领域，已经跑出了 8 家 AI 独角兽，数量明显高于其他垂直行业。其中表现最突出的，当属 OpenEvidence。

不到两年时间内，其月度医生咨询量从 2024 年的 36 万次，增长到 2025 年的850 万次，增长超过20 倍。

把视角拉回国内，AI在医疗场景加速落地的趋势同样存在。

比如，新华社在 2025 年 2 月的一篇报道中提到，国内已有超过 1000 家医院提供大模型相关的医疗服务和智能应用，医院可以基于不同大模型底座，开发 AI 助手、健康知识问答等功能。

虽然宏观层面在大力推进，但落回到微观层面，也暴露出了一些不足。

比如，大部分医生并不知道如何使用AI。一个很明显的例子是，许多医生已经在私下使用 AI 做资料检索和辅助分析。但一旦涉及到正式的临床系统，态度立刻变得谨慎。

中国医生正面临的一个现实的挑战：市面上缺乏一个真正成熟、可托付的医疗大模型。

事实上，这一问题并非国内独有。

今年年初，国外投资机构Bessemer Venture Partners联合Amazon Web Services与 Bain & Company，对医疗行业 400 多家公司进行了一次系统调研，试图回答一个问题：AI 为什么在医疗落地会卡住？

结论指向四个核心障碍：安全问题、缺乏内部 AI 专业能力、成本高企，以及数据准备的挑战。如果进一步抽象，会发现除数据问题外，其余障碍几乎都可以归结为两个命题：

AI 是否足够可靠，以及是否具备可接受的经济性。

在医疗场景中，这两点不是锦上添花，而是能否使用的前提，尤其是前者。

这也揭示了AI在医疗场景落地的特殊性，与其他AI产品更侧重于“能力展示”不同，AI医疗应用更追求“可信交付”。而这恰恰也给了创业公司巨大的机会。

死磕“幻觉”与“有证可循”，

百川正在定义医疗AI的新范式

百川选择的方向，恰恰是在模型层面系统性解决这一问题。

在上周开源发布了 Baichuan-M3后，这次百川进一步推出了面向医疗应用开发者的 M3 Plus。

与 M3 相比，M3 Plus进一步探索了模型在真实医疗场景中，变得足够可靠、并具备规模化落地的可能性。

要理解 M3 Plus 的意义，需要回到百川更早的技术选择。

在去年的 Baichuan-M2 Plus 中，百川首次将「六源循证」这一循证医学范式系统性引入模型训练与推理过程。与其说，这是一个简单的知识库，不如说是一套围绕医学证据构建的结构化认知体系。

这套体系覆盖从原始研究、证据综述、指南规范，到临床实践、公共健康教育以及监管与真实世界数据等多个层级。模型在训练和推理过程中，被明确约束只能使用权威医学来源，而非互联网泛化信息，并且需要在不同证据层级之间建立清晰映射。

这种设计的直接结果，是模型真正学会了如何基于证据给出判断。在这一机制下，模型的医学幻觉显著下降，可信度开始逼近资深临床医生的决策风格。

在 M3 中，百川进一步把幻觉控制前移到模型基座层面，探索更底层的解决路径，团队构建了一套事实感知强化学习（Fact-Aware RL）架构。

所谓的Fact-Aware RL ，简单来说，就是在模型训练的每一次奖惩中，都加入对医学事实的严苛校验。这相当于在 AI 的大脑里植入了一个实时的「审稿人」。当模型试图为了让答案看起来通顺而编造一个药物剂量时，惩罚机制会立刻介入。

这样一来，使底座模型在无工具的设定下幻觉也能大幅降低到SOTA水平。

而 M3 Plus，正是将这两条技术路线合并的结果：一方面，继承 M3 的低幻觉模型基座；另一方面，在此之上系统性强化循证推理能力。

在六源循证体系的约束下，模型的事实性幻觉进一步下降，开始具备在真实医疗应用中“可托付”的基础。

当然，在医疗场景中，仅仅“少说错话”还不够。与面向大众健康助手不同，一个AI产品终究能否被医生信任，往往取决于另一件事：引用是否准确。

原因很简单，在医疗场景里，所有决策都要求有引用，因为医疗决策本身就是一个以证据为核心的责任体系。

虽然说引用很重要，但在引用准确性这一关键问题上，始终缺乏系统性的优化路径。现实中，医疗大模型的引用错误非常常见，部分市场主流模型产出的结果里，单个问题的引用错误率甚至能超过90%。看似非常专业，引用了许多权威协会的专家共识、原则性的官方文件，下面还有一些说明书之类的东西。

但要么“张冠李戴”，看似有引用编号，但文献内容并不支持当前表述；要么“内容冲突”，角标形式正确，但模型并未真正理解证据立场，只是机械拼接。

这种引用不准确的问题，在医疗场景中变得尤为可怕，但却始终未引发足够的重视。

问题的根源在于，很多模型只是把“是否给出引用”当作生成约束，却从未把“引用是否正确”作为一个可以学习、可以惩罚的核心目标。

在 M3 Plus 中，百川选择正面解决这一问题，将引用准确性作为独立的训练目标进行系统建模：

一是引入专门的 Citation Reward Model，对引用行为本身进行学习；
二是对多类引用错误进行明确惩罚，包括编号存在但内容不匹配、描述与原文证据不一致、以及关键证据漏召回；
三是将引用正确性与六源循证体系、答案正确性深度耦合，使引用不再是生成完成后的“装饰”，而是贯穿检索、理解与生成全过程的结构性约束。

在这一训练机制下，模型被迫只在“能够被证据支持”的空间内进行推理。最终，结论与证据段落的匹配准确率超过 95%，真正让 AI 的医学判断做到可核验、可追责、可教学。

总的来说，M3 Plus 所做的事情，并不是再一次能力堆叠，而是试图在模型层面回答一个更根本的问题：如何让AI的每一次输出，都有据可查、可信可用。

用成本优势，

砸开了医疗 AI 的天花板

当然，医疗大模型要真正进入真实世界，仅仅做到“效果可靠”还不够，成本同样是决定能否规模化落地的硬约束。

在现实部署中，医疗机构和商业应用面对的，并不只是“模型是否足够强”的问题，更直接的挑战在于：最先进模型的调用成本，是否允许它被高频、长期、稳定地使用。如果每一次推理都意味着显著的边际成本，再好的能力也只能停留在试点阶段。

正是基于这一判断，在 M3 Plus 中，百川围绕医学场景，对模型架构、推理路径与部署形态进行了系统性的工程重构，在不牺牲模型可靠性与医学能力的前提下，将综合使用成本压缩至上一代的约 30%，为真实规模化使用打开空间。

正是在这一基础上，百川在经济性约束上完成了关键突破，具备被更广泛使用的现实条件。

目前，百川不仅面向开发者开放 API 的限时免费体验，更发起「海纳百川」计划：面向所有服务医务工作者的机构，免费提供全球幻觉最低循证增强医疗大模型 M3 Plus 的 API，把服务医生的AI能力直接交到生态伙伴手里。

当可靠性与经济性同时被突破，AI 才第一次具备在医疗体系中持续运行、规模化部署的可能性。也只有在这一刻，医疗 AI 的天花板，才真正开始被打开。

从市场规模看，这是一块足够大的“长期战场”。根据公开数据，中国医疗卫生总费用已超过 8 万亿元人民币，占 GDP 的比重接近 8%，直接和间接从业人员规模达千万人以上。无论从支出体量还是社会影响力来看，医疗都是典型的“国民级行业”。

与以往医疗信息化项目不同，本轮 AI 在医疗行业的落地，呈现出明显的非线性加速特征。根据Menlo Ventures 的报告，医疗系统的传统 IT 采购周期，已从 8.0 个月缩短至 6.6 个月；门诊服务提供商的采购周期，也从 6.0 个月降至 4.7 个月。

AI渗透加速的原因也很好理解，医疗行业本身存在大量刚性需求，使 AI 更容易击中“非可选项”。

举个例子，就拿医生需求来说，医学知识的爆炸式增长，让临床信息处理本身变得不可持续。

现在，医学知识平均每 5 年更新一次，文献以每两分钟一篇的速度增加。在这样的背景下，医生需要在极短时间内完成大量信息筛选与判断，而传统检索工具已难以胜任。

也正是在这一现实背景下，百川的布局显现出更深层的意义。

/ 04 /

总结

过去几年，大模型领域反复上演着同一种叙事：Demo 足够惊艳，但真正落地却异常艰难。能力的提升，并没有自然转化为可持续的应用。

百川所体现出的，是一种在行业中并不常见的清醒判断。在医疗这个万亿级的国民行业里，技术是否“最强”并不是首要问题，“用得起”和“信得过”同样重要，甚至更重要。

通过 Gated Eagle-3 投机解码和面向医学 MoE 的量化重构，百川解决的并不只是算力成本的问题，而是 AI 是否具备进入真实医疗流程的“入场条件”。

在医学知识以分钟级速度膨胀的当下，医生个体的认知与处理能力已接近极限。如何在不增加医生负担、不引入额外风险的前提下，扩展医学决策的能力边界，正在成为整个体系必须回答的问题。一个不知疲倦、成本可控、且具备严格循证约束的 AI，更像是一种基础能力的延伸，而非简单的工具替代。

从这个角度看，百川所构建的，并不只是一个模型或一套 API，而是在尝试为智能医疗建立一层可被长期依赖的技术底座。

在这场关乎生命与健康的变革中，百川正试图证明：最好的科技，不是为了取代医生，而是为了让医生回归治愈的本质，让医疗回归服务的初心。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

首创“证据锚定”技术，百川智能打通医疗AI“最后一公里”

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

赌徒当着儿子面杀死前妻 检方量刑建议为死刑立即执行

赌徒当着儿子面杀死前妻 检方量刑建议为死刑立即执行

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

演员孙涛澄清闫学晶言论 落泪维护妻子

2026年，消费没有新故事？

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

关于留学生搞钱搞副业，说点大实话！

住宿、餐饮、观展全方位升级，多元产品点亮申城新春消费

正式官宣！三亚又一所名校要来了！

现在的春联太俗了，还是过去的“老对联”高雅！

赌徒当着儿子面杀死前妻检方量刑建议为死刑立即执行

赌徒当着儿子面杀死前妻检方量刑建议为死刑立即执行

杜兰特鏖战44分钟累瘫轰36+7却致命失误

演员孙涛澄清闫学晶言论落泪维护妻子

主打家庭大六座奕境首款SUV将北京车展亮相