![]()
氨基观察-数字医疗组原创出品
作者 | 林白
很多人可能没有意识到,放眼全球,医疗是 AI 渗透速度最快的核心行业之一。
根据 Menlo Ventures 的最新研究,2023 年全球医疗机构的 AI 采用率仅为 3%,但到 2025 年,这一数字已飙升至 22%。短短两年,增长超过 7 倍。
然而,当大洋彼岸的医疗 AI 加速狂飙,患者开始习惯 AI 辅助,甚至超过 45% 的美国医生已经高频使用 OpenEvidence 辅助决策时,国内的图景却呈现出一种微妙的“错位”。
一方面,超过1000家医院开始使用AI系统,国家医疗AI专项投入数百亿元,在持续探索如何把AI应用到医疗行业。另一方面,面对复杂的临床决策,医生不敢轻易将信任交付给一个偶尔会“胡说八道”的黑盒。
这一困境的本质,是市面上始终缺乏一个真正成熟、严谨、且可托付的医疗大模型底座。幸运的是,这个长期困扰行业的“信任死结”,正在被解开。
近期,百川智能正式发布了面向医疗应用开发者的 Baichuan-M3 Plus。
与上一代 M3 相比,M3 Plus 不再仅仅追求通用能力的提升,而是将触角伸向了真实医疗场景最痛的地方——如何让模型变得足够可靠,并具备规模化落地的经济性。
如果说之前的医疗 AI 还是“尝鲜品”,那么 M3 Plus 的发布,或许真正有望打通国内医疗 AI 落地的“最后一公里”。
它是如何做到的?我们一起来看看。
AI医疗的“最后一公里”——信任
在所有垂直 AI 赛道中,医疗已经成为资金最密集、确定性最高的方向之一。
2025 年,全球医疗 AI 的年度支出达到 14 亿美元,几乎是 2024 年的三倍。这一数据也标志着一个历史性时刻:医疗首次超越法律、金融、设计,成为 AI 垂直领域中资金最密集的赛道。
仅在 AI 医疗领域,已经跑出了 8 家 AI 独角兽,数量明显高于其他垂直行业。其中表现最突出的,当属 OpenEvidence。
不到两年时间内,其月度医生咨询量从 2024 年的 36 万次,增长到 2025 年的850 万次,增长超过20 倍。
把视角拉回国内,AI在医疗场景加速落地的趋势同样存在。
比如,新华社在 2025 年 2 月的一篇报道中提到,国内已有超过 1000 家医院提供大模型相关的医疗服务和智能应用,医院可以基于不同大模型底座,开发 AI 助手、健康知识问答等功能。
虽然宏观层面在大力推进,但落回到微观层面,也暴露出了一些不足。
比如,大部分医生并不知道如何使用AI。一个很明显的例子是,许多医生已经在私下使用 AI 做资料检索和辅助分析。但一旦涉及到正式的临床系统,态度立刻变得谨慎。
中国医生正面临的一个现实的挑战:市面上缺乏一个真正成熟、可托付的医疗大模型。
事实上,这一问题并非国内独有。
今年年初,国外投资机构Bessemer Venture Partners联合Amazon Web Services与 Bain & Company,对医疗行业 400 多家公司进行了一次系统调研,试图回答一个问题:AI 为什么在医疗落地会卡住?
结论指向四个核心障碍:安全问题、缺乏内部 AI 专业能力、成本高企,以及数据准备的挑战。如果进一步抽象,会发现除数据问题外,其余障碍几乎都可以归结为两个命题:
AI 是否足够可靠,以及是否具备可接受的经济性。
在医疗场景中,这两点不是锦上添花,而是能否使用的前提,尤其是前者。
这也揭示了AI在医疗场景落地的特殊性,与其他AI产品更侧重于“能力展示”不同,AI医疗应用更追求“可信交付”。而这恰恰也给了创业公司巨大的机会。
死磕“幻觉”与“有证可循”,
百川正在定义医疗AI的新范式
百川选择的方向,恰恰是在模型层面系统性解决这一问题。
在上周开源发布了 Baichuan-M3后,这次百川进一步推出了面向医疗应用开发者的 M3 Plus。
![]()
与 M3 相比,M3 Plus进一步探索了模型在真实医疗场景中,变得足够可靠、并具备规模化落地的可能性。
要理解 M3 Plus 的意义,需要回到百川更早的技术选择。
在去年的 Baichuan-M2 Plus 中,百川首次将「六源循证」这一循证医学范式系统性引入模型训练与推理过程。与其说,这是一个简单的知识库,不如说是一套围绕医学证据构建的结构化认知体系。
这套体系覆盖从原始研究、证据综述、指南规范,到临床实践、公共健康教育以及监管与真实世界数据等多个层级。模型在训练和推理过程中,被明确约束只能使用权威医学来源,而非互联网泛化信息,并且需要在不同证据层级之间建立清晰映射。
这种设计的直接结果,是模型真正学会了如何基于证据给出判断。在这一机制下,模型的医学幻觉显著下降,可信度开始逼近资深临床医生的决策风格。
在 M3 中,百川进一步把幻觉控制前移到模型基座层面,探索更底层的解决路径,团队构建了一套事实感知强化学习(Fact-Aware RL)架构。
所谓的Fact-Aware RL ,简单来说,就是在模型训练的每一次奖惩中,都加入对医学事实的严苛校验。这相当于在 AI 的大脑里植入了一个实时的「审稿人」。当模型试图为了让答案看起来通顺而编造一个药物剂量时,惩罚机制会立刻介入。
这样一来,使底座模型在无工具的设定下幻觉也能大幅降低到SOTA水平。
而 M3 Plus,正是将这两条技术路线合并的结果:一方面,继承 M3 的低幻觉模型基座;另一方面,在此之上系统性强化循证推理能力。
![]()
在六源循证体系的约束下,模型的事实性幻觉进一步下降,开始具备在真实医疗应用中“可托付”的基础。
当然,在医疗场景中,仅仅“少说错话”还不够。与面向大众健康助手不同,一个AI产品终究能否被医生信任,往往取决于另一件事:引用是否准确。
原因很简单,在医疗场景里,所有决策都要求有引用,因为医疗决策本身就是一个以证据为核心的责任体系。
虽然说引用很重要,但在引用准确性这一关键问题上,始终缺乏系统性的优化路径。现实中,医疗大模型的引用错误非常常见,部分市场主流模型产出的结果里,单个问题的引用错误率甚至能超过90%。看似非常专业,引用了许多权威协会的专家共识、原则性的官方文件,下面还有一些说明书之类的东西。
但要么“张冠李戴”,看似有引用编号,但文献内容并不支持当前表述;要么“内容冲突”,角标形式正确,但模型并未真正理解证据立场,只是机械拼接。
这种引用不准确的问题,在医疗场景中变得尤为可怕,但却始终未引发足够的重视。
问题的根源在于,很多模型只是把“是否给出引用”当作生成约束,却从未把“引用是否正确”作为一个可以学习、可以惩罚的核心目标。
在 M3 Plus 中,百川选择正面解决这一问题,将引用准确性作为独立的训练目标进行系统建模:
一是引入专门的 Citation Reward Model,对引用行为本身进行学习;
二是对多类引用错误进行明确惩罚,包括编号存在但内容不匹配、描述与原文证据不一致、以及关键证据漏召回;
三是将引用正确性与六源循证体系、答案正确性深度耦合,使引用不再是生成完成后的“装饰”,而是贯穿检索、理解与生成全过程的结构性约束。
在这一训练机制下,模型被迫只在“能够被证据支持”的空间内进行推理。最终,结论与证据段落的匹配准确率超过 95%,真正让 AI 的医学判断做到可核验、可追责、可教学。
![]()
总的来说,M3 Plus 所做的事情,并不是再一次能力堆叠,而是试图在模型层面回答一个更根本的问题:如何让AI的每一次输出,都有据可查、可信可用。
用成本优势,
砸开了医疗 AI 的天花板
当然,医疗大模型要真正进入真实世界,仅仅做到“效果可靠”还不够,成本同样是决定能否规模化落地的硬约束。
在现实部署中,医疗机构和商业应用面对的,并不只是“模型是否足够强”的问题,更直接的挑战在于:最先进模型的调用成本,是否允许它被高频、长期、稳定地使用。如果每一次推理都意味着显著的边际成本,再好的能力也只能停留在试点阶段。
正是基于这一判断,在 M3 Plus 中,百川围绕医学场景,对模型架构、推理路径与部署形态进行了系统性的工程重构,在不牺牲模型可靠性与医学能力的前提下,将综合使用成本压缩至上一代的约 30%,为真实规模化使用打开空间。
正是在这一基础上,百川在经济性约束上完成了关键突破,具备被更广泛使用的现实条件。
目前,百川不仅面向开发者开放 API 的限时免费体验,更发起 「海纳百川」计划:面向所有服务医务工作者的机构,免费提供全球幻觉最低循证增强医疗大模型 M3 Plus 的 API,把服务医生的AI能力直接交到生态伙伴手里。
当可靠性与经济性同时被突破,AI 才第一次具备在医疗体系中持续运行、规模化部署的可能性。也只有在这一刻,医疗 AI 的天花板,才真正开始被打开。
从市场规模看,这是一块足够大的“长期战场”。根据公开数据,中国医疗卫生总费用已超过 8 万亿元人民币,占 GDP 的比重接近 8%,直接和间接从业人员规模达 千万人以上。无论从支出体量还是社会影响力来看,医疗都是典型的“国民级行业”。
与以往医疗信息化项目不同,本轮 AI 在医疗行业的落地,呈现出明显的非线性加速特征。根据Menlo Ventures 的报告,医疗系统的传统 IT 采购周期,已从 8.0 个月缩短至 6.6 个月;门诊服务提供商的采购周期,也从 6.0 个月降至 4.7 个月。
AI渗透加速的原因也很好理解,医疗行业本身存在大量刚性需求,使 AI 更容易击中“非可选项”。
举个例子,就拿医生需求来说,医学知识的爆炸式增长,让临床信息处理本身变得不可持续。
现在,医学知识平均每 5 年更新一次,文献以每两分钟一篇的速度增加。在这样的背景下,医生需要在极短时间内完成大量信息筛选与判断,而传统检索工具已难以胜任。
也正是在这一现实背景下,百川的布局显现出更深层的意义。
/ 04 /
总结
过去几年,大模型领域反复上演着同一种叙事:Demo 足够惊艳,但真正落地却异常艰难。能力的提升,并没有自然转化为可持续的应用。
百川所体现出的,是一种在行业中并不常见的清醒判断。在医疗这个万亿级的国民行业里,技术是否“最强”并不是首要问题,“用得起”和“信得过”同样重要,甚至更重要。
通过 Gated Eagle-3 投机解码和面向医学 MoE 的量化重构,百川解决的并不只是算力成本的问题,而是 AI 是否具备进入真实医疗流程的“入场条件”。
在医学知识以分钟级速度膨胀的当下,医生个体的认知与处理能力已接近极限。如何在不增加医生负担、不引入额外风险的前提下,扩展医学决策的能力边界,正在成为整个体系必须回答的问题。一个不知疲倦、成本可控、且具备严格循证约束的 AI,更像是一种基础能力的延伸,而非简单的工具替代。
从这个角度看,百川所构建的,并不只是一个模型或一套 API,而是在尝试为智能医疗建立一层可被长期依赖的技术底座。
![]()
在这场关乎生命与健康的变革中,百川正试图证明:最好的科技,不是为了取代医生,而是为了让医生回归治愈的本质,让医疗回归服务的初心。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.