网易首页 > 网易号 > 正文 申请入驻

首创“证据锚定”技术,百川智能打通医疗AI“最后一公里”

0
分享至


氨基观察-数字医疗组原创出品

作者 | 林白

很多人可能没有意识到,放眼全球,医疗是 AI 渗透速度最快的核心行业之一。

根据 Menlo Ventures 的最新研究,2023 年全球医疗机构的 AI 采用率仅为 3%,但到 2025 年,这一数字已飙升至 22%。短短两年,增长超过 7 倍。

然而,当大洋彼岸的医疗 AI 加速狂飙,患者开始习惯 AI 辅助,甚至超过 45% 的美国医生已经高频使用 OpenEvidence 辅助决策时,国内的图景却呈现出一种微妙的“错位”。

一方面,超过1000家医院开始使用AI系统,国家医疗AI专项投入数百亿元,在持续探索如何把AI应用到医疗行业。另一方面,面对复杂的临床决策,医生不敢轻易将信任交付给一个偶尔会“胡说八道”的黑盒。

这一困境的本质,是市面上始终缺乏一个真正成熟、严谨、且可托付的医疗大模型底座。幸运的是,这个长期困扰行业的“信任死结”,正在被解开。

近期,百川智能正式发布了面向医疗应用开发者的 Baichuan-M3 Plus。

与上一代 M3 相比,M3 Plus 不再仅仅追求通用能力的提升,而是将触角伸向了真实医疗场景最痛的地方——如何让模型变得足够可靠,并具备规模化落地的经济性。

如果说之前的医疗 AI 还是“尝鲜品”,那么 M3 Plus 的发布,或许真正有望打通国内医疗 AI 落地的“最后一公里”。

它是如何做到的?我们一起来看看。

AI医疗的“最后一公里”——信任

在所有垂直 AI 赛道中,医疗已经成为资金最密集、确定性最高的方向之一。

2025 年,全球医疗 AI 的年度支出达到 14 亿美元,几乎是 2024 年的三倍。这一数据也标志着一个历史性时刻:医疗首次超越法律、金融、设计,成为 AI 垂直领域中资金最密集的赛道。

仅在 AI 医疗领域,已经跑出了 8 家 AI 独角兽,数量明显高于其他垂直行业。其中表现最突出的,当属 OpenEvidence。

不到两年时间内,其月度医生咨询量从 2024 年的 36 万次,增长到 2025 年的850 万次,增长超过20 倍。

把视角拉回国内,AI在医疗场景加速落地的趋势同样存在。

比如,新华社在 2025 年 2 月的一篇报道中提到,国内已有超过 1000 家医院提供大模型相关的医疗服务和智能应用,医院可以基于不同大模型底座,开发 AI 助手、健康知识问答等功能。

虽然宏观层面在大力推进,但落回到微观层面,也暴露出了一些不足。

比如,大部分医生并不知道如何使用AI。一个很明显的例子是,许多医生已经在私下使用 AI 做资料检索和辅助分析。但一旦涉及到正式的临床系统,态度立刻变得谨慎。

中国医生正面临的一个现实的挑战:市面上缺乏一个真正成熟、可托付的医疗大模型。

事实上,这一问题并非国内独有。

今年年初,国外投资机构Bessemer Venture Partners联合Amazon Web Services与 Bain & Company,对医疗行业 400 多家公司进行了一次系统调研,试图回答一个问题:AI 为什么在医疗落地会卡住?

结论指向四个核心障碍:安全问题、缺乏内部 AI 专业能力、成本高企,以及数据准备的挑战。如果进一步抽象,会发现除数据问题外,其余障碍几乎都可以归结为两个命题:

AI 是否足够可靠,以及是否具备可接受的经济性。

在医疗场景中,这两点不是锦上添花,而是能否使用的前提,尤其是前者。

这也揭示了AI在医疗场景落地的特殊性,与其他AI产品更侧重于“能力展示”不同,AI医疗应用更追求“可信交付”。而这恰恰也给了创业公司巨大的机会。

死磕“幻觉”与“有证可循”,

百川正在定义医疗AI的新范式

百川选择的方向,恰恰是在模型层面系统性解决这一问题。

在上周开源发布了 Baichuan-M3后,这次百川进一步推出了面向医疗应用开发者的 M3 Plus。


与 M3 相比,M3 Plus进一步探索了模型在真实医疗场景中,变得足够可靠、并具备规模化落地的可能性。

要理解 M3 Plus 的意义,需要回到百川更早的技术选择。

在去年的 Baichuan-M2 Plus 中,百川首次将「六源循证」这一循证医学范式系统性引入模型训练与推理过程。与其说,这是一个简单的知识库,不如说是一套围绕医学证据构建的结构化认知体系。

这套体系覆盖从原始研究、证据综述、指南规范,到临床实践、公共健康教育以及监管与真实世界数据等多个层级。模型在训练和推理过程中,被明确约束只能使用权威医学来源,而非互联网泛化信息,并且需要在不同证据层级之间建立清晰映射。

这种设计的直接结果,是模型真正学会了如何基于证据给出判断。在这一机制下,模型的医学幻觉显著下降,可信度开始逼近资深临床医生的决策风格。

在 M3 中,百川进一步把幻觉控制前移到模型基座层面,探索更底层的解决路径,团队构建了一套事实感知强化学习(Fact-Aware RL)架构。

所谓的Fact-Aware RL ,简单来说,就是在模型训练的每一次奖惩中,都加入对医学事实的严苛校验。这相当于在 AI 的大脑里植入了一个实时的「审稿人」。当模型试图为了让答案看起来通顺而编造一个药物剂量时,惩罚机制会立刻介入。

这样一来,使底座模型在无工具的设定下幻觉也能大幅降低到SOTA水平。

而 M3 Plus,正是将这两条技术路线合并的结果:一方面,继承 M3 的低幻觉模型基座;另一方面,在此之上系统性强化循证推理能力。


在六源循证体系的约束下,模型的事实性幻觉进一步下降,开始具备在真实医疗应用中“可托付”的基础。

当然,在医疗场景中,仅仅“少说错话”还不够。与面向大众健康助手不同,一个AI产品终究能否被医生信任,往往取决于另一件事:引用是否准确。

原因很简单,在医疗场景里,所有决策都要求有引用,因为医疗决策本身就是一个以证据为核心的责任体系。

虽然说引用很重要,但在引用准确性这一关键问题上,始终缺乏系统性的优化路径。现实中,医疗大模型的引用错误非常常见,部分市场主流模型产出的结果里,单个问题的引用错误率甚至能超过90%。看似非常专业,引用了许多权威协会的专家共识、原则性的官方文件,下面还有一些说明书之类的东西。

但要么“张冠李戴”,看似有引用编号,但文献内容并不支持当前表述;要么“内容冲突”,角标形式正确,但模型并未真正理解证据立场,只是机械拼接。

这种引用不准确的问题,在医疗场景中变得尤为可怕,但却始终未引发足够的重视。

问题的根源在于,很多模型只是把“是否给出引用”当作生成约束,却从未把“引用是否正确”作为一个可以学习、可以惩罚的核心目标。

在 M3 Plus 中,百川选择正面解决这一问题,将引用准确性作为独立的训练目标进行系统建模:

  • 一是引入专门的 Citation Reward Model,对引用行为本身进行学习;

  • 二是对多类引用错误进行明确惩罚,包括编号存在但内容不匹配、描述与原文证据不一致、以及关键证据漏召回;

  • 三是将引用正确性与六源循证体系、答案正确性深度耦合,使引用不再是生成完成后的“装饰”,而是贯穿检索、理解与生成全过程的结构性约束。

在这一训练机制下,模型被迫只在“能够被证据支持”的空间内进行推理。最终,结论与证据段落的匹配准确率超过 95%,真正让 AI 的医学判断做到可核验、可追责、可教学。


总的来说,M3 Plus 所做的事情,并不是再一次能力堆叠,而是试图在模型层面回答一个更根本的问题:如何让AI的每一次输出,都有据可查、可信可用。

用成本优势,

砸开了医疗 AI 的天花板

当然,医疗大模型要真正进入真实世界,仅仅做到“效果可靠”还不够,成本同样是决定能否规模化落地的硬约束。

在现实部署中,医疗机构和商业应用面对的,并不只是“模型是否足够强”的问题,更直接的挑战在于:最先进模型的调用成本,是否允许它被高频、长期、稳定地使用。如果每一次推理都意味着显著的边际成本,再好的能力也只能停留在试点阶段。

正是基于这一判断,在 M3 Plus 中,百川围绕医学场景,对模型架构、推理路径与部署形态进行了系统性的工程重构,在不牺牲模型可靠性与医学能力的前提下,将综合使用成本压缩至上一代的约 30%,为真实规模化使用打开空间。

正是在这一基础上,百川在经济性约束上完成了关键突破,具备被更广泛使用的现实条件。

目前,百川不仅面向开发者开放 API 的限时免费体验,更发起 「海纳百川」计划:面向所有服务医务工作者的机构,免费提供全球幻觉最低循证增强医疗大模型 M3 Plus 的 API,把服务医生的AI能力直接交到生态伙伴手里。

当可靠性与经济性同时被突破,AI 才第一次具备在医疗体系中持续运行、规模化部署的可能性。也只有在这一刻,医疗 AI 的天花板,才真正开始被打开。

从市场规模看,这是一块足够大的“长期战场”。根据公开数据,中国医疗卫生总费用已超过 8 万亿元人民币,占 GDP 的比重接近 8%,直接和间接从业人员规模达 千万人以上。无论从支出体量还是社会影响力来看,医疗都是典型的“国民级行业”。

与以往医疗信息化项目不同,本轮 AI 在医疗行业的落地,呈现出明显的非线性加速特征。根据Menlo Ventures 的报告,医疗系统的传统 IT 采购周期,已从 8.0 个月缩短至 6.6 个月;门诊服务提供商的采购周期,也从 6.0 个月降至 4.7 个月。

AI渗透加速的原因也很好理解,医疗行业本身存在大量刚性需求,使 AI 更容易击中“非可选项”。

举个例子,就拿医生需求来说,医学知识的爆炸式增长,让临床信息处理本身变得不可持续。

现在,医学知识平均每 5 年更新一次,文献以每两分钟一篇的速度增加。在这样的背景下,医生需要在极短时间内完成大量信息筛选与判断,而传统检索工具已难以胜任。

也正是在这一现实背景下,百川的布局显现出更深层的意义。

/ 04 /

总结

过去几年,大模型领域反复上演着同一种叙事:Demo 足够惊艳,但真正落地却异常艰难。能力的提升,并没有自然转化为可持续的应用。

百川所体现出的,是一种在行业中并不常见的清醒判断。在医疗这个万亿级的国民行业里,技术是否“最强”并不是首要问题,“用得起”和“信得过”同样重要,甚至更重要。

通过 Gated Eagle-3 投机解码和面向医学 MoE 的量化重构,百川解决的并不只是算力成本的问题,而是 AI 是否具备进入真实医疗流程的“入场条件”。

在医学知识以分钟级速度膨胀的当下,医生个体的认知与处理能力已接近极限。如何在不增加医生负担、不引入额外风险的前提下,扩展医学决策的能力边界,正在成为整个体系必须回答的问题。一个不知疲倦、成本可控、且具备严格循证约束的 AI,更像是一种基础能力的延伸,而非简单的工具替代。

从这个角度看,百川所构建的,并不只是一个模型或一套 API,而是在尝试为智能医疗建立一层可被长期依赖的技术底座。


在这场关乎生命与健康的变革中,百川正试图证明:最好的科技,不是为了取代医生,而是为了让医生回归治愈的本质,让医疗回归服务的初心。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
永远热泪盈眶!瓦林卡的澳网告别演出绚烂绽放

永远热泪盈眶!瓦林卡的澳网告别演出绚烂绽放

全网球APP
2026-01-23 19:04:16
魏大勋王安宇瘦身封神!胖子逆袭变男神,气质开挂太惊艳

魏大勋王安宇瘦身封神!胖子逆袭变男神,气质开挂太惊艳

春之寞陌
2026-01-23 13:08:17
江西一狱警被蒙面男子当街捅死,凶手:你知道这6年我怎么过的吗

江西一狱警被蒙面男子当街捅死,凶手:你知道这6年我怎么过的吗

万年历史老号
2026-01-15 01:55:52
老公犯病我买药却去了男闺蜜家,回家后他亮出定位图问我怎么解释

老公犯病我买药却去了男闺蜜家,回家后他亮出定位图问我怎么解释

晓艾故事汇
2026-01-20 09:18:19
毛主席下令“丢卒保车”保全大局,皮定均率七千将领甘愿当小卒

毛主席下令“丢卒保车”保全大局,皮定均率七千将领甘愿当小卒

古书记史
2026-01-19 01:30:53
稀土在农村叫啥?以前农村老人用来铺路,价值比黄牛还值钱

稀土在农村叫啥?以前农村老人用来铺路,价值比黄牛还值钱

复转这些年
2026-01-23 18:28:04
罕见!欧冠8队同分,最后一轮谁能锁定16强?

罕见!欧冠8队同分,最后一轮谁能锁定16强?

生活新鲜市
2026-01-23 16:18:36
王菲也没想到,自己的现任男友谢霆锋,竟走上了和李亚鹏一样的路

王菲也没想到,自己的现任男友谢霆锋,竟走上了和李亚鹏一样的路

梨花黛娱
2025-12-10 15:48:53
范志毅英籍女儿男友:一任没钱,二任太老,三任才是老范心中贵婿

范志毅英籍女儿男友:一任没钱,二任太老,三任才是老范心中贵婿

小熊侃史
2025-12-10 07:05:13
甘肃省高级人民法院原副院长陈天雄接受审查调查

甘肃省高级人民法院原副院长陈天雄接受审查调查

界面新闻
2026-01-23 10:02:46
每体:巴萨新主席将于7月1日就任,目前共4人参与角逐

每体:巴萨新主席将于7月1日就任,目前共4人参与角逐

懂球帝
2026-01-23 04:28:12
北京下死命令了:在2027年底前,所有中小学必须告别“校外配餐”

北京下死命令了:在2027年底前,所有中小学必须告别“校外配餐”

有范又有料
2026-01-23 10:11:45
故事:大伯排污口对准我鱼塘,我不吭声,连夜抽干水种五十株桉树

故事:大伯排污口对准我鱼塘,我不吭声,连夜抽干水种五十株桉树

二十一号故事铺
2026-01-19 22:40:04
香港风水认为全红婵的面相比郭晶晶还要好,特别是她嘴巴下那颗痣

香港风水认为全红婵的面相比郭晶晶还要好,特别是她嘴巴下那颗痣

我心纵横天地间
2026-01-14 20:32:59
俄罗斯发动大规模空袭,导弹中途居然还会转向,基辅一半地区停电

俄罗斯发动大规模空袭,导弹中途居然还会转向,基辅一半地区停电

碳基生物关怀组织
2026-01-20 19:48:05
队报:帕瓦尔近期表现挣扎,有可能会落选世界杯大名单

队报:帕瓦尔近期表现挣扎,有可能会落选世界杯大名单

懂球帝
2026-01-23 16:53:07
韩剧女神,被吐槽“断崖式衰老”?

韩剧女神,被吐槽“断崖式衰老”?

寻艺
2026-01-22 18:38:26
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
女子出国在携程订接机服务,下飞机后有人冒充接机人员企图将其带走,女子询问平台人员被告知没有举牌服务

女子出国在携程订接机服务,下飞机后有人冒充接机人员企图将其带走,女子询问平台人员被告知没有举牌服务

观威海
2026-01-22 16:22:04
10万亿度需求也不买!中国摊牌,输电专线全叫停,国产电价教做人

10万亿度需求也不买!中国摊牌,输电专线全叫停,国产电价教做人

不写散文诗
2026-01-23 18:17:58
2026-01-23 22:59:00
硅基观察Pro incentive-icons
硅基观察Pro
人工智能新时代的商业智库和价值灯塔
808文章数 57关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

赌徒当着儿子面杀死前妻 检方量刑建议为死刑立即执行

头条要闻

赌徒当着儿子面杀死前妻 检方量刑建议为死刑立即执行

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

教育
旅游
房产
艺术
公开课

教育要闻

关于留学生搞钱搞副业,说点大实话!

旅游要闻

住宿、餐饮、观展全方位升级,多元产品点亮申城新春消费

房产要闻

正式官宣!三亚又一所名校要来了!

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版