网易首页 > 网易号 > 正文 申请入驻

把医疗AI禁锢在严肃区间:百川M3 Plus首创证据锚定,幻觉率2.6%

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

谁还没拿自己日常的小病小痛问过AI?

就是这种日常场景,让AI悄悄成为很多人就医流程里的前置入口。

寻医问诊时,咱普通人可以拿DeepSeek、ChatGPT的回答作参考,医生却不能。但在严肃的医疗领域,不准确的建议甚至比没有建议更危险

但我们注意到,随着AI智能越发涌现,很多医生,尤其是年轻医生已经开始尝试拥抱AI。

All in医疗AI的百川智能告诉我们,他们的专业版模型已有约10万医生用户,而且年轻人偏多,“用我们模型的用户画像和喝瑞幸的用户画像高度重合”。



不过年龄只是影响因素之一,医疗界对AI大势的判断并不存在根本分歧。

只是在严肃医疗领域,AI想要真正进临床,必须翻过两座大山:信任与成本。

百川智能最新发布的循证增强医疗大模型Baichuan-M3 Plus给出了极具诚意的答案。

凭借百川智能独创的六源循证技术,结合Baichuan-M3基座,Baichuan-M3 Plus幻觉率降低至2.6%,处于目前公开评测中的全球最低水平。

借用这个模型,百川希望在严肃医疗场景下,正面回答“如何让AI真正成为医生可信赖的助手,最终惠及每一位患者”这个问题。

全球最低幻觉率

Baichuan-M3 Plus(以下简称M3 Plus)是一个循证增强医疗大模型,幻觉率全球最低,不到3%。

“循证增强医疗大模型”是百川如今的模型主线。

循证是个医学概念,旨在将最佳研究证据、专业经验以及当事人的意愿三者相结合,以做出更科学、可靠的决策。



就在10天前,百川医疗大模型迭代至M3版本,在OpenAI发布的医疗评测集HealthBench上夺得全球第一,反超GPT-5.2 High。

登顶背后最核心的技术杀手锏是Fact-Aware RL(事实感知强化学习)。

传统的强化学习(RLHF)往往只关注人类的偏好,Fact-Aware RL技术通过在奖励模型(Reward Model)中引入医学事实的硬性约束,让模型在训练阶段就形成了对幻觉的过敏反应。

在训练过程中,百川还特别引入了Citation Reward Model,专门惩罚错误引用。

具体到HealthBench的评测表现上,M3在无工具辅助的原始设定下,将幻觉率压低到了3.5%,水平是当时的行业天花板。

此次最新发布的M3 Plus,正是由M3模型和日臻成熟的六源循证深度融合而来。

这种结构让M3 Plus的幻觉率再创新低,来到2.6%。



这个幻觉率水平,已经低于目前业内公认的标杆产品水平,也低于部分人类医生在复杂医学问题上的平均误判率区间。

“如果模型幻觉低能力强,但成本太高,医生和医院也会难以真正用起来。”调用成本下不来,谈严肃落地就没有意义。

为此,M3 Plus在工程层面进行了多轮极致优化。

M3 Plus 在系统层面进行了全面的工程重构,通过 MoE 架构优化、模型量化以及 Gated Eagle-3 投机解码等关键技术,在严格保证模型能力与可靠性的前提下,实现了 API 调用成本较上一代降低 70%。

根据百川给出的数据,相同配置下,Gated Eagle-3相较原始Eagle-3可带来约15%的推理吞吐量提升,从而直接压低单位请求的推理成本。

好一个一边让严肃性提上去,一边把价格打下来。

既有助于消解医学界对AI时代来临想用又不敢用的情绪,又让大家都用得起。

首创“证据锚定”,模型说的每一句都是据实回答

此前的医疗大模型虽然大多支持标注“文献引用”,但在实际使用中,医生经常遇到两个头疼的痛点。

一种是“张冠李戴”。

模型给出了引用角标,但点开发现引用的文献里压根儿没有那句话。

另一种是“内容冲突”。

也是标明了有引用,但其实是AI瞎凑瞎引的,索引的文献并不能支持AI得出的结论。

据统计,目前医疗行业常见的引用准确率区间是40%到50%,也就是一半左右的引用在语义或事实上站不住脚。

沟通会上,百川智能模型技术负责人鞠强现场提供了一个真实案例素材——

在肿瘤药物不良反应的测试中,某些看起来非常专业的回答,标明引用汇总了权威协会共识、专家指南和说明书,从形式上看几乎无可挑剔。

但逐条核对后发现,约90%的引用内容与结论本身没有直接关系,有的甚至给出的引用里,连药物都不是询问模型的那一个。

一个看起来有据可查的答案,背后隐藏着不可接受的严肃错误。但因为看上去高度专业,有经验的医生不留神都可能踩坑,更别提还有许多初出茅庐的那些医生可能面对这样的答案了。

这成了百川在M3 Plus中试图解决的核心问题。

针对这一痛点,百川在M3 Plus中引入了证据锚定(Evidence Anchoring),将循证从理念变成模型必须遵守的结构性约束。

与传统“标明引用”的方式不同,证据锚定并不是要求模型多列几篇文献,它反过来约束模型:如果一句医学结论找不到能与之精确对应的原始证据段落,这句话就不应该被说出来。

具体实现上,M3 Plus在生成答案时,不仅需要标注文献来源,还必须将每一句关键医学判断,逐条锚定到原始论文、指南或共识中的具体段落。

每一个结论,都需要能在原文中找到明确对应。

说得通俗易懂一点,使用M3 Plus的医生可以直接核查AI说的每一句话是否真的有原文支持,判断其是否真正支持当前结论。

引用内容丰富,包括但不限于药品说明书:



中英文文献:



以及专家共识等:



在训练层面,百川将“证据是否准确锚定”作为独立目标进行建模,通过Citation Reward Model,显式惩罚“张冠李戴”“内容冲突”等情况。

鞠强解释,没有证据锚定,大多数大模型就不能真正理解证据与结论之间的逻辑关系。

所谓的引用文献往往发生在生成之后,是对输出结果的补充,并不是推理过程的一部分。

模型只学会了怎么“像医生一样说有证据的话”,却没有学会如何“像医生一样查证”。

但模型有幻觉这件事目前还没有完美解法。百川团队也反复强调,在医学问题中,不确定性本身就是客观存在的事实。

真正重要的是让错误尽可能提前暴露,让使用者能够尽早识别风险。

百川M3 Plus之前,业内少有把“引用准确性”本身当成模型核心能力来重新定义的尝试。

M3 Plus用证据锚定技术,把“引用”这件事量化成了可审计的技术指标,并且提升了模型自己的引用准确率——从行业普遍约75%的水平提升至95%以上。

面向医疗服务,推出“海纳百川”免费计划

为了让这套“证据锚定”技术真正跑在医院的电脑和医生的手机里,百川一边M3 Plus的API降价70%之外,一边同步开启了 “海纳百川计划”。

该计划中,M3 Plus将以API形式永久免费开放,不限Token数量

唯一要求是产品需在前台展示“Powered by 百川”,且不得对模型输出进行影响准确性的修改。

计划限定对象为服务医务工作者的机构,包括但不限于医疗信息化厂商、医疗教育机构、医学研究项目、垂直创业公司等。



目前,国内有上千家医院和数百亿投入的专项工程正在探索AI。“海纳百川计划”这种技术普惠战略,有助于避免行业在底层技术上重复造轮子,也让医生端和医疗软件厂商可以在真实场景中进行多轮反复验证、持续迭代。

王小川透露,百川智能不是没有算过“海纳百川计划”背后的这笔账。

如果全国500万医学工作者都来使用,百川一年预计投入成本约1亿元,“这是我们能接受的”。

因为账单背后有更昂贵的成本。在医疗领域,技术试错的代价往往最终由具体的生命来承担。

对在诊室外等号的普通人来说,很难感受到幻觉率从3%降到2.6%究竟意味着什么……但对于每一位身处一线、需要应对海量文献和复杂决策的医生与医学生来说,这0.4%的跨越就是更坚实的专业底气

这种底气不应只停留在实验室的PPT里,应该去往最需要它的地方。

现在,每一位医生和医学生,都可以走进“百小应”去亲身体验 M3 Plus 带来的改变,看看一条结论如何被证据段落精准支撑。

M3 Plus随着免费开放给行业伙伴之后,这种证据锚定的专业能力,会在更多真实临床场景里被实际使用反复检验。

医疗AI的进步,最终会落到走廊里焦急等待的每一个普通人身上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

有范又有料
2026-03-24 10:59:07
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
70万韩国青年,选择“消失”

70万韩国青年,选择“消失”

中国新闻周刊
2026-03-26 09:30:07
iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

柴狗夫斯基
2026-03-26 21:15:05
9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

品牌观察官
2026-03-26 17:17:59
西安某建筑公司全方位崩塌!

西安某建筑公司全方位崩塌!

黯泉
2026-03-26 18:49:04
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

春江财富
2026-03-26 15:26:22
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

青眼财经
2026-03-17 16:03:09
2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

万象硬核本尊
2026-03-26 22:23:37
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

感觉会火
2026-03-26 12:06:22
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
2026-03-27 00:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
游戏
房产
旅游
手机

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

无障碍浏览 进入关怀版