网易首页 > 网易号 > 正文 申请入驻

王小川批医疗AI“假东西太多”!新模型幻觉率仅2.6%,两周免费

0
分享至


智东西
作者 陈骏达
编辑 李水青

智东西1月22日报道,今天,百川智能发布了Baichuan-M3-Plus询证增强医疗大模型,这一模型采用了M2-Plus同款的“六源询证”方法,再次刷新行业SOTA,幻觉率仅为2.6%。

此外,Baichuan-M3-Plus还首创了“证据锚定”技术,让AI回答中的每个结论和证据都能精准匹配到原文献的具体位置,据称匹配率高达95%,远超行业40%-50%的平均水准。

这一模型采用API模式对外提供服务,价格较前代模型下降70%,并在发布后两周内免费,为医务工作者提供服务的机构可通过“海纳百川计划”长期免费使用。

Baichuan-M3-Plus发布之际,智东西等媒体来到百川总部与百川智能创始人兼CEO王小川和百川智能模型技术负责人鞠强面对面沟通,他们分享了M3 Plus背后的技术细节,以及对行业热点议题的看法。


在交流中,王小川多次强调,医疗AI的核心目标应始终指向患者利益本身。他主动回应了近期张文宏关于“拒绝在病历系统中引入AI、担心影响年轻医生成长”的观点,直言如果因为担忧AI影响医生训练而限制其应用,本质上就是将当下的患者作为医生成长的成本。

在他看来,“AI+医生”已在多个场景中展现出优于单纯依靠医生的潜力,而医生同样存在判断偏差与“幻觉”,从客观数据看,当前医疗AI的幻觉率并不高于人类医生。

与此同时,王小川还谈到,中国医生对AI工具接纳度偏低,并非模型能力不足,而是医疗系统高强度运转与行业风气的影响。

一方面,国内医生单日接诊量远高于海外,几乎没有时间真正使用和验证AI工具;另一方面,医疗AI领域缺乏求真的状态,“假的东西太多了”,真正有技术突破的产品反而难以快速建立信任。

他呼吁,国内行业应该良性竞争,把医疗行业做得更真实,这样发展速度才会加快,否则就会有很多“皇帝的新衣”。

当智东西问及百川目前API客户群体的画像时,王小川回应道,M3发布前百川已经拥有一批机构用户,包括医院和为医院提供科研辅助能力的中小企业。M3模型发布后,伴随着近期价格调整和合作伙伴关系的推进,客户结构预计会发生较大变化。

体验链接:https://www.baichuan-ai.com

一、从六源询证到证据锚定,如何把医疗AI“拉回白盒”

上周,百川智能正式开源了当前业界医学能力最出色的开源模型Baichuan-M3。该模型在权威医疗AI基准测试HealthBench中位列全球第一,表现超越了OpenAI最强模型。

Baichuan-M3-Plus以M3底座为基础,结合百川首创的“六元循证系统”,在M3原有抗幻觉能力之上进一步降低了幻觉发生率。


百川对“降低幻觉率”的执着,源于当前医疗AI领域中一些较为突出的问题。现场演示中,鞠强揭示了部分医疗AI产品存在的幻觉现象:AI生成的答案表面看来专业性强,引用了论文、指南、药品说明书等来源,但实际内容错误率可能高达90%。这种“看似专业”的幻觉,对于经验尚浅的医生或普通用户而言,潜藏的风险更为显著。

此类幻觉往往源于一个常见问题:AI引用的内容与其所要支持的表述之间缺乏实质关联。

对医生和用户来说,核验这些引用的正确性过程繁琐,需要耗费大量时间逐条核对,反而可能增加工作负担。

为此,百川创新性地引入“证据锚定技术”,确保模型引用的段落与表述严格对应,并可精确定位至原文位置,使证据具备可核验、可追溯的特性,最终实现诊疗辅助过程的“白盒化”。


本次Baichuan-M3-Plus将采用低成本API的模式对外提供服务。通过模型架构、Infra等层面的工程优化,Baichuan-M3-Plus的API价格较前代模型下降70%。

发布后两周内,Baichuan-M3-Plus将完全免费。此外,百川智能创始人兼CEO王小川还宣布了“海纳百川计划”,将面向所有为医务工作者提供服务的机构免费提供询证增强的M3-Plus API服务,以促进行业的协作和发展。王小川称,这项免费服务的成本最高可能达到1亿元左右。

新模型API价格的大幅下调背后有多重驱动因素。鞠强介绍,上一代M2模型仍是稠密模型,而M3架构已经切换为MoE,这一变化本身就能带来不少成本收益。

此外,百川还对业内广受采用的投机采样技术Eagle3进行了升级,加入了门控机制,进一步提升推理效率。

二、王小川回应“AI影响医生成长”言论:患者不该为医生成长买单

日前,张文宏拒绝把AI引入医院病历系统,认为其会影响年轻医生成长的言论,引发广泛讨论。

王小川在采访中主动提到了这一讨论,并做出全面的回应。

他认为,患者利益应置于首位,当前“AI+医生”模式已显示出优于单纯依靠医生的潜力,符合医学发展规律。若因担忧AI可能影响医生成长而限制其应用,实则可能阻碍对患者有益的技术进步——“医生的成长不能以当下的患者作为成本”。医生也有幻觉,而目前AI的幻觉率其实比医生更低。

在应用方法上,王小川认为尚有探索空间。若担心医生能力因AI而退化,可调整使用方式,例如让AI辅助年轻医生,在诊疗过程中提供实时提醒与校验。

王小川还谈到了许多医院做大模型的现象,他认为:“医生不是造模型的,医生是用模型的,AlphaGo也不是围棋选手造的,而是谷歌造的。”双方应做好专业分工。

其实,百川与医生群体有较为密切的合作。鞠强提到,百川与其它通用大模型公司的一个核心区别是,他们拥有一支专业的专职医生团队。

这个团队的成员拥有丰富的一线医疗经验。有曾在国内三甲医院任职的医生以全职身份加入百川,此外百川还与合作的医院建立了深度协作,有医生长期驻场,提供医学指导。

第二部分的支持来自一个更为广泛的专家网络。百川内部的专职医生团队组建并管理着一个覆盖所有主要临床学科的兼职医学专家团,规模达数百人。他们为百川的模型研发提供高质量的专业知识输入和数据支持。

三、察言观色的医疗AGI三年内实现,国内采用率低不是模型原因

王小川还给出了他对AGI(通用人工智能)级别AI医生何时到来的预判。他认为,在具身智能领域,能完成做手术这类操作的AI可能还较远,但进行表达、察言观色的AGI级别AI医生,有望在3年内实现。

采访中,有一组数据被反复提及,在美国医疗AI工具OpenEvidence在医生群体中的渗透率已经达到45%,但中国医生对AI工具接纳度、使用率仍不高。

王小川认为,这一现象不是由模型能力导致的,而是与国内的医疗系统现状和医疗AI行业的风气有关。

一方面,中国医生的工作压力很大,美国医生可能一天需要看10个病人,而中国医生可能是50-100人,平均到每个患者身上只有3-5分钟。这导致国内医生没有时间好好地使用AI产品。

另一方面,王小川认为国内的医疗AI产品并没有真实地表达技术进展,虚假的产品过多,而真东西发布后也难以快速取得信任。他呼吁行业真诚地评价、表达技术进展,推动良性竞争,把医疗行业做得更真实,这样速度才会加快,否则就会有很多“皇帝的新衣”。

围绕AI医疗的责任边界、商业模式和未来方向,王小川认为,在现行法规下,AI模型不能直接给出最终诊断,权力和责任仍由医生承担,AI只是辅助工具;同时,美国已在部分地区允许AI直接开处方,这为中国未来制度探索提供了参考。

在商业模式上,百川不会简单复制美国OpenEvidence通过药企营销变现的路径,而是坚持符合中国国情,在合规前提下通过学术体系等方式参与医疗生态建设。相比美国医院提效带来的巨大市场空间,中国医疗AI必须寻找不同的价值回报方式。

在AI制药领域,百川目前的重点不在早期分子发现或患者招募,而是通过药效评价、药物伴随和数字化伴随(Digital Companion)体系,提高真实世界中的药物疗效,本质上属于精准医疗方向。

针对医疗AI“幻觉”的可接受阈值问题,王小川指出,是否接受由医院和医疗体系决定,而非由企业单方面设定;百川的定位是先辅助医生,再服务患者。随着医生对AI工具的逐步适应,未来两到三年内,医疗行业对AI的接受度有望显著提升,这需要政策、行业伙伴与技术共同推动。

结语:医疗AI热度攀升,落地与信任成关键因素

近几周,AI医疗健康领域迎来多个新玩家,国外的OpenAI、Anthropic,国内的京东等大厂与多家创企都相继发布了新品,赛道热度不断攀升。

不过,正如今天采访中反复提到的那样,影响医疗AI落地的因素不只是模型能力本身。如何获取用户和专业医生群体的信赖,如何与真实场景结合并解决具体问题,或许比发布模型和产品本身更为关键,也更考验企业的长期投入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
属鸡人注意:这两个姓氏的人是你的“福星”,和他们深交可助你

属鸡人注意:这两个姓氏的人是你的“福星”,和他们深交可助你

卡西莫多的故事
2026-01-22 09:41:15
提速!浙江台州直达深圳,“最快列车”来了

提速!浙江台州直达深圳,“最快列车”来了

台州交通广播
2026-01-22 07:16:05
大寒过后,建议女人多吃它,简单一煮,一周吃3回,补气血不上火

大寒过后,建议女人多吃它,简单一煮,一周吃3回,补气血不上火

Lily美食谈
2026-01-22 22:52:17
惊天反转!28岁日本外援正式回归辽宁踢中超 13天前官宣加盟延边

惊天反转!28岁日本外援正式回归辽宁踢中超 13天前官宣加盟延边

我爱英超
2026-01-22 10:24:22
闫学晶偷税8367万被罚!直播圈“野蛮捞金”时代,真要凉了?

闫学晶偷税8367万被罚!直播圈“野蛮捞金”时代,真要凉了?

复转这些年
2026-01-22 21:14:11
何庆魁子曝闫学晶猛料被扒,77岁老父受牵连

何庆魁子曝闫学晶猛料被扒,77岁老父受牵连

老塕是个手艺人
2026-01-22 23:19:06
金玟哉谈红牌:我确实拉拽了对手,这是一次犯规

金玟哉谈红牌:我确实拉拽了对手,这是一次犯规

懂球帝
2026-01-22 08:10:04
雅库特共和国:一个正在闹独立的地区,将独立当成头等大事

雅库特共和国:一个正在闹独立的地区,将独立当成头等大事

普览
2026-01-22 20:41:30
2025年中国GDP将超20万亿美元,占美国64%

2025年中国GDP将超20万亿美元,占美国64%

翡翠清泉
2026-01-21 22:33:21
日本AV女演员生存实录:日工作14小时,她们最后都嫁给了谁?

日本AV女演员生存实录:日工作14小时,她们最后都嫁给了谁?

蔚蓝的珊瑚海
2025-12-30 23:01:24
大范围雨雪!即将影响天津!今夜我市低至-13℃,雪雪雪连着2天!就在···

大范围雨雪!即将影响天津!今夜我市低至-13℃,雪雪雪连着2天!就在···

天津人
2026-01-22 18:42:30
407米!深圳在建第一高楼封顶,“罗湖之冠”正式加冕

407米!深圳在建第一高楼封顶,“罗湖之冠”正式加冕

GA环球建筑
2026-01-22 21:55:01
你知道哪些毁人三观的事情?网友:虽然有点辣眼睛,但确实爱看哦

你知道哪些毁人三观的事情?网友:虽然有点辣眼睛,但确实爱看哦

带你感受人间冷暖
2026-01-19 00:05:09
全网最惨985:校名像民办,地址被认错,实力却稳居全国前20?

全网最惨985:校名像民办,地址被认错,实力却稳居全国前20?

勋哥教你填志愿
2026-01-20 13:08:14
《人民日报》三次炮轰罗永浩:传递什么信号?罗永浩到底错在哪?

《人民日报》三次炮轰罗永浩:传递什么信号?罗永浩到底错在哪?

影像温度
2026-01-22 11:32:13
打匈奴的名将不少,但真正重创匈奴的,就这三位狠人

打匈奴的名将不少,但真正重创匈奴的,就这三位狠人

长风文史
2025-12-10 17:25:37
荒野之谜:西伯利亚深处到底有啥可怕的东西?为啥老虎都不敢踏足

荒野之谜:西伯利亚深处到底有啥可怕的东西?为啥老虎都不敢踏足

天下十三洲猎奇
2026-01-22 00:51:24
CBA积分榜最新排名!北京掀翻浙江杀回前四,昔日总冠军依旧垫底

CBA积分榜最新排名!北京掀翻浙江杀回前四,昔日总冠军依旧垫底

老叶评球
2026-01-22 22:08:13
贾国龙适合办机关食堂

贾国龙适合办机关食堂

次元君情感
2026-01-22 04:03:48
烂番茄95%,权游衍生剧《七王国的骑士》首季开播创纪录

烂番茄95%,权游衍生剧《七王国的骑士》首季开播创纪录

后竹游戏
2026-01-22 12:34:04
2026-01-23 01:35:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11107文章数 116942关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

猝死程序员底薪3千24小时待命 公司前三季度营收180亿

头条要闻

猝死程序员底薪3千24小时待命 公司前三季度营收180亿

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

家居
数码
亲子
本地
公开课

家居要闻

法式风情 南洋中古居

数码要闻

2026款华硕a豆14 Air笔记本发布,6999元起

亲子要闻

真相很可怕!终于揭秘:为什么你记不住3岁前的事?

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版