网易首页 > 网易号 > 正文 申请入驻

百川开源医疗大模型 M3,王小川:今年会发布两款 ToC 产品,正在做硬件

0
分享至

AI 医疗突然成为了这个月的热点。

1 月初 OpenAI 发布医疗产品 ChatGPT Health,Anthropic 推出 Claude for Healthcare,昨天,百川智能正式开源新一代医疗大模型 Baichuan-M3。

评测成绩很突出,在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一;在专门考验复杂决策能力的 HealthBench Hard 上,也以 44.4 分的成绩夺冠。这一成绩,不仅刷新了 HealthBench 的最高分,更首次在医疗领域实现了对 GPT-5.2 的全面超越。

在 OpenAI 引以为傲的低幻觉领域,M3 也实现了超越,幻觉率 3.5 全球最低。

此外,M3 还首次具备了原生的「端到端」严肃问诊能力。能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。评测显示,其问诊能力显著高于真人医生的平均水平。

百川的医疗应用「百小应」已同步接入 M3,面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路,患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。

发布会上,我们跟创始人王小川就百川在医疗领域的下一步、ToC 产品的策略以及商业化落地上进行了交流。


⬆️关注 Founder Park,最及时最干货的创业分享

超 19000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道

01低幻觉之外,

核心是端到端的问诊能力

百川 M3 这次将医疗幻觉抑制前移至模型训练阶段,在强化学习过程中将医学事实一致性作为核心训练目标之一,通过将事实一致性约束融入训练流程,M3 重构了幻觉抑制的训练范式,在不依赖工具或检索增强的纯模型设置下,医疗幻觉率 3.5,超越 GPT-5.2,达到全球最低水平。


除了强推理和低幻觉,端到端的问诊能力是本次 M3 最重要的一项突破。

AI 应用实践中,通过 prompt「你是一位经验丰富的医生」,激活模型的「角色扮演」是更常见的做法。这种方式得到的是模型的表演行为,而非内生能力,激活的是模型应该提问的行为,而不是必须获取关键信息的思考。即便对话看似完整,也难以支撑安全、可靠的临床判断,从根本上偏离了医疗「安全第一」的原则。

针对这一问题,百川提出了「严肃问诊范式」与「SCAN 原则」,通过 Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与 Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地「白盒化」。

借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,该体系以真实临床经验作为「标准答案」,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相比于 HealthBench,SCAN-bench 是更加全流程端到端的动态评测新范式。

同时,还使用原生模型训练方法取代角色扮演 prompt,针对 GRPO 无法稳定进行长对话训练的问题,设计了新的 SPAR 算法,使模型能够在有限对话轮次中,把临床真正需要的关键问题问全、问准,把风险兜住,让输出经得起复核。

在实验过程中发现,问诊准确度每增加 2%,诊疗结果准确度就会增加 1%。评测结果显示,M3 在 SCAN 的四个维度均显著高于人类医生基线水平,并大幅领先于国内外顶尖模型,成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。


02想用 AI 实现医患权力的让渡,

而不是取代医生

Q:百川主要想解决医疗场景中的哪些问题?

王小川:医疗行业有几个核心痛点:

第一好医生不够。上一波互联网医疗,像好大夫、春雨医生,它们的模式是通过互联网解决连接问题,这就像做滴滴和美团,前提是供给端要充足。医疗行业的供给恰恰是不足的,所以互联网时代解决不了这个问题。AI 的爆发,可以创造出高质量的医生供给。大家可能 2023 年还不太信这个东西,但到了 2025 年,感受就会越来越明显。

第二医患关系不平等。医疗是少有的受益和决策分离的行业。作为受益方,患者很难在决策中获得充分的信息和话语权。

我们认为 AI 可以填补医患之间的 gap,不是说医生什么都不干了,检查、手术、治疗都是医生干的事情,但我们希望让患者明明白白地看病,对于自己的健康状况有更多地了解,更好地理解医生说的话。之前谈得比较少,要么就是 AI 取代医生,要么就是 AI 帮助医生,但更重要的是医患权力的让渡,医生把一部分权力逐步让渡给患者。

我们认为,未来的医疗模式既不会动医生的蛋糕,也不会让患者产生焦虑,解决权力让渡的问题,这是必然的趋势。比如,一个病症,医生可能给出两个方案,一个保守,一个激进,或者三个医生每个方案都不一样,患者怎么选?我们的 AI 医生足够强,能够补充各种信息,把解释做好时,患者和医生的关系就会进入一个新的阶段。

第三,三甲医院消耗过度。中国和美国有个区别,美国有家庭医生体系,大多数人都有自己的全科大夫,小病先找他们,有了大病再转到专科,医疗行为主要发生在基层。中国,大家习惯都往大医院、三甲医院挤,导致医疗负担非常重。国家虽然一直在推行基层首诊,但虹吸效应依然很强。今后一个大的趋势就是医疗场景会发生变化,大家拥有 AI 助手以后,更不去基层了,小毛病自己就看了。国家号召的「强基层」,未来可能不仅包括社区医院,居家也会成为一个重要的医疗场景。人们在家里就能跟 AI 对话、获取初步诊断,从根本上改变中国三级诊疗的格局。

第四,对人体的医学机制认知还不够深入患者总是觉得自己不懂,医生懂,其实医生有的时候也不懂,每个科室的医生都是知道局部的信息,复杂问题需要跨科室会诊。今天的 AI for Science,比如过去的蛋白质解码、虚拟细胞、临床数字孪生,可以帮助我们更好地建立人体模型。现在我们有能力收集更丰富的患者真实数据,在 AI 的辅助下,有机会做到「看病即入组」,更有机会做好生命模型。

Baichuan-M3 在今年上半年就能辅助做出更好的医疗决策,不仅是帮助医生,也会帮助患者。这就是我们想推动的事,能够有 AI 医生陪着你,时时刻刻照顾你。

Q:未来的大模型,多模态会是主战场吗?

王小川:多模态主战场这句话我是不认同的。

我们在 2023 年就提过,语言是智能的中轴。ChatGPT 发布时,大家最震撼的是它展现的智力。智力是把不抽象的事情变成抽象事情的能力,所以符号才是核心。类比即智力,人类智能主要通过三种符号语言来体现:自然语言、数学语言和代码语言。

到目前为止,评判哪个公司的模型能力强,核心标准依然是基于符号的。像 Sora 这种视频生成能力,可用性很强,但它不代表智力本身。在医疗场景里,很多都是决策问题,不只是看片子就行了。医院里已经有很多小模型在辅助阅片,比如推想医疗或其他影像公司的模型。这些图像模型输出结果后,最终还是要符号化,然后用语言模型来做后续的推理工作。

感知模型和认知模型需要结合,表现就是把影像变成报告和诊断模型。最近还有胰腺癌频扫 CT 模型,这些感知模型更像是主干上的叶子,不是「主战场」。我们很快也会发布和图像相关的模型,把医疗影像诊断做到 SOTA 的水平。

Q:很多公司都提到,多模态数据很难「出院」,百川怎么看待医院内数据的处理?

王小川:主要是两个要点:技术和场景。

我们认为,未来巨大的增量是在院外,不在院内。院内更多是执行场所,比如做手术、输液。我们的目标不是在院内帮医生解决流程问题,那个想象空间是有限的。我们的策略是「隔山打牛」,最重要的价值是帮到患者。

今天大家总是讲数据不够,投了上千亿进去,去年发布了 500 款医疗垂直大模型,但大家有体感吗?美国,已经有两件事做成了:OpenEvidence,很多医生都在用它辅助诊疗,安全性和准确度提升了很多;二是 ChatGPT 马上就要接入健康数据,2.3 亿人很快就可以直接受益。

AI 直接产生作用是在院外,以前信息化是以医院为中心、医生为中心的这种模式,它都离 AI 的本质和 Toc 是远的。我们始终强调,这次的技术红利是发生在语言智能上,不是在图像识别上。能力识别不代表真正的智力,它只是一个「做题家」手里的活儿。

03今年会发布两款 ToC 产品,

正在做睡眠类硬件产品

Q:像「阿福」这类拥有海量用户的 App,他们获得的动态反馈数据,会不会让模型迭代速度超过你们?

王小川:用反馈来推动模型迭代,主要体现在两点:第一,你的个人档案完善了,服务更个性化了,这跟用户多少没关系;第二,用户多了,团队可以通过反馈来改进产品,但这更像是传统互联网的产品迭代,不是技术层面的模型进化。你看 Anthropic、Gemini 也没有那么庞大的 C 端用户,但模型依然发展得很快。这件事本质上还是技术驱动的。

注:「阿福」是由蚂蚁集团推出的一款 AI 健康应用。

Q:百川接下来的产品路线想怎么走?

王小川:我们跟「阿福」的定位不太一样,阿福更偏向泛健康,「健康」本身是一个很宽泛的概念。我们希望更聚焦,做到至少能取代家庭医生的角色。

从第一天起就想做 ToC,帮助患者做辅助决策这件事,价值非常清晰。我倒不担心商业模式,只要我们能跨过医疗的专业门槛,真正为用户创造价值,无论是直接向用户收费,还是通过服务包整合后续的医疗、药械资源来收费,都会是很容易的事情。

我们今年上半年就会正式入场,之前停顿了一段时间,目标想得很清楚,我们不是只赚医院或医生的钱。我们会有两款产品发布,免费使用,但包含付费模块。

首先是百小应,医生和患者都能用。虽然是同一个产品,但医生和患者的身份不同,给出的结果也不同。医生版更像 OpenEvidence,非常强调循证,每一句话的出处、引用的文献都会清晰标明。医生可以接受各种专业的答案,我们给到患者的,是几个清晰的选项和要点,必须让他们看得懂,把专业语言翻译成他们能理解的内容,同时保留循证的能力。

患者模式会强调补充信息,具备进入启发式的、端到端的问诊能力。医生不会这样,因为医生有自己提问的方法。在这种情况下,我们和 OpenEvidence 的区别在于,OpenEvidence 只是服务于医生,我们的产品是信息可复现、专业内容可懂、患者可决策、建议可行动、最终服务到患者本人,这样的产品定位,在全球是独一无二的。

Q:如果做 ToC 产品,早期怎么培养用户心智?

王小川:需要三件事:第一,需要一定的市场宣传投入,我们会适量增加;第二,要得到医生的认可。我们的路线和阿福不同,他们可能对老医生触动不大,但我们希望医生和患者是一体两面,共享一款产品。所以不仅要让患者鼓掌,更要让专家点头;第三,产品本身做得足够好,能自然形成一定的口碑效应。

Q:百川的护城河是什么?

王小川:护城河分三部分。第一,模型本身。在前沿领域,模型领先一代就是优势,尤其在医疗领域,大家一定会选择更好的;第二,对问题切入点的选择。我们更愿意切入一些严肃、高价值、非共识的场景。大厂通常要从共识的地方切入;第三,产品形态。大家后续会看到,我们的产品形态也是不一样的。

Q:你提到做严肃医疗,这会涉及权责问题,诊疗责任由谁来负责?

王小川:今天我们不会去碰法律红线。法律要求诊断结论和治疗方案必须由执业医师给出。但我们可以在这个框架内,把辅助诊断做得更好。

现在的痛点是,患者在拿到结论之前,需要大量的解释和信息。我们主打的概念是「让患者明明白白看医生」,核心是缩短医患之间的 gap。比如医生给了两个治疗方案,一个保守一个激进,选哪个?我们可以帮助患者分析利弊,辅助他们做决策。诊疗和决策是两回事,我们认为未来决策权会更多地让渡给患者。我们不是替患者做决策,是给建议,帮助患者自己做决策。

Q:M3 的能力已经可以支撑这个目标了吗?

王小川:模型能力已经足够了,现在需要的是建立产品形象和用户信任。

Q:国内会出现类似 OpenEvidence这样的产品吗?

王小川:可能性不大。在美国,OpenEvidence 确实能对医疗效果提升很多。但在中国有几个障碍:第一,中国医生没有使用这类辅助系统的习惯;第二,他们非常忙,没有额外的时间去使用一个新工具;第三,用不用这类工具,对他们的职称评定和论文发表可能帮助不大。

Q:百川最初为什么选择儿科作为切入点?

王小川:一开始选儿科,也是想从院外、从相对轻症的场景切入。儿童很多时候是小问题,但家长焦虑感很强。所以它不是从疾病的严重程度出发,而是从用户的焦虑感出发。现在技术进步了,我们才敢拓展到肿瘤这种最核心的领域。

Q:儿科还会继续重投入吗?

王小川:会的。「一老一小」始终是我们的方向,我们主要就是慢病、儿科和肿瘤这三个方向。

Q:你们会做硬件吗?

王小川:会,目前正在做一款和睡眠相关的硬件产品。

转载原创文章请添加微信:founderparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马筱梅生产怕痛 焦虑到凌晨4点才睡 称一直胎动 汪小菲催孩子快出来

马筱梅生产怕痛 焦虑到凌晨4点才睡 称一直胎动 汪小菲催孩子快出来

可爱小菜
2026-01-20 15:14:43
中国患上癌症的人越来越多,和酵母蒸的馒头有关系?专家揭露真相

中国患上癌症的人越来越多,和酵母蒸的馒头有关系?专家揭露真相

岐黄传人孙大夫
2026-01-18 09:05:03
中国人口负增长:一场可能持续百年的文明转型

中国人口负增长:一场可能持续百年的文明转型

玛丽姬丝
2026-01-20 17:01:37
梅德韦杰夫发文讽刺MAGA:让美国再次伟大,等于让丹麦再次变小,等于让欧洲再次贫穷

梅德韦杰夫发文讽刺MAGA:让美国再次伟大,等于让丹麦再次变小,等于让欧洲再次贫穷

鲁中晨报
2026-01-19 16:11:09
收回台湾不是最重要的,要是确认俄罗斯不败,中国将迎百年大变局

收回台湾不是最重要的,要是确认俄罗斯不败,中国将迎百年大变局

文史旺旺旺
2026-01-19 19:24:48
霍震霆没想到,自己千辛万苦给霍启刚找的媳妇,竟狠狠“拿捏”他

霍震霆没想到,自己千辛万苦给霍启刚找的媳妇,竟狠狠“拿捏”他

借你一生
2026-01-20 16:35:14
史上第一富!4.7万亿!马斯克个人财富打破人类纪录

史上第一富!4.7万亿!马斯克个人财富打破人类纪录

牛牛叨史
2025-12-22 22:53:16
警方通报:王某(女,35岁)冒充陕西省领导,称能办理公务员入职,受害人被骗424万元

警方通报:王某(女,35岁)冒充陕西省领导,称能办理公务员入职,受害人被骗424万元

极目新闻
2026-01-20 20:59:34
美专家一致警告美国:当中国统一台湾时,美国只有一条路可以选择

美专家一致警告美国:当中国统一台湾时,美国只有一条路可以选择

文史旺旺旺
2026-01-19 19:34:05
母马去世小马站在墙角盯着母马的马尾毛,流下眼泪

母马去世小马站在墙角盯着母马的马尾毛,流下眼泪

观威海
2026-01-14 16:26:12
美防长发出战争威胁,若真敢开战将会比抗美援朝付出的伤亡会更大

美防长发出战争威胁,若真敢开战将会比抗美援朝付出的伤亡会更大

文史旺旺旺
2026-01-16 21:22:17
继纽约时报之后,泰晤士报也开始吹哨外星人了

继纽约时报之后,泰晤士报也开始吹哨外星人了

码头青年
2026-01-19 14:33:35
知乎热评:今年失业的人失业后都在干什么?看完评论我泪目了!

知乎热评:今年失业的人失业后都在干什么?看完评论我泪目了!

另子维爱读史
2026-01-20 20:26:06
中国全面停止进口俄电力,25年合同失效,普京淡定做出“神预言”

中国全面停止进口俄电力,25年合同失效,普京淡定做出“神预言”

军机Talk
2026-01-20 11:04:49
国产光刻胶攻坚提速,2026年有望爆发!扬帆新材等企业领跑突围

国产光刻胶攻坚提速,2026年有望爆发!扬帆新材等企业领跑突围

览富财经网
2026-01-20 17:39:01
美国真的像牢A说的那样,已经当街吃人肉了吗

美国真的像牢A说的那样,已经当街吃人肉了吗

熊太行
2025-12-28 11:01:46
基辅守不住了

基辅守不住了

陆弃
2026-01-20 08:20:03
嘉靖年间,皇帝的爱妃张娘娘,会阴部位长了一个毒疮

嘉靖年间,皇帝的爱妃张娘娘,会阴部位长了一个毒疮

忠于法纪
2026-01-12 09:02:29
五十年代杀了多少地主恶霸?难道五六十年代还不如解放前吗?

五十年代杀了多少地主恶霸?难道五六十年代还不如解放前吗?

叹为观止易
2026-01-20 10:05:07
1.07亿镑纪录签约,切尔西为何愿卖恩佐?

1.07亿镑纪录签约,切尔西为何愿卖恩佐?

浮萍足球
2026-01-20 04:14:08
2026-01-20 23:19:00
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1114文章数 149关注度
往期回顾 全部

健康要闻

血常规3项异常,是身体警报!

头条要闻

英方承认:美国反复插手中国使馆新馆舍的建造计划

头条要闻

英方承认:美国反复插手中国使馆新馆舍的建造计划

体育要闻

新的时代!东契奇首夺全明星票王 詹姆斯落选首发

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

李迅雷:2026买房不如租房

科技要闻

收藏|这可能是CES2026最清醒一份复盘

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

本地
健康
家居
教育
公开课

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

血常规3项异常,是身体警报!

家居要闻

隽永之章 清雅无尘

教育要闻

来上课了——不一样的形容词 高中考点全击破第3段

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版