网易首页 > 网易号 > 正文 申请入驻

国产医疗大模型斩获三项SOTA!幻觉率优于GPT-5.2,问诊能力超过人类医生

0
分享至


智东西
作者 陈骏达
编辑 漠影

我盯着屏幕上的AI诊断建议,反复读了三次。AI用清晰的专业术语罗列了可能的病因,可我的焦虑却没有丝毫缓解。

如果疼痛加剧该怎么办?这些药需要一起吃吗?我该先去哪个科室挂号?这些真正困扰普通患者的问题,答案里只字未提。AI似乎什么都懂,可我依然不知道该怎么做。


这也正是当前将AI大模型应用于医疗健康产场景的尴尬所在:它们能给出看起来专业感十足的回应,却撑不起一个真正的医疗决策。

作为患者,我们既不知道该怎么描述症状才算准确,也不清楚该提供哪些关键信息。最终,AI只能谨慎地给出一段涵盖各种可能性、却难以落地的建议。

如果,它能更像一位真正的医生呢?不急于抛出结论,而是先一步步引导,主动补齐医疗决策中缺失的那几块关键信息,比如疼痛的具体变化、用药史,或是过往的检查结果。

这,或许才是大模型真正走入现实医疗场景、发挥作用的转折点。

一、从机械问答到主动提问,会问诊的“AI医生”什么样?

昨天,百川智能开源的新一代医疗大模型Baichuan-M3,正是在上述方向上做的一次革新。

如果说传统医疗大模型像是医学知识问答机或医生角色扮演器,那么百川的追求,是尽可能还原真实的医疗决策过程,让模型具备主动收集关键信息、构建医学推理链路、动态抑制内容幻觉等原生医疗增强能力。

我们可以用下方这个案例,来感受Baichuan-M3与此前其他大模型的区别。

比如,当我向通用大模型发送“胸口长了个痘痘,两个月没消”这样的模糊消息时,没有主动收集信息能力的大模型,往往会基于有限的信息,直奔结论,列举出海量相关症状,让人一时间不知如何是好。


而当我与Baichuan-M3交互时,其“严肃问诊”带来的体验则完全不同。发送了相同的信息后,模型会主动要求我给予更多描述,比如具体长在哪个位置,看起来是什么样的,还贴心地给了对应的选项,供我回复。


Baichuan-M3逐步排查了吸烟史、手术史、外伤史、感染史等关键要素,也问了问我的饮食习惯,家族病史,直到它认为获取了足够完整的信息后,才决定给出判断。


这种直观的体验提升,也在榜单上得到了充分体现。去年5月,OpenAI发布了Healthbench。这一基准测试由来自60个国家的262位医生共同构建,收录了5000组高度逼真的多轮医疗对话,是目前较为权威、且贴近真实临床场景的医疗评测集。

长期以来,在Healthbench和HealthBench-Hard榜单上,霸榜的一直是GPT系列模型,Baichuan-M2此前曾冲到开源第一的位置,仅次于GPT-5。

此次发布的Baichuan-M3,则在HealthBench总分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登顶,成为当前全球医疗沟通和推理能力最强的医疗大模型。


在严肃的医疗场景,幻觉率也是一个十分重要的指标。常常被不少患者带着一同前往诊室,寻医问药的DeepSeek,幻觉率大概在6.1%左右,目前业内做得最好的GPT-5.2-High,幻觉率则在3.8%左右。Baichuan-M3则做到了3.5%的幻觉率,同样也是行业SOTA水平。


随着Baichuan-M3的问世,百川也同期发布了一项新的测评集——SCAN-bench。这项基准测试由150多位一线医生联合打造,能将诊疗过程拆解为更符合真实场景的病史采集、辅助检查、精准诊断三大阶段,对模型能力做出更全流程的评估。

在SCAN-bench上,M3在四个重要维度上,均显著高于人类医生基线水平,还大幅领先于国内外顶尖模型。


全新的使用体验与亮眼的榜单成绩背后,百川究竟做对了什么?

二、SCAN原则、强化学习多管齐下,教会AI“像医生一样思考”

在与百川的沟通中,我们了解到,百川内部其实有不少真正的临床医生,他们有的是从大医院辞职到百川全职工作,也有的在业余时间深度参与。这些一线医疗场景的Know-how,成为指导百川提升医疗大模型表现的重要参考。

比如,临床医生在面对患者时的行事逻辑往往是先排除危急重症,然后进行常规诊疗。但基于角色扮演的医疗AI问诊模式,往往无法践行这种安全优先级。没有关键风险点的牵引,问诊本身有可能失去重点,无法支撑安全可靠的临床判断。

为解决上述问题,百川需要的是一种范式的革新。他们提出了“严肃问诊范式”与“SCAN原则”,把临床问诊里的思维过程归纳为:Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与Normative Protocol(规范化输出)。

Baichuan-M3登顶的SCAN-bench,正是在这一原则的指导下打造的。这一基准测试的三大阶段、多轮动态考核模式,可以更完整地模拟医生从接诊到确诊的全过程。


如果说SCAN原则、严肃问诊范式,像是给大模型出了一套医疗AI领域的模拟题,那么百川接下来要做的,就是把这套模拟题中的解题思路与评分标准,系统地内化为模型的核心思维框架与行为本能。

传统的强化学习算法,往往基于最终的结果给予模型奖励信号,但是这套模式在医疗决策场景往往会水土不服。一个医疗决策的背后,往往涉及诸多复杂的环节,一个环节出错,就有可能影响最终的结果。

百川的解法是把医疗流程划分为病史采集、鉴别诊断、检验检查和精确诊断四个阶段,这些阶段相互依赖,但是目标是独立的。这就允许百川的团队在训练过程中给每个环节配备独立的奖励机制,让长程决策的复杂度降低。

在强化学习中,另一个常见的问题是“奖励破解”——模型总是能以千奇百怪的捷径,找到拿高分的方式。比如,只要疯狂提问,或许就能刷高分数,但这往往不是我们想要看到的结果。

为此,百川开发了SPAR(基于相对基准的分步惩罚优势算法)。这一算法进一步细化了步骤惩罚机制,还加入了自适应课程学习的因素,最终有效遏制了无效提问。这一算法还解决了模型出现单步瑕疵时的奖励误判,能更为准确地给模型提供指导。


此外,百川使用的强化学习奖励模型还融入了医学教育中的OSCE(客观结构化临床考试) 理念,将可计算的动态量表作为奖励标准,不再单纯追逐结果的对错,而是进行全维度的过程考核。

最终效果就是,经过训练的“AI医生”,整个问诊过程变得流畅、清晰、有逻辑,每一步都稳扎稳打,像一个真正在思考的医生,而不是一个只会背诵知识或耍小聪明骗分的机器学生。

Baichuan-M3在医疗推理能力方面的提升,以及幻觉率的下降,则得益于他们提出的事实感知强化学习(Fact-Aware RL)训练架构

在这一架构中,百川没有把幻觉约束和推理能力作为两个单独的目标进行优化,而是将其结合成一套统一的工程化目标。这样既能保证模型敢于给出坚定、明确的医学判断,也不会使其因过度追求安全而陷入“正确但无用”的沉默,或为追求流畅而滋生危险的事实性幻觉。

简单来说,这套方法让模型学会了一种“负责任的自信”

三、医疗AI奇点到来,有望缓解行业四大问题

在Baichuan-M3发布之际,我们也来到了百川在北京的办公室,与百川智能创始人兼CEO王小川面对面深度沟通。

此前,百川已在医疗AI方面取得一系列成绩。其开源模型M2发布后,月下载量超过十万次,累计下载近百万次,被业界视为“2025年影响力最大的开源医疗模型之一”。

随后的M2 Plus进一步引入“六元循证”系统,将幻觉降至基线模型的约三分之一,技术实力已吸引同行跟进甚至“挖人”。

对王小川而言,他认为今年是医疗AI奇点到来的一年,范式变革已经真正开始了。以医生为权威、为中心的模式正在逐步开始变化,AI工具提供的更多信息,让患者开始能够对自己健康负责任。

其实,做医疗,一直是百川的一条主线,这源自王小川对当前医疗体系四个根本性问题的认知。

首先,尽管如今我们已经能治愈各种复杂的疾病,但作为一门学科,医学本身仍是高度不发达的,仍处于“现象密集、理论滞后”的阶段。

这并不是百川的一家之言,此前,AI教母李飞飞也曾表达过类似的观点,医疗其实是一个黑暗的空间。人的行为和动作在其中扮演了重要,甚至是过于重要的角色。

同时,医患角色也存在错位的问题,决策权与受益权分离。患者是健康的最终受益者和责任人,但决策权和海量相关信息却掌握在医生手中。然而,医生并不总是能有时间、有条件准确地传达这些信息,可能会沟通不畅、患者体验不佳。王小川比喻,这如同“圣经的解释权只在教士手中”

此外,医疗体系还面临优质医生资源不足且分布不均,就医体系重心偏高,大医院负荷重,基层与居家健康环节薄弱等结构性问题。

而像Baichuan-M3这样的医疗AI的价值,正在于能够同时从这几个维度寻求突破。大模型熟练掌握全科知识,能对一项具体的病症展开跨学科、跨领域的分析,往往超越人类医生的知识范畴。

医疗AI也让优质医疗服务进一步下沉,并通过为患者提供更多看得懂、能理解的信息,推动决策权回归患者自身。王小川相信,就像不懂法律的陪审团也能通过律师和法官的充分解释,得出判断一样,患者只要掌握了足够的信息,也能对自己的健康做出负责任的决定。

结语:走少有人走的路

在采访中,王小川向我们提及了一组数据:“去年行业发了500个AI医疗模型。”不过,相信对许多患者和普通用户而言,更多与医疗相关的AI对话,可能是发生在DeepSeek、豆包这样的通用AI助手中。

王小川对这一现象并不焦虑,他认为垂直模型能在医疗上做得比通用底座更好。百川对医疗行业理解更深,选择了一条少有人走的路,对医疗AI本身也有信仰。

今年,百川计划陆续推出2款面向C端的产品,除了全科覆盖之外,还会在肿瘤、儿科这两大最复杂、最能体现严肃医疗价值的领域重点发力。未来,我们或许还能看到百川在更多领域,给广大用户带来的惊喜。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
徐怀钰KTV话筒事件,医院折腾了6个小时才取出来?当事人态度:已读,没回

徐怀钰KTV话筒事件,医院折腾了6个小时才取出来?当事人态度:已读,没回

In风尚
2026-01-18 18:05:04
风雪送棋圣 弈魂世长存

风雪送棋圣 弈魂世长存

新民晚报
2026-01-18 11:42:47
婆婆在美被捕,她的“豪门梦”碎了吗?

婆婆在美被捕,她的“豪门梦”碎了吗?

新民周刊
2026-01-18 15:04:26
这是嫌命长吗?哈梅内伊嘲讽川普:援助还在路上吗?

这是嫌命长吗?哈梅内伊嘲讽川普:援助还在路上吗?

史政先锋
2026-01-18 13:34:46
李亚鹏房东助理回应嫣然医院“翻倍涨租金” :“我们就像东郭先生”

李亚鹏房东助理回应嫣然医院“翻倍涨租金” :“我们就像东郭先生”

极目新闻
2026-01-17 08:47:37
“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

红大娘娱乐
2026-01-18 17:20:47
谢赫九段送别聂卫平:30年前,他让了我3颗子

谢赫九段送别聂卫平:30年前,他让了我3颗子

极目新闻
2026-01-18 17:08:00
库佐夫列夫上将还活着,库皮扬斯克交换比27:1!传奇的乌军老奶奶

库佐夫列夫上将还活着,库皮扬斯克交换比27:1!传奇的乌军老奶奶

鹰眼Defence
2026-01-18 16:50:14
大爆冷!国乒男单夺冠,新年第1冠,国乒小将3:2晋级会师周启豪

大爆冷!国乒男单夺冠,新年第1冠,国乒小将3:2晋级会师周启豪

国乒二三事
2026-01-18 19:15:55
12战11胜!王哲林16+11上海送新疆3连败 张镇麟仅6分低迷

12战11胜!王哲林16+11上海送新疆3连败 张镇麟仅6分低迷

醉卧浮生
2026-01-18 21:37:30
新加坡媒体锐评呆呆杀猪宴,15字一针见血,直戳每一个中国人心坎

新加坡媒体锐评呆呆杀猪宴,15字一针见血,直戳每一个中国人心坎

林雁飞
2026-01-18 17:26:43
一夜之间十几只鸡鸭全被咬死!广东居民害怕:好像是豹猫,当着人的面拖走,不怕人…

一夜之间十几只鸡鸭全被咬死!广东居民害怕:好像是豹猫,当着人的面拖走,不怕人…

广东活动
2026-01-18 12:11:04
中方反制开始!2号公告将断日本光刻胶后路,日媒慌了:我们愿意卖

中方反制开始!2号公告将断日本光刻胶后路,日媒慌了:我们愿意卖

白梦日记
2026-01-17 19:08:33
毛主席的十大预言,最后一个如果成真,国家将走向灭亡!

毛主席的十大预言,最后一个如果成真,国家将走向灭亡!

幽州校尉
2026-01-18 11:39:38
周星驰发文悼念梁小龙,直言永远怀念对方,两人曾因拍戏反目多年

周星驰发文悼念梁小龙,直言永远怀念对方,两人曾因拍戏反目多年

萌神木木
2026-01-18 19:09:06
官方定调了,跌破7%,2025年出生人口871万,这意味着什么?

官方定调了,跌破7%,2025年出生人口871万,这意味着什么?

毒sir财经
2026-01-17 23:12:48
日本的反击来了!中日贸易战升级!

日本的反击来了!中日贸易战升级!

达文西看世界
2026-01-18 17:14:16
媒体称武打明星梁小龙去世,其个人社交媒体10小时前发文“此事古难全”

媒体称武打明星梁小龙去世,其个人社交媒体10小时前发文“此事古难全”

红星新闻
2026-01-18 16:54:14
乌兹主帅怼越南记者:我看到中国队很强,找缺点是你们的事

乌兹主帅怼越南记者:我看到中国队很强,找缺点是你们的事

海阔山遥YAO
2026-01-18 00:20:20
包头包钢一分厂发生爆炸,多部门正在抢险救援!当地医院:已收治四十多人

包头包钢一分厂发生爆炸,多部门正在抢险救援!当地医院:已收治四十多人

潇湘晨报
2026-01-18 17:27:11
2026-01-18 23:51:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11086文章数 116943关注度
往期回顾 全部

健康要闻

血常规3项异常,是身体警报!

头条要闻

欧盟"外长":特朗普的关税威胁分裂欧美 会让中国受益

头条要闻

欧盟"外长":特朗普的关税威胁分裂欧美 会让中国受益

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

科技要闻

AI大事!马斯克:索赔9300亿元

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

艺术
游戏
健康
旅游
教育

艺术要闻

她是越南的绝世美人,你绝对不想错过!

《2077》续作《赛博朋克2》还将登陆移动平台

血常规3项异常,是身体警报!

旅游要闻

北京冬天不知去哪玩?来这能逛花市、摘蓝莓、做盆栽,一家人能待一天……

教育要闻

留学期间,如何让自己更值钱?

无障碍浏览 进入关怀版