网易首页 > 网易号 > 正文 申请入驻

国产医疗大模型斩获三项SOTA!幻觉率优于GPT-5.2,问诊能力超过人类医生

0
分享至


智东西
作者 陈骏达
编辑 漠影

我盯着屏幕上的AI诊断建议,反复读了三次。AI用清晰的专业术语罗列了可能的病因,可我的焦虑却没有丝毫缓解。

如果疼痛加剧该怎么办?这些药需要一起吃吗?我该先去哪个科室挂号?这些真正困扰普通患者的问题,答案里只字未提。AI似乎什么都懂,可我依然不知道该怎么做。


这也正是当前将AI大模型应用于医疗健康产场景的尴尬所在:它们能给出看起来专业感十足的回应,却撑不起一个真正的医疗决策。

作为患者,我们既不知道该怎么描述症状才算准确,也不清楚该提供哪些关键信息。最终,AI只能谨慎地给出一段涵盖各种可能性、却难以落地的建议。

如果,它能更像一位真正的医生呢?不急于抛出结论,而是先一步步引导,主动补齐医疗决策中缺失的那几块关键信息,比如疼痛的具体变化、用药史,或是过往的检查结果。

这,或许才是大模型真正走入现实医疗场景、发挥作用的转折点。

一、从机械问答到主动提问,会问诊的“AI医生”什么样?

昨天,百川智能开源的新一代医疗大模型Baichuan-M3,正是在上述方向上做的一次革新。

如果说传统医疗大模型像是医学知识问答机或医生角色扮演器,那么百川的追求,是尽可能还原真实的医疗决策过程,让模型具备主动收集关键信息、构建医学推理链路、动态抑制内容幻觉等原生医疗增强能力。

我们可以用下方这个案例,来感受Baichuan-M3与此前其他大模型的区别。

比如,当我向通用大模型发送“胸口长了个痘痘,两个月没消”这样的模糊消息时,没有主动收集信息能力的大模型,往往会基于有限的信息,直奔结论,列举出海量相关症状,让人一时间不知如何是好。


而当我与Baichuan-M3交互时,其“严肃问诊”带来的体验则完全不同。发送了相同的信息后,模型会主动要求我给予更多描述,比如具体长在哪个位置,看起来是什么样的,还贴心地给了对应的选项,供我回复。


Baichuan-M3逐步排查了吸烟史、手术史、外伤史、感染史等关键要素,也问了问我的饮食习惯,家族病史,直到它认为获取了足够完整的信息后,才决定给出判断。


这种直观的体验提升,也在榜单上得到了充分体现。去年5月,OpenAI发布了Healthbench。这一基准测试由来自60个国家的262位医生共同构建,收录了5000组高度逼真的多轮医疗对话,是目前较为权威、且贴近真实临床场景的医疗评测集。

长期以来,在Healthbench和HealthBench-Hard榜单上,霸榜的一直是GPT系列模型,Baichuan-M2此前曾冲到开源第一的位置,仅次于GPT-5。

此次发布的Baichuan-M3,则在HealthBench总分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登顶,成为当前全球医疗沟通和推理能力最强的医疗大模型。


在严肃的医疗场景,幻觉率也是一个十分重要的指标。常常被不少患者带着一同前往诊室,寻医问药的DeepSeek,幻觉率大概在6.1%左右,目前业内做得最好的GPT-5.2-High,幻觉率则在3.8%左右。Baichuan-M3则做到了3.5%的幻觉率,同样也是行业SOTA水平。


随着Baichuan-M3的问世,百川也同期发布了一项新的测评集——SCAN-bench。这项基准测试由150多位一线医生联合打造,能将诊疗过程拆解为更符合真实场景的病史采集、辅助检查、精准诊断三大阶段,对模型能力做出更全流程的评估。

在SCAN-bench上,M3在四个重要维度上,均显著高于人类医生基线水平,还大幅领先于国内外顶尖模型。


全新的使用体验与亮眼的榜单成绩背后,百川究竟做对了什么?

二、SCAN原则、强化学习多管齐下,教会AI“像医生一样思考”

在与百川的沟通中,我们了解到,百川内部其实有不少真正的临床医生,他们有的是从大医院辞职到百川全职工作,也有的在业余时间深度参与。这些一线医疗场景的Know-how,成为指导百川提升医疗大模型表现的重要参考。

比如,临床医生在面对患者时的行事逻辑往往是先排除危急重症,然后进行常规诊疗。但基于角色扮演的医疗AI问诊模式,往往无法践行这种安全优先级。没有关键风险点的牵引,问诊本身有可能失去重点,无法支撑安全可靠的临床判断。

为解决上述问题,百川需要的是一种范式的革新。他们提出了“严肃问诊范式”与“SCAN原则”,把临床问诊里的思维过程归纳为:Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与Normative Protocol(规范化输出)。

Baichuan-M3登顶的SCAN-bench,正是在这一原则的指导下打造的。这一基准测试的三大阶段、多轮动态考核模式,可以更完整地模拟医生从接诊到确诊的全过程。


如果说SCAN原则、严肃问诊范式,像是给大模型出了一套医疗AI领域的模拟题,那么百川接下来要做的,就是把这套模拟题中的解题思路与评分标准,系统地内化为模型的核心思维框架与行为本能。

传统的强化学习算法,往往基于最终的结果给予模型奖励信号,但是这套模式在医疗决策场景往往会水土不服。一个医疗决策的背后,往往涉及诸多复杂的环节,一个环节出错,就有可能影响最终的结果。

百川的解法是把医疗流程划分为病史采集、鉴别诊断、检验检查和精确诊断四个阶段,这些阶段相互依赖,但是目标是独立的。这就允许百川的团队在训练过程中给每个环节配备独立的奖励机制,让长程决策的复杂度降低。

在强化学习中,另一个常见的问题是“奖励破解”——模型总是能以千奇百怪的捷径,找到拿高分的方式。比如,只要疯狂提问,或许就能刷高分数,但这往往不是我们想要看到的结果。

为此,百川开发了SPAR(基于相对基准的分步惩罚优势算法)。这一算法进一步细化了步骤惩罚机制,还加入了自适应课程学习的因素,最终有效遏制了无效提问。这一算法还解决了模型出现单步瑕疵时的奖励误判,能更为准确地给模型提供指导。


此外,百川使用的强化学习奖励模型还融入了医学教育中的OSCE(客观结构化临床考试) 理念,将可计算的动态量表作为奖励标准,不再单纯追逐结果的对错,而是进行全维度的过程考核。

最终效果就是,经过训练的“AI医生”,整个问诊过程变得流畅、清晰、有逻辑,每一步都稳扎稳打,像一个真正在思考的医生,而不是一个只会背诵知识或耍小聪明骗分的机器学生。

Baichuan-M3在医疗推理能力方面的提升,以及幻觉率的下降,则得益于他们提出的事实感知强化学习(Fact-Aware RL)训练架构

在这一架构中,百川没有把幻觉约束和推理能力作为两个单独的目标进行优化,而是将其结合成一套统一的工程化目标。这样既能保证模型敢于给出坚定、明确的医学判断,也不会使其因过度追求安全而陷入“正确但无用”的沉默,或为追求流畅而滋生危险的事实性幻觉。

简单来说,这套方法让模型学会了一种“负责任的自信”

三、医疗AI奇点到来,有望缓解行业四大问题

在Baichuan-M3发布之际,我们也来到了百川在北京的办公室,与百川智能创始人兼CEO王小川面对面深度沟通。

此前,百川已在医疗AI方面取得一系列成绩。其开源模型M2发布后,月下载量超过十万次,累计下载近百万次,被业界视为“2025年影响力最大的开源医疗模型之一”。

随后的M2 Plus进一步引入“六元循证”系统,将幻觉降至基线模型的约三分之一,技术实力已吸引同行跟进甚至“挖人”。

对王小川而言,他认为今年是医疗AI奇点到来的一年,范式变革已经真正开始了。以医生为权威、为中心的模式正在逐步开始变化,AI工具提供的更多信息,让患者开始能够对自己健康负责任。

其实,做医疗,一直是百川的一条主线,这源自王小川对当前医疗体系四个根本性问题的认知。

首先,尽管如今我们已经能治愈各种复杂的疾病,但作为一门学科,医学本身仍是高度不发达的,仍处于“现象密集、理论滞后”的阶段。

这并不是百川的一家之言,此前,AI教母李飞飞也曾表达过类似的观点,医疗其实是一个黑暗的空间。人的行为和动作在其中扮演了重要,甚至是过于重要的角色。

同时,医患角色也存在错位的问题,决策权与受益权分离。患者是健康的最终受益者和责任人,但决策权和海量相关信息却掌握在医生手中。然而,医生并不总是能有时间、有条件准确地传达这些信息,可能会沟通不畅、患者体验不佳。王小川比喻,这如同“圣经的解释权只在教士手中”

此外,医疗体系还面临优质医生资源不足且分布不均,就医体系重心偏高,大医院负荷重,基层与居家健康环节薄弱等结构性问题。

而像Baichuan-M3这样的医疗AI的价值,正在于能够同时从这几个维度寻求突破。大模型熟练掌握全科知识,能对一项具体的病症展开跨学科、跨领域的分析,往往超越人类医生的知识范畴。

医疗AI也让优质医疗服务进一步下沉,并通过为患者提供更多看得懂、能理解的信息,推动决策权回归患者自身。王小川相信,就像不懂法律的陪审团也能通过律师和法官的充分解释,得出判断一样,患者只要掌握了足够的信息,也能对自己的健康做出负责任的决定。

结语:走少有人走的路

在采访中,王小川向我们提及了一组数据:“去年行业发了500个AI医疗模型。”不过,相信对许多患者和普通用户而言,更多与医疗相关的AI对话,可能是发生在DeepSeek、豆包这样的通用AI助手中。

王小川对这一现象并不焦虑,他认为垂直模型能在医疗上做得比通用底座更好。百川对医疗行业理解更深,选择了一条少有人走的路,对医疗AI本身也有信仰。

今年,百川计划陆续推出2款面向C端的产品,除了全科覆盖之外,还会在肿瘤、儿科这两大最复杂、最能体现严肃医疗价值的领域重点发力。未来,我们或许还能看到百川在更多领域,给广大用户带来的惊喜。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全靠内鬼,105吨假黄金骗了253亿

全靠内鬼,105吨假黄金骗了253亿

大猫财经Pro
2026-05-06 18:44:18
黑尾酱,彻底消失了?

黑尾酱,彻底消失了?

生如稗草
2026-03-15 08:48:11
离谱!让豆包推荐8个号,广东彩民竟中了近4万!差一号错失312万

离谱!让豆包推荐8个号,广东彩民竟中了近4万!差一号错失312万

蓝色海边
2026-05-06 10:23:35
吴宜泽斯诺克世锦赛夺冠后首次发文:我会永远真诚的真正的完全的爱着你

吴宜泽斯诺克世锦赛夺冠后首次发文:我会永远真诚的真正的完全的爱着你

扬子晚报
2026-05-05 14:00:06
底层人遇事靠拳头,中层人做事看人情世故,上层人只死磕这三件事

底层人遇事靠拳头,中层人做事看人情世故,上层人只死磕这三件事

卡西莫多的故事
2026-04-15 09:55:30
研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

黯泉
2026-05-03 20:25:37
雷军马云争投!中专生去IPO敲钟了,创始人身家暴涨至119亿港元

雷军马云争投!中专生去IPO敲钟了,创始人身家暴涨至119亿港元

财经八卦
2026-05-06 17:34:09
吴宜泽不再隐瞒,公开回应50万英镑奖金用途,原来他早就有了退路

吴宜泽不再隐瞒,公开回应50万英镑奖金用途,原来他早就有了退路

八斗小先生
2026-05-06 19:51:11
抗议开始了,台岛爆发“入党潮”,赖清德犯下大错,台湾统派被捕

抗议开始了,台岛爆发“入党潮”,赖清德犯下大错,台湾统派被捕

老范谈史
2026-04-27 06:51:42
躺收天大利好!利物浦还没开赛,欧冠资格形势已彻底明朗

躺收天大利好!利物浦还没开赛,欧冠资格形势已彻底明朗

夜白侃球
2026-05-06 09:39:49
G1上海84-79山东 球员评价:3人优秀,3人及格,4人低迷

G1上海84-79山东 球员评价:3人优秀,3人及格,4人低迷

篮球资讯达人
2026-05-07 02:33:00
中国的优势!哈佛教授:不要高估中国,因为美或许已控制其命脉

中国的优势!哈佛教授:不要高估中国,因为美或许已控制其命脉

舆图看世界
2026-02-06 09:30:03
今日!CCTV5直播孙颖莎王楚钦领衔国乒出战,5+转CBA,网络转NBA

今日!CCTV5直播孙颖莎王楚钦领衔国乒出战,5+转CBA,网络转NBA

晚池
2026-05-07 00:26:26
小杨阿姨去意已决,公园直播透露将辞职,马筱梅曾让她公开请假

小杨阿姨去意已决,公园直播透露将辞职,马筱梅曾让她公开请假

君笙的拂兮
2026-05-07 02:03:48
大的要来了!穆杰塔巴撸掉伊朗革命卫队总司令,换了个不怕死的

大的要来了!穆杰塔巴撸掉伊朗革命卫队总司令,换了个不怕死的

杰丝聊古今
2026-04-11 19:07:34
胃热是光吃不拉,脾虚是一吃就拉,肝郁是不停放屁,中医一招调理

胃热是光吃不拉,脾虚是一吃就拉,肝郁是不停放屁,中医一招调理

垚垚分享健康
2026-04-29 11:24:29
“亚洲集体拒签世界杯版权”不实,央视强硬拒绝世界杯天价转播费

“亚洲集体拒签世界杯版权”不实,央视强硬拒绝世界杯天价转播费

开成运动会
2026-05-07 01:15:59
中年女人的婚外情人,多是这3种“不主动”的男人

中年女人的婚外情人,多是这3种“不主动”的男人

阿凯销售场
2026-05-07 01:01:23
汽油税几乎占了油价的5成,如果未来路上都是电动车,税从哪收?

汽油税几乎占了油价的5成,如果未来路上都是电动车,税从哪收?

讲者普拉斯
2026-05-04 17:58:00
被喷!39投31铁!!1.5亿的合同啊!!

被喷!39投31铁!!1.5亿的合同啊!!

柚子说球
2026-05-06 11:57:47
2026-05-07 04:00:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11749文章数 117061关注度
往期回顾 全部

健康要闻

干细胞治烧烫伤面临这些“瓶颈”

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

亲子
本地
房产
手机
公开课

亲子要闻

国家儿童医学中心和区域医疗中心双双扩容,分布在这些省份

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

遥遥领先!这个澄迈顶流红盘,凭什么持续霸榜

手机要闻

“iPhone Ultra”或将成为业内最易维修的折叠屏手机

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版