网易首页 > 网易号 > 正文 申请入驻

世界最强医疗模型百川M3发布:AI医疗,奇点已至

0
分享至


新智元报道

编辑:艾伦

【新智元导读】百川发布并开源全球最强医疗模型 Baichuan-M3,各项指标均已 SOTA!同时 M3 也超越了人类医生的平均水平。它最大的进步是告别了机械的「背医书」,学会了像真人医生一样主动追问、排查病因,主打「严肃问诊」,不仅能把模糊的病情问清楚,更解决了 AI「胡说八道」的顽疾,准确度超越 GPT-5.2-High。这是 AI 从「聊天机器人」向「专业医生」进化的关键一步。AI医疗,奇点已至。

在很长一段时间里,人们习惯了这样一种人机交互:你在搜索框或聊天窗口输入「头痛怎么办?」,屏幕对面会瞬间抛回几千字关于脑瘤、高血压或颈椎病的百科知识,最后附上一句正确的废话——「建议您及时就医」。

这不仅是搜索引擎时代的顽疾,也是目前大模型的通病。

它们像是一个博闻强记但缺乏临床经验的医学生,背下了所有医书,却不懂得如何面对一个活生生的人。

就在今天,这个僵局要被打破了。

百川智能发布并开源了新一代医疗增强大语言模型 Baichuan-M3。

在百川创始人王小川看来,这绝非仅仅是模型参数的升级,更是一次对「AI 医疗」的重新定义。

M3 不再满足于做一个被动的答题者,它试图掌握一种人类医生最核心的职业本能——严肃问诊。

数据显示,Baichuan-M3 在全球权威医疗 AI 评测 HealthBench 及其高难度子集 HealthBench Hard 上双双夺冠!


甚至在 OpenAI 最引以为傲的低幻觉领域,Baichuan-M3 也以 3.5% 的幻觉率击败了 GPT-5.2,实现全面 SOTA!


真正的变化体现在「百小应」App 里:当患者描述模糊的症状时,AI 不再急于给出结论,而是像一位经验丰富的老大夫一样,开始了一场抽丝剥茧的「侦探游戏」。


百小应网页端:https://ying.baichuan-ai.com/chat

从「被动答题」

到「主动追问」

医疗的本质,是信息不对称的博弈。

患者往往无法准确描述自己的痛苦,「肚子疼」在医学上可能对应着从胃痉挛到急性胰腺炎等数十种可能。

之前,大多数医疗大模型的训练逻辑是「完形填空」——尽力补全用户话语中的缺失。

OpenAI 发布的 HealthBench 评测集,本质上考查的也是这种「单轮静态问答」能力。

然而,百川的技术团队发现,这种逻辑在真实临床中是危险的。

医生看病,第一件事永远是排除危急重症。

但在传统的提示词工程下,AI 往往因为急于表现「博学」,而忽略了对「红旗征」(指危险信号)的排查。

Baichuan-M3 的核心突破,在于它首次具备了原生的「端到端」严肃问诊能力。

这种能力源于百川独创的 SCAN 全新问诊原则。

在百小应的实际体验中,如果用户说「头晕」,M3 不会立刻列举头晕的原因,而是会启动一套缜密的追问逻辑:

  • 安全分层(Safety Stratification):「是一阵一阵的晕,还是天旋地转?有没有伴随恶心呕吐?」(排查中风或耳石症风险)

  • 信息澄清(Clarity Matters):「最近有没有熬夜或测量过血压?」(量化诱因)

  • 关联追问(Association & Inquiry):基于初步回答,像侦探一样锁定嫌疑病因。

在以往,长轮次的对话训练容易让模型「迷路」,导致逻辑破碎。

百川新的SPAR 算法通过分步惩罚机制,让 AI 学会了在有限的对话轮次中,精准地问出最关键的信息。

在百小应上,这意味着 AI 能将患者口中「有点痛」、「不舒服」等主观体感,转化为医生看得懂的、结构化的临床数据。

攻克「AI 的痼疾」:幻觉

如果说「不会问诊」只是让 AI 显得笨拙,那么「幻觉」则意味着安全风险。

在严肃医疗场景下,大模型一本正经地胡说八道(即 AI 幻觉)是不可接受的。

2025 年,尽管 DeepSeek 等国产模型让 AI 普及到了千家万户,但大多数通用模型公司并未将「降幻觉」提升到与写代码、做数学题同等的高度。

百川选择了一条更难的路:将医疗幻觉抑制前移。

不同于行业通用的「外挂知识库」(RAG)模式,Baichuan-M3 试图从「基因」里剔除幻觉。

技术团队构建了一套事实感知强化学习(Fact-Aware RL)架构。


简单来说,就是在模型训练的每一次奖惩中,都加入对医学事实的严苛校验。

这相当于在 AI 的大脑里植入了一个实时的「审稿人」。

当模型试图为了让答案看起来通顺而编造一个药物剂量时,惩罚机制会立刻介入。

这种「内化」的训练方法效果显著。

在不依赖任何外部搜索工具的情况下,M3 的医疗幻觉率降至 3.5%!

这一数据不仅优于 GPT-5.2,更是刷新了全球的最好成绩。

对于百小应的用户来说,这意味着 AI 给出的每一条建议,是基于严谨医学逻辑的「负责任表达」。

在遇到自身知识边界外的复杂病例时,M3 更倾向于引导就医,而不是盲目自信地开方。

谁来给「AI 医生」监考?

如何评价一个医生的水平?看他背了多少书,还是看他治好了多少人?

过去,以 HealthBench 为代表的评测集,更像是医学院的笔试题。

它考核的是 AI「会不会回答问题」。

但在百川看来,这远远不够。

临床如战场,医生面对的是动态的、混乱的、信息不全的真实世界。

医疗模型必须要能够带着诊疗目标,完整的收集患者信息。

为了给 M3 一场真正的「临床大考」,百川联合 150 多位一线医生,借鉴医学教育中经典的 OSCE(客观结构化临床考试)方法,搭建了 SCAN-bench 评测体系。

这是一个包含病史采集、辅助检查、精准诊断全流程的动态考场。

AI 不仅要答对最后的病名,还要被考核「问诊思路是否清晰」、「检查开得是否合理」、「有没有漏掉高危风险」。

在实验过程中百川发现,问诊准确度每增加 2%,最终诊疗结果的准确度就会提升 1%。评测结果显示,M3 在SCAN的四个维度均显著高于人类医生基线水平,并大幅领先于国内外顶尖模型。


分数超越人类医生平均值并非意味着 AI 已经全面超越了名医,但在标准化的问诊流程、知识的广度以及对指南的绝对遵循上,AI 展现出了人类难以比拟的稳定性。

医疗 AI 的「最后一公里」

技术的高低,最终要落回到具体的应用场景中。

随着 M3 的发布,百川智能旗下的医疗应用「百小应」正在经历一场静悄悄的质变。

在过去,患者去医院就像是一场「盲盒游戏」。

排队三小时,看病三分钟,面对医生时语无伦次,把关键病史忘得一干二净。

而接入 M3 后的百小应,正在试图成为医患之间的「翻译官」。

在患者端,它是一个 24 小时在线的「全科医生助理」。

当你感到不适,它通过多轮专业的追问,帮你理清病情,生成一份专业的病情摘要。

在医生端,这可能意味着工作流的重塑。

当患者坐到诊室时,医生看到的将会是一份已经排除了基础风险、罗列了关键症状的结构化报告。

医生可以跳过机械的信息收集环节,直接进入高价值的诊断与治疗决策。

这就是百川强调的「强推理、低幻觉的医疗服务能力」的真实落地。

它不试图取代医生,而是试图通过提升问诊能力、准确性,来帮助医生决策。

披荆斩棘的 AI 医疗先锋

2026 年初,全球 AI 医疗的竞争已进入深水区。

从 OpenAI 的 ChatGPT Health 到 Anthropic 的 Claude for Healthcare,巨头们都在争夺这块最难啃的骨头。

在这场竞速中,Baichuan-M3 的出现具有特殊的标本意义。

它标志着中国 AI 医疗从「跟随者」转身为「定义者」。

百川证明了,通过对医疗决策过程的深度建模,大模型可以走出「聊天机器人」的舒适区,进入严肃、严谨且充满敬畏的临床世界。

技术是冰冷的,但医疗永远关乎人性的温度。

AI 无法替代医生握住患者颤抖的手,但它可以让医生在握手之前,看得更清楚、判得更准确。

针对人口老龄化,AI 是最靠谱的解决优质医疗资源短缺的几乎唯一的方案。

百川作为国内最早一批开始探索 AI 医疗的公司,在迷雾中努力探索出一条可落地的 AI 赋能医疗的道路。

参考资料:

百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力

百小应网页端:https://ying.baichuan-ai.com/chat

开源链接:

Hugging Face 地址:

https://huggingface.co/baichuan-inc/Baichuan-M3-235B

GitHub 地址:

https://github.com/baichuan-inc/Baichuan-M3-235B


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰好兄弟曝内情泣不成声,人民日报悼念官媒定义,卫健委追责

张雪峰好兄弟曝内情泣不成声,人民日报悼念官媒定义,卫健委追责

潮鹿逐梦
2026-03-26 10:55:41
已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

篮球大陆
2026-03-26 14:01:14
一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

白面书誏
2026-03-24 14:40:27
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

澜归序
2026-03-26 06:08:07
中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

好笑娱乐君每一天
2026-03-26 01:22:35
光速掉粉!瑞幸被罗永浩坑惨了?!

光速掉粉!瑞幸被罗永浩坑惨了?!

广告案例精选
2026-03-26 08:59:17
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
演员张晋曝突发心脏病,血管堵塞80%!蔡少芬痛哭:我要成寡妇了?

演员张晋曝突发心脏病,血管堵塞80%!蔡少芬痛哭:我要成寡妇了?

小椰的奶奶
2026-03-26 15:15:39
白宫:美国总统特朗普将于5月访华

白宫:美国总统特朗普将于5月访华

辇毂
2026-03-26 05:18:40
朱丽丽8年敛财14亿,金融才女奢华生活终落幕

朱丽丽8年敛财14亿,金融才女奢华生活终落幕

日不西沉
2026-03-26 10:27:14
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
出轨的女人,你陪男人睡,不是因为你的美,是因为你的天真和廉价

出轨的女人,你陪男人睡,不是因为你的美,是因为你的天真和廉价

加油丁小文
2026-03-25 08:30:09
破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

川渝视觉
2026-03-23 19:26:44
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
2026-03-26 15:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
游戏
教育
艺术
健康

皮衣+裙,高级到炸

DOTA2 7.41版本大更新!再见了命石,选择困难症有福了

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

艺术要闻

哪一座桥不是风景?

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版