网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

世界最强医疗模型百川M3发布：AI医疗，奇点已至

2026-01-13 20:02:56　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：艾伦

【新智元导读】百川发布并开源全球最强医疗模型 Baichuan-M3，各项指标均已 SOTA！同时 M3 也超越了人类医生的平均水平。它最大的进步是告别了机械的「背医书」，学会了像真人医生一样主动追问、排查病因，主打「严肃问诊」，不仅能把模糊的病情问清楚，更解决了 AI「胡说八道」的顽疾，准确度超越 GPT-5.2-High。这是 AI 从「聊天机器人」向「专业医生」进化的关键一步。AI医疗，奇点已至。

在很长一段时间里，人们习惯了这样一种人机交互：你在搜索框或聊天窗口输入「头痛怎么办？」，屏幕对面会瞬间抛回几千字关于脑瘤、高血压或颈椎病的百科知识，最后附上一句正确的废话——「建议您及时就医」。

这不仅是搜索引擎时代的顽疾，也是目前大模型的通病。

它们像是一个博闻强记但缺乏临床经验的医学生，背下了所有医书，却不懂得如何面对一个活生生的人。

就在今天，这个僵局要被打破了。

百川智能发布并开源了新一代医疗增强大语言模型 Baichuan-M3。

在百川创始人王小川看来，这绝非仅仅是模型参数的升级，更是一次对「AI 医疗」的重新定义。

M3 不再满足于做一个被动的答题者，它试图掌握一种人类医生最核心的职业本能——严肃问诊。

数据显示，Baichuan-M3 在全球权威医疗 AI 评测 HealthBench 及其高难度子集 HealthBench Hard 上双双夺冠！

甚至在 OpenAI 最引以为傲的低幻觉领域，Baichuan-M3 也以 3.5% 的幻觉率击败了 GPT-5.2，实现全面 SOTA！

真正的变化体现在「百小应」App 里：当患者描述模糊的症状时，AI 不再急于给出结论，而是像一位经验丰富的老大夫一样，开始了一场抽丝剥茧的「侦探游戏」。

百小应网页端：https://ying.baichuan-ai.com/chat

从「被动答题」

到「主动追问」

医疗的本质，是信息不对称的博弈。

患者往往无法准确描述自己的痛苦，「肚子疼」在医学上可能对应着从胃痉挛到急性胰腺炎等数十种可能。

之前，大多数医疗大模型的训练逻辑是「完形填空」——尽力补全用户话语中的缺失。

OpenAI 发布的 HealthBench 评测集，本质上考查的也是这种「单轮静态问答」能力。

然而，百川的技术团队发现，这种逻辑在真实临床中是危险的。

医生看病，第一件事永远是排除危急重症。

但在传统的提示词工程下，AI 往往因为急于表现「博学」，而忽略了对「红旗征」（指危险信号）的排查。

Baichuan-M3 的核心突破，在于它首次具备了原生的「端到端」严肃问诊能力。

这种能力源于百川独创的 SCAN 全新问诊原则。

在百小应的实际体验中，如果用户说「头晕」，M3 不会立刻列举头晕的原因，而是会启动一套缜密的追问逻辑：

安全分层（Safety Stratification）：「是一阵一阵的晕，还是天旋地转？有没有伴随恶心呕吐？」（排查中风或耳石症风险）
信息澄清（Clarity Matters）：「最近有没有熬夜或测量过血压？」（量化诱因）
关联追问（Association & Inquiry）：基于初步回答，像侦探一样锁定嫌疑病因。

在以往，长轮次的对话训练容易让模型「迷路」，导致逻辑破碎。

百川新的SPAR 算法通过分步惩罚机制，让 AI 学会了在有限的对话轮次中，精准地问出最关键的信息。

在百小应上，这意味着 AI 能将患者口中「有点痛」、「不舒服」等主观体感，转化为医生看得懂的、结构化的临床数据。

攻克「AI 的痼疾」：幻觉

如果说「不会问诊」只是让 AI 显得笨拙，那么「幻觉」则意味着安全风险。

在严肃医疗场景下，大模型一本正经地胡说八道（即 AI 幻觉）是不可接受的。

2025 年，尽管 DeepSeek 等国产模型让 AI 普及到了千家万户，但大多数通用模型公司并未将「降幻觉」提升到与写代码、做数学题同等的高度。

百川选择了一条更难的路：将医疗幻觉抑制前移。

不同于行业通用的「外挂知识库」（RAG）模式，Baichuan-M3 试图从「基因」里剔除幻觉。

技术团队构建了一套事实感知强化学习（Fact-Aware RL）架构。

简单来说，就是在模型训练的每一次奖惩中，都加入对医学事实的严苛校验。

这相当于在 AI 的大脑里植入了一个实时的「审稿人」。

当模型试图为了让答案看起来通顺而编造一个药物剂量时，惩罚机制会立刻介入。

这种「内化」的训练方法效果显著。

在不依赖任何外部搜索工具的情况下，M3 的医疗幻觉率降至 3.5%！

这一数据不仅优于 GPT-5.2，更是刷新了全球的最好成绩。

对于百小应的用户来说，这意味着 AI 给出的每一条建议，是基于严谨医学逻辑的「负责任表达」。

在遇到自身知识边界外的复杂病例时，M3 更倾向于引导就医，而不是盲目自信地开方。

谁来给「AI 医生」监考？

如何评价一个医生的水平？看他背了多少书，还是看他治好了多少人？

过去，以 HealthBench 为代表的评测集，更像是医学院的笔试题。

它考核的是 AI「会不会回答问题」。

但在百川看来，这远远不够。

临床如战场，医生面对的是动态的、混乱的、信息不全的真实世界。

医疗模型必须要能够带着诊疗目标，完整的收集患者信息。

为了给 M3 一场真正的「临床大考」，百川联合 150 多位一线医生，借鉴医学教育中经典的 OSCE（客观结构化临床考试）方法，搭建了 SCAN-bench 评测体系。

这是一个包含病史采集、辅助检查、精准诊断全流程的动态考场。

AI 不仅要答对最后的病名，还要被考核「问诊思路是否清晰」、「检查开得是否合理」、「有没有漏掉高危风险」。

在实验过程中百川发现，问诊准确度每增加 2%，最终诊疗结果的准确度就会提升 1%。评测结果显示，M3 在SCAN的四个维度均显著高于人类医生基线水平，并大幅领先于国内外顶尖模型。

分数超越人类医生平均值并非意味着 AI 已经全面超越了名医，但在标准化的问诊流程、知识的广度以及对指南的绝对遵循上，AI 展现出了人类难以比拟的稳定性。

医疗 AI 的「最后一公里」

技术的高低，最终要落回到具体的应用场景中。

随着 M3 的发布，百川智能旗下的医疗应用「百小应」正在经历一场静悄悄的质变。

在过去，患者去医院就像是一场「盲盒游戏」。

排队三小时，看病三分钟，面对医生时语无伦次，把关键病史忘得一干二净。

而接入 M3 后的百小应，正在试图成为医患之间的「翻译官」。

在患者端，它是一个 24 小时在线的「全科医生助理」。

当你感到不适，它通过多轮专业的追问，帮你理清病情，生成一份专业的病情摘要。

在医生端，这可能意味着工作流的重塑。

当患者坐到诊室时，医生看到的将会是一份已经排除了基础风险、罗列了关键症状的结构化报告。

医生可以跳过机械的信息收集环节，直接进入高价值的诊断与治疗决策。

这就是百川强调的「强推理、低幻觉的医疗服务能力」的真实落地。

它不试图取代医生，而是试图通过提升问诊能力、准确性，来帮助医生决策。

披荆斩棘的 AI 医疗先锋

2026 年初，全球 AI 医疗的竞争已进入深水区。

从 OpenAI 的 ChatGPT Health 到 Anthropic 的 Claude for Healthcare，巨头们都在争夺这块最难啃的骨头。

在这场竞速中，Baichuan-M3 的出现具有特殊的标本意义。

它标志着中国 AI 医疗从「跟随者」转身为「定义者」。

百川证明了，通过对医疗决策过程的深度建模，大模型可以走出「聊天机器人」的舒适区，进入严肃、严谨且充满敬畏的临床世界。

技术是冰冷的，但医疗永远关乎人性的温度。

AI 无法替代医生握住患者颤抖的手，但它可以让医生在握手之前，看得更清楚、判得更准确。

针对人口老龄化，AI 是最靠谱的解决优质医疗资源短缺的几乎唯一的方案。

百川作为国内最早一批开始探索 AI 医疗的公司，在迷雾中努力探索出一条可落地的 AI 赋能医疗的道路。

参考资料：

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

百小应网页端：https://ying.baichuan-ai.com/chat

开源链接：

Hugging Face 地址：

https://huggingface.co/baichuan-inc/Baichuan-M3-235B

GitHub 地址：

https://github.com/baichuan-inc/Baichuan-M3-235B

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

媒体：欧洲热浪下中国空调撕开的不只是市场缺口

澎湃新闻 2026-06-30 07:12:58
12287 跟贴 12287
一天两场点球大战荷兰点球大战3-4摩洛哥无缘16强

央视新闻客户端 2026-06-30 11:56:09
4875 跟贴 4875

上海老夫妻无后代临走前捐出500万:我们活不了多久了

澎湃新闻 2026-06-30 07:00:31
7510 跟贴 7510

开了一次就“头晕”？看到机器上的英文单词，他觉得自己被骂了

北青网-北京青年报 2026-06-28 14:48:24
1825 跟贴 1825
江苏将新建一座超大型机场，明年正式开工

江苏新闻 2026-06-30 13:32:00
161 跟贴 161

韩红即日起将退出公益行业？韩红基金会回应传闻：目前没有收到任何消息

北京青年报 2026-06-30 13:43:20
16047 跟贴 16047

“卡牌大师”名不虚传，作为第四官员的马宁多次提醒主裁，让德国和巴拉圭两队替补席吃黄牌；网友：就算手里没牌，照样能管住赛场秩序

厦门晚报 2026-06-30 11:41:58
899 跟贴 899
媒体:德国连续3届世界杯无缘16强从战车变成宝宝巴士

中国新闻周刊 2026-06-30 13:02:57
570 跟贴 570

当地华人讲述法国高温：中国空调一机难求，有人为抢购空调打起来，安装已排到9月

潇湘晨报 2026-06-29 21:36:19
5528 跟贴 5528
父女玩水被吸入漩涡多人协力帮忙“抢命” 两人全吓哭

星视频 2026-06-30 17:51:53
66 跟贴 66
9旬老人在扬州古玩市场淘到“吴石”印章，疑与吴石将军有关，希望知情人提供流传线索

扬子晚报 2026-06-30 17:29:18
96 跟贴 96
“博士生邀餐馆老板合拍毕业照”最新合影来了！老板娘：奔赴真诚的相遇，让我感受到人间真实的美好

极目新闻 2026-06-30 18:29:52
130 跟贴 130
贵阳一小区160户居民出行仅剩一部电梯，多数业主还拒绝动用基金维修损坏电梯，出行困境如何破解？

大风新闻 2026-06-30 10:12:02
240 跟贴 240
年轻人开始做上门洗头师:单次收费约百元有人月入2万

大象新闻 2026-06-30 17:58:04
521 跟贴 521
德媒：德国多名球员不敢担任第6名点球手，队长基米希逐个询问队友才确定罚球顺序

扬子晚报 2026-06-30 21:42:03
67 跟贴 67
中国县城居民人均收入10强：义乌超过北上广深

第一财经 2026-06-30 07:36:04
60 跟贴 60
藤森庆子，赢得秘鲁总统选举

政知新媒体 2026-06-30 08:53:51
288 跟贴 288
超仿生人形机器人来了，售价11.98万起

齐鲁壹点 2026-06-30 21:46:08
50 跟贴 50
未来5年孩子上学有这些大变化！

新京报 2026-06-30 13:18:09
467 跟贴 467
6月制造业采购经理指数为50.3% 重返扩张区间

国家统计局 2026-06-30 09:36:46
52 跟贴 52
酒友溺水被救，同伴冷眼旁观不肯搭手，这般冷漠实在寒人心

胡言炫语 2026-07-01 03:59:38
0 跟贴 0
“绵阳考生高考估分715查分299”系谣言（2026·06·30）

今日辟谣 2026-06-30 19:00:09
13 跟贴 13
成年人被送进特训学校，最长33岁

野生运营 2026-07-01 04:04:26
0 跟贴 0

离谱实锤！香川真司暗恋长泽雅美23年，为追女神踢废职业生涯？

离谱实锤！香川真司暗恋长泽雅美23年，为追女神踢废职业生涯？

绿茵八卦君

2026-06-30 08:50:03

上海炒股冠军罕见发声：如果散户死拿股票不撒手，庄家会怎么办？

上海炒股冠军罕见发声：如果散户死拿股票不撒手，庄家会怎么办？

股经纵横谈

2026-06-30 20:45:10

姆巴佩恋情正式曝光！1.8亿球王邂逅西班牙顶流，双向奔赴太好嗑

姆巴佩恋情正式曝光！1.8亿球王邂逅西班牙顶流，双向奔赴太好嗑

老特有话说

2026-06-28 20:01:22

重磅！詹姆斯正式通知湖人将离队下一站在哪勇士成最大热门

重磅！詹姆斯正式通知湖人将离队下一站在哪勇士成最大热门

醉卧浮生

2026-07-01 00:17:11

我82岁了，大病一场彻底醒悟：钱宁愿烂在银行，也绝不全补贴儿孙

我82岁了，大病一场彻底醒悟：钱宁愿烂在银行，也绝不全补贴儿孙

千秋文化

2026-06-30 19:14:22

今夜，芯片、存储暴涨

中国基金报

2026-07-01 03:07:40

泰王苏提达思蕊梵坐皇家游船，欣赏塞纳河风光，埃菲尔铁塔下合影

泰王苏提达思蕊梵坐皇家游船，欣赏塞纳河风光，埃菲尔铁塔下合影

夜深爱杂谈

2026-06-30 22:00:18

天津凌晨突发！抓了！

天津族

2026-06-30 08:58:03

俄乌双方伤亡近180万人，多支俄军惨被全歼并撤销番号

俄乌双方伤亡近180万人，多支俄军惨被全歼并撤销番号

东方豪侠

2026-06-30 08:39:05

难以置信，北京协和证实：40岁后男性最优运动，并非跑步撸铁

难以置信，北京协和证实：40岁后男性最优运动，并非跑步撸铁

华庭讲美食

2026-06-21 15:26:10

微信头像暴露了你的层次：层次越高的人，越不会用这四种头像

微信头像暴露了你的层次：层次越高的人，越不会用这四种头像

闻心品阁

2026-06-21 14:47:11

CBA重磅转会即将达成！曝顶级前锋加盟山西男篮，曾单场狂砍26+7

CBA重磅转会即将达成！曝顶级前锋加盟山西男篮，曾单场狂砍26+7

老叶评球

2026-06-30 18:56:34

太阳报：热刺将以8500万镑签下M费，曼联不愿支付更高薪水

太阳报：热刺将以8500万镑签下M费，曼联不愿支付更高薪水

云隐南山

2026-07-01 01:58:17

整容失败不可怕，一股姨味才尴尬！52岁苏有朋给所有男星提了个醒

整容失败不可怕，一股姨味才尴尬！52岁苏有朋给所有男星提了个醒

史行途

2026-06-27 15:14:20

界面调查｜刘忍的隐身术：“乡贤”、侨领与电诈大佬

界面调查｜刘忍的隐身术：“乡贤”、侨领与电诈大佬

界面新闻

2026-06-30 14:35:01

出大事了！网传福耀科大校长王树国论文涉嫌抄袭被举报…

出大事了！网传福耀科大校长王树国论文涉嫌抄袭被举报…

慧翔百科

2026-06-23 08:29:42

女子领了结婚证全程没笑意，捧着红本满眼痛苦，评论区却夸真实

女子领了结婚证全程没笑意，捧着红本满眼痛苦，评论区却夸真实

捣蛋窝

2026-06-28 05:03:42

30年前，香港GDP是上海的6倍，新加坡GDP是上海的3倍，如今呢？

30年前，香港GDP是上海的6倍，新加坡GDP是上海的3倍，如今呢？

说故事的阿袭

2026-06-30 20:13:39

我是一名女澡堂搓澡工，今年工作第十年，什么样的女人都遇到过

我是一名女澡堂搓澡工，今年工作第十年，什么样的女人都遇到过

千秋文化

2026-06-29 20:00:08

【2026.6.30】爆姐的饭后爆料：生命不止，爆料不息！

【2026.6.30】爆姐的饭后爆料：生命不止，爆料不息！

娱乐真爆姐

2026-07-01 02:33:57

AI产业主平台领航智能+时代

15572文章数 66944关注度

往期回顾全部

科技要闻

iPhone18 Pro遭泄密！印度代工商惹祸

头条要闻

坎贝尔承认：中国是最成功渡过难关的国家

头条要闻

坎贝尔承认：中国是最成功渡过难关的国家

体育要闻

德国足球，脸都不要了

娱乐要闻

黄晓明沦陷！羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”，历史时刻

汽车要闻

奇瑞风云A9探店五个理由一定来看看

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

本地

时尚

艺术

公开课

房产要闻

TOP10单盘狂卖210亿！海南楼市，上半年热销榜单出炉

本地新闻

贵州小城的新目标：举办“村超”世界杯！

Meiinpsn的穿衣风格，清新又叛逆

艺术要闻

18幅现当代著名画家作品

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版