网易首页 > 网易号 > 正文 申请入驻

“医生版ChatGPT”来了!百川发布最强循证增强大模型M2 Plus,幻觉率远低于DeepSeek

0
分享至


编辑丨王多鱼

排版丨水成文


2025 年 10 月 22 日,百川智能发布循证增强医疗大模型——Baichuan-M2 Plus,同步升级配套应用百小应并开放 API。这是百川自 8 月开源 Baichuan-M2 以来的又一次重要动作。

评测显示,M2 Plus 的医疗幻觉率较通用大模型显著降低,仅为DeepSeek的约三分之一,优于美国最火的面向医疗专业人员的 AI 临床决策支持工具OpenEvidence可信度比肩资深临床医生

通用大模型固有的幻觉问题,导致其在严肃医疗场景中难以真实应用。国内众多医院虽积极尝试部署和优化 DeepSeek,但实际效果不尽如人意。而大洋彼岸的现象级医疗大模型产品 OpenEvidence,能给我们重要启示。该产品因符合医学认知的循证增强,已有 40% 美国医生在临床场景中注册使用,每月咨询量达 1650 万次。两天前,该公司 C 轮融资 2 亿美金,估值达 60 亿美元。

百川 M2 Plus 首创六源循证推理(EAR)范式,打造“医生版ChatGPT”,让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛,不仅适合中国医疗环境,在美、日、英的医疗评测中均超过 OpenEvidence,代表中国在世界大模型擂台上再下一城。

首创六源循证推理范式,把循证做“全”、检索做“准”、推理做“对”

六源循证:打造从原始研究到真实世界的完整知识体系

循证医学(Evidence-Based Medicine,EBM)作为现代医学知识体系的核心范式,是确保医疗决策可信的关键。

通用大模型像一个“博学但不可靠”的专家,即便有搜索增强,也会因为知识来源混杂不符合循证医学范式。

百川不仅主动屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,还在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系:

  • 原始研究层:索引海量医学期刊论文 4000 余万篇,超过 PubMed 收录数量,涵盖基础与临床研究成果,是循证链条的起点;

  • 证据综述层:整合系统评价和 Meta 分析等高等级证据,提供经过汇总的研究结论;

  • 指南规范层:引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范;

  • 实践知识层:包含临床病例报道、一线专家经验和诊疗技巧等实用知识,贴近医疗实践场景;

  • 公共健康教育层:汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育;

  • 监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果。


这个金字塔形的“六源”,是一层一层演化而来:原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。这让模型从“生成答案”走向“据实回答”,实现了从语言可信度知识可信度的跃升。

循证检索:从“找得到”跃升到“找得准”

传统的 RAG 检索往往追求“找得到”,而循证检索追求“找得准”。

M2 Plus 采用 PICO 框架(人群 Population、干预 Intervention、对照 Comparison、结局 Outcome)思维,将查询转化为结构化医学问题,并在六源数据库中进行分层匹配。例如:当输入“老年 OSA 患者使用 CPAP 能否改善高血压?”时,系统优先在高等级证据(系统综述、RCT元分析)中搜索,并自动辨识研究质量、样本量、置信区间与结局指标。

这种方法克服了通用 RAG 的两大缺陷:一是缺乏医学语义理解(无法区分 CPAP 疗效与依从性分析);二是无法辨别文献可靠性(新闻与指南同权)。在此基础上,M2 Plus 能够三步精准锁定“铁证”:

第一步,智能提问:自动将用户问题拆解成多个专业的 PICO 查询,进行“地毯式”证据搜索,兼顾精度与广度。

第二步,精准锁定:通过自研的 Medical Contextual Retrieval 技术,完整保留文献的临床因果链,避免信息割裂。

第三步,证据排序:内置“审稿人”模型,自动评估证据等级(如 RCT、Meta 分析),将最可信、最相关的“铁证”优先呈现。

循证推理:让模型“像医生一样思考”

如果说“六源循证”解决了医疗 AI 知识从哪来的问题,“PICO 智能检索”解决了如何快速找到正确证据的问题,那么最关键的一步是如何确保 AI 在手握证据时,不会“自由发挥”、脱离事实胡乱回答。

百川智能在 M2 Plus 中引入“循证增强训练”机制,为模型的回答过程“上了一道锁”,从根本上改变了其生成逻辑,让它学会“引用,而非臆测”。

首先,在训练中奖励“引用”,惩罚“臆测”,准确引用权威来源(指南、文献)时会获得高分,一旦回答脱离了检索到的证据就会受到惩罚;

其次,内置“证据评估器”,模型被训练得能够自动评估检索到的证据质量,优先采纳高可信度的信息(RCT、Meta分析),并将其无缝嵌入到推理链中;

第三,句句有据,可回溯、可验证:经过训练,M2-Plus的 回答风格发生了根本性改变,在输出关键结论时,会自动附上参考文献、指南出处等来源,这赋予了 AI 回答更高的可解释性与可信赖度。

幻觉最低,达到与人类资深临床专家同等可信度

这种“循证驱动”的生成逻辑,让 M2 Plus 几乎杜绝了无中生有的内容。在多场景评测中,其综合幻觉率在所有大模型当中最低,降为 DeepSeek R1 最新版的三分之一,显著领先 OpenEvidence。不仅如此,在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,达到了与人类资深临床专家同等的可信度。


例如,提问:目前公认最有效的基因治疗药物靶向足细胞递送方案有哪些?”很多通用大模型回答这个问题时都产生了明显幻觉,而 M2 Plus 的回答不仅查到了全球最新研究成果,还能按纳米递送系统/AAV 病毒载体等维度分类。该回答所引用文献非常具有专业性、且信息源紧贴顶刊 ERA 等最新进展,对足细胞基因治疗这一前沿方向,帮助医生快速了解国际热点技术路线,少走弯路。

对于 PACAP 在偏头痛中的研究进展的提问,多数大模型给出的答案都因幻觉问题而不可用。而接入了 M2 Plus 百小应能够能梳理全球 PACAP 偏头痛研究,从机制到 3 期临床试验自动串联证据链,不仅回答问题,更让医生站在未来看科研进展。


无论是专业医疗问题还是常规医疗问答M2 Plus都会引用权威医学证据

多国医学考试大幅领先,医学知识运用能力超越人类医生

美国执业医师资格考试(USMLE)是评估临床知识和推理能力的黄金标准,即便是经验丰富的临床专家,要突破 90 分也极具挑战。在此项考试中,M2-Plus 取得了惊人的97,不仅远超人类考生平均水平,更与 GPT-5 的成绩持平,稳居全球第一梯队,展示了其世界级的临床问题解决能力。

中国执业医师资格考试(NMLE)及格线为360分,对于广大医学生而言,能考到 450 分以上已是高分,超过 500 分则被视为“学神”级别。M2 Plus 取得了568的“碾压级”成绩,在所有公开测试的主流大模型中位列第一,充分证明其对中国临床指南和医疗实践的掌握已炉火纯青。

如果说执医考是“从业门槛”,那么中国硕士研究生招生考试临床医学综合能力(西医)考试则是顶尖医学生竞争的“华山论剑”。该考试不仅知识面广,且题目设计极为复杂,对临床思维要求高。通常,能考到 280 分以上的考生,都是协和、北医等顶尖学府的头部学霸。M2 Plus 在此项考试中取得了282。同时,在日本、英国、澳大利亚等国高级医师职称晋升考试中,准确率 85% 以上,远超各国及格线。


这些压倒性的成绩充分说明,M2 Plus在复杂医学知识运用上的能力,已经超越了人类医生水准。

“医生版 ChatGPT”推动医疗 AI 迈入可信可用阶段

接入 M2 Plus 的百小应已在各大手机应用商店更新,成为“医生版 ChatGPT”。为方便电脑端使用,网页版(ying.ai)也同步上线。

除了需要高效地辅助临床决策,医生还开始面对新的挑战:患者用 DeepSeek 自诊和带着 DeepSeek 就医的现象越来越多。虽然知道大模型可能有幻觉和偏颇,但没有时间和精力去甄别哪句对哪句错。通过百小应,医生有了面对通用模型挑战的“专属武器”。

对于希望深入理解诊断、治疗、预后、病因、检查等背后科学逻辑的患者及家属,面对复杂的就医环境和不同医生给出的诊疗方案,百小应让他们有机会获得最新最权威的知识、顶尖专家的思维和视角,得到无限耐心的专业解答。

Baichuan-M2 Plus 也提供了标准化 API 接口,医院信息化部门、互联网医疗、大健康服务等各类泛医学机构,以及从事医疗 AI 行业的开发者,则可以通过 API 将循证推理接入服务场景,提升 AI 服务的医学专业性。

通过开源 Baichuan-M2、发布 Baichuan-M2 plus、百小应,开放 API,百川致力于持续提升 AI 医疗在真实临床场景的可用性,推动大模型在严肃医疗场景进入落地可用新阶段。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巨亏850亿!百年光学巨头走下神坛?从巅峰到陨落只用了二十年

巨亏850亿!百年光学巨头走下神坛?从巅峰到陨落只用了二十年

余們搞笑段子
2026-03-20 00:27:10
法国总统马克龙凌晨发文怒斥:我的士兵被打死了,这绝不能忍!

法国总统马克龙凌晨发文怒斥:我的士兵被打死了,这绝不能忍!

纵拥千千晚星
2026-03-20 00:22:26
中伊双重重拳砸下!高市早苗赴美接下“自杀令”,石破茂当众发难

中伊双重重拳砸下!高市早苗赴美接下“自杀令”,石破茂当众发难

凡知
2026-03-19 23:36:30
48岁吴建豪在深圳酒店被民众偶遇,身材看起来好健硕,皮肤太白了

48岁吴建豪在深圳酒店被民众偶遇,身材看起来好健硕,皮肤太白了

阿废冷眼观察所
2026-03-18 19:00:29
沙特国王当面质问西方:你们迫害犹太人,为什么让我们阿拉伯人付出代价?

沙特国王当面质问西方:你们迫害犹太人,为什么让我们阿拉伯人付出代价?

寄史言志
2026-03-16 23:21:07
东契奇轰40+9+10无缘今日最佳!对不起,老詹14中13创神级纪录

东契奇轰40+9+10无缘今日最佳!对不起,老詹14中13创神级纪录

世界体育圈
2026-03-19 12:20:41
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
忍无可忍!巴基斯坦通知中国:塔利班敬酒不吃吃罚酒,望中方理解

忍无可忍!巴基斯坦通知中国:塔利班敬酒不吃吃罚酒,望中方理解

温读史
2026-03-20 00:05:24
DDR5内存涨不动了!等等党这次真的赢麻了

DDR5内存涨不动了!等等党这次真的赢麻了

小柱解说游戏
2026-03-19 18:27:34
逼走樊振东?打压陈梦?排挤张继科?8年了,刘国梁终于迎来正名

逼走樊振东?打压陈梦?排挤张继科?8年了,刘国梁终于迎来正名

阿斚田侃故事
2026-03-15 06:16:26
郭嘉文卖掉李泽楷所赠过亿豪宅,亏本卖7840万,昔日爱巢人去楼空

郭嘉文卖掉李泽楷所赠过亿豪宅,亏本卖7840万,昔日爱巢人去楼空

靓仔情感
2026-03-19 08:57:11
布鲁克林 & 尼古拉奥斯卡派对合体,黑色情侣装高调撒糖

布鲁克林 & 尼古拉奥斯卡派对合体,黑色情侣装高调撒糖

述家娱记
2026-03-17 15:20:22
刘亦菲穿瑜伽裤被指发胖,这才是神仙姐姐真实身材?

刘亦菲穿瑜伽裤被指发胖,这才是神仙姐姐真实身材?

手工制作阿歼
2026-03-19 19:05:09
中东客户付了20万元定金后无法收货,杭州老板娘主动提出退定金,“比起货品,我更希望她安全”

中东客户付了20万元定金后无法收货,杭州老板娘主动提出退定金,“比起货品,我更希望她安全”

都市快报橙柿互动
2026-03-19 23:10:21
他长得帅,演技好,曾被大11岁富婆追求,51岁事业家庭双丰收

他长得帅,演技好,曾被大11岁富婆追求,51岁事业家庭双丰收

花间悦语
2026-03-17 21:45:03
美伊战争的大决战,即将打响!

美伊战争的大决战,即将打响!

君临财富
2026-03-17 22:51:09
深圳一学校正式取消家长护学岗!3月23日起施行

深圳一学校正式取消家长护学岗!3月23日起施行

深圳晚报
2026-03-19 23:30:03
集体跳水!刚刚,13.92万人爆仓!伊朗大规模袭击!霍尔木兹海峡,新消息

集体跳水!刚刚,13.92万人爆仓!伊朗大规模袭击!霍尔木兹海峡,新消息

数据宝
2026-03-19 10:57:15
美国专家也难理解!中国为何再次将先进材料,给打到“白菜价”?

美国专家也难理解!中国为何再次将先进材料,给打到“白菜价”?

丁丁鲤史纪
2026-03-19 14:20:20
主演《卧底娇娃》收视、口碑双塌,TVB男星检讨:我表现不及格

主演《卧底娇娃》收视、口碑双塌,TVB男星检讨:我表现不及格

君笙的拂兮
2026-03-18 16:45:48
2026-03-20 01:16:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9060文章数 145030关注度
往期回顾 全部

科技要闻

小米新一代SU7上市,售价21.99万

头条要闻

美军一架F-35战机疑似被伊朗火力击中后紧急降落

头条要闻

美军一架F-35战机疑似被伊朗火力击中后紧急降落

体育要闻

他们专卖“老头鞋”,却能签下19岁NBA未来门面?

娱乐要闻

胡歌初恋回应曝光书信 否认用爆料赚钱

财经要闻

伊朗战争会是"美国金融危机"导火索吗?

汽车要闻

不到10万还有激光雷达 零跑A10体验超预期

态度原创

艺术
旅游
时尚
公开课
军事航空

艺术要闻

50亿!抖音集团上海滨江中心,实景图完美还原效果图!

旅游要闻

2026上海旅游产业博览会本月末开幕,浦东浦西三馆联动,文商旅体展融合创商机

边生活,边艺术:LEDIN「智趣千金」的灵感手记

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国防部因打伊朗要求加2000亿预算

无障碍浏览 进入关怀版