网易首页 > 网易号 > 正文 申请入驻

“医生版ChatGPT”来了!百川发布最强循证增强大模型M2 Plus,幻觉率远低于DeepSeek

0
分享至


编辑丨王多鱼

排版丨水成文


2025 年 10 月 22 日,百川智能发布循证增强医疗大模型——Baichuan-M2 Plus,同步升级配套应用百小应并开放 API。这是百川自 8 月开源 Baichuan-M2 以来的又一次重要动作。

评测显示,M2 Plus 的医疗幻觉率较通用大模型显著降低,仅为DeepSeek的约三分之一,优于美国最火的面向医疗专业人员的 AI 临床决策支持工具OpenEvidence可信度比肩资深临床医生

通用大模型固有的幻觉问题,导致其在严肃医疗场景中难以真实应用。国内众多医院虽积极尝试部署和优化 DeepSeek,但实际效果不尽如人意。而大洋彼岸的现象级医疗大模型产品 OpenEvidence,能给我们重要启示。该产品因符合医学认知的循证增强,已有 40% 美国医生在临床场景中注册使用,每月咨询量达 1650 万次。两天前,该公司 C 轮融资 2 亿美金,估值达 60 亿美元。

百川 M2 Plus 首创六源循证推理(EAR)范式,打造“医生版ChatGPT”,让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛,不仅适合中国医疗环境,在美、日、英的医疗评测中均超过 OpenEvidence,代表中国在世界大模型擂台上再下一城。

首创六源循证推理范式,把循证做“全”、检索做“准”、推理做“对”

六源循证:打造从原始研究到真实世界的完整知识体系

循证医学(Evidence-Based Medicine,EBM)作为现代医学知识体系的核心范式,是确保医疗决策可信的关键。

通用大模型像一个“博学但不可靠”的专家,即便有搜索增强,也会因为知识来源混杂不符合循证医学范式。

百川不仅主动屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,还在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系:

  • 原始研究层:索引海量医学期刊论文 4000 余万篇,超过 PubMed 收录数量,涵盖基础与临床研究成果,是循证链条的起点;

  • 证据综述层:整合系统评价和 Meta 分析等高等级证据,提供经过汇总的研究结论;

  • 指南规范层:引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范;

  • 实践知识层:包含临床病例报道、一线专家经验和诊疗技巧等实用知识,贴近医疗实践场景;

  • 公共健康教育层:汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育;

  • 监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果。


这个金字塔形的“六源”,是一层一层演化而来:原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。这让模型从“生成答案”走向“据实回答”,实现了从语言可信度知识可信度的跃升。

循证检索:从“找得到”跃升到“找得准”

传统的 RAG 检索往往追求“找得到”,而循证检索追求“找得准”。

M2 Plus 采用 PICO 框架(人群 Population、干预 Intervention、对照 Comparison、结局 Outcome)思维,将查询转化为结构化医学问题,并在六源数据库中进行分层匹配。例如:当输入“老年 OSA 患者使用 CPAP 能否改善高血压?”时,系统优先在高等级证据(系统综述、RCT元分析)中搜索,并自动辨识研究质量、样本量、置信区间与结局指标。

这种方法克服了通用 RAG 的两大缺陷:一是缺乏医学语义理解(无法区分 CPAP 疗效与依从性分析);二是无法辨别文献可靠性(新闻与指南同权)。在此基础上,M2 Plus 能够三步精准锁定“铁证”:

第一步,智能提问:自动将用户问题拆解成多个专业的 PICO 查询,进行“地毯式”证据搜索,兼顾精度与广度。

第二步,精准锁定:通过自研的 Medical Contextual Retrieval 技术,完整保留文献的临床因果链,避免信息割裂。

第三步,证据排序:内置“审稿人”模型,自动评估证据等级(如 RCT、Meta 分析),将最可信、最相关的“铁证”优先呈现。

循证推理:让模型“像医生一样思考”

如果说“六源循证”解决了医疗 AI 知识从哪来的问题,“PICO 智能检索”解决了如何快速找到正确证据的问题,那么最关键的一步是如何确保 AI 在手握证据时,不会“自由发挥”、脱离事实胡乱回答。

百川智能在 M2 Plus 中引入“循证增强训练”机制,为模型的回答过程“上了一道锁”,从根本上改变了其生成逻辑,让它学会“引用,而非臆测”。

首先,在训练中奖励“引用”,惩罚“臆测”,准确引用权威来源(指南、文献)时会获得高分,一旦回答脱离了检索到的证据就会受到惩罚;

其次,内置“证据评估器”,模型被训练得能够自动评估检索到的证据质量,优先采纳高可信度的信息(RCT、Meta分析),并将其无缝嵌入到推理链中;

第三,句句有据,可回溯、可验证:经过训练,M2-Plus的 回答风格发生了根本性改变,在输出关键结论时,会自动附上参考文献、指南出处等来源,这赋予了 AI 回答更高的可解释性与可信赖度。

幻觉最低,达到与人类资深临床专家同等可信度

这种“循证驱动”的生成逻辑,让 M2 Plus 几乎杜绝了无中生有的内容。在多场景评测中,其综合幻觉率在所有大模型当中最低,降为 DeepSeek R1 最新版的三分之一,显著领先 OpenEvidence。不仅如此,在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,达到了与人类资深临床专家同等的可信度。


例如,提问:目前公认最有效的基因治疗药物靶向足细胞递送方案有哪些?”很多通用大模型回答这个问题时都产生了明显幻觉,而 M2 Plus 的回答不仅查到了全球最新研究成果,还能按纳米递送系统/AAV 病毒载体等维度分类。该回答所引用文献非常具有专业性、且信息源紧贴顶刊 ERA 等最新进展,对足细胞基因治疗这一前沿方向,帮助医生快速了解国际热点技术路线,少走弯路。

对于 PACAP 在偏头痛中的研究进展的提问,多数大模型给出的答案都因幻觉问题而不可用。而接入了 M2 Plus 百小应能够能梳理全球 PACAP 偏头痛研究,从机制到 3 期临床试验自动串联证据链,不仅回答问题,更让医生站在未来看科研进展。


无论是专业医疗问题还是常规医疗问答M2 Plus都会引用权威医学证据

多国医学考试大幅领先,医学知识运用能力超越人类医生

美国执业医师资格考试(USMLE)是评估临床知识和推理能力的黄金标准,即便是经验丰富的临床专家,要突破 90 分也极具挑战。在此项考试中,M2-Plus 取得了惊人的97,不仅远超人类考生平均水平,更与 GPT-5 的成绩持平,稳居全球第一梯队,展示了其世界级的临床问题解决能力。

中国执业医师资格考试(NMLE)及格线为360分,对于广大医学生而言,能考到 450 分以上已是高分,超过 500 分则被视为“学神”级别。M2 Plus 取得了568的“碾压级”成绩,在所有公开测试的主流大模型中位列第一,充分证明其对中国临床指南和医疗实践的掌握已炉火纯青。

如果说执医考是“从业门槛”,那么中国硕士研究生招生考试临床医学综合能力(西医)考试则是顶尖医学生竞争的“华山论剑”。该考试不仅知识面广,且题目设计极为复杂,对临床思维要求高。通常,能考到 280 分以上的考生,都是协和、北医等顶尖学府的头部学霸。M2 Plus 在此项考试中取得了282。同时,在日本、英国、澳大利亚等国高级医师职称晋升考试中,准确率 85% 以上,远超各国及格线。


这些压倒性的成绩充分说明,M2 Plus在复杂医学知识运用上的能力,已经超越了人类医生水准。

“医生版 ChatGPT”推动医疗 AI 迈入可信可用阶段

接入 M2 Plus 的百小应已在各大手机应用商店更新,成为“医生版 ChatGPT”。为方便电脑端使用,网页版(ying.ai)也同步上线。

除了需要高效地辅助临床决策,医生还开始面对新的挑战:患者用 DeepSeek 自诊和带着 DeepSeek 就医的现象越来越多。虽然知道大模型可能有幻觉和偏颇,但没有时间和精力去甄别哪句对哪句错。通过百小应,医生有了面对通用模型挑战的“专属武器”。

对于希望深入理解诊断、治疗、预后、病因、检查等背后科学逻辑的患者及家属,面对复杂的就医环境和不同医生给出的诊疗方案,百小应让他们有机会获得最新最权威的知识、顶尖专家的思维和视角,得到无限耐心的专业解答。

Baichuan-M2 Plus 也提供了标准化 API 接口,医院信息化部门、互联网医疗、大健康服务等各类泛医学机构,以及从事医疗 AI 行业的开发者,则可以通过 API 将循证推理接入服务场景,提升 AI 服务的医学专业性。

通过开源 Baichuan-M2、发布 Baichuan-M2 plus、百小应,开放 API,百川致力于持续提升 AI 医疗在真实临床场景的可用性,推动大模型在严肃医疗场景进入落地可用新阶段。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
顶流女星突然按下暂停键!杨紫宣布彻底休息,内娱都炸了

顶流女星突然按下暂停键!杨紫宣布彻底休息,内娱都炸了

小椰的奶奶
2026-03-22 04:39:19
恶之花女星吸血前夫?周迅陈坤隐婚?阚清子休养好了?宋亚轩不想拍戏?姨太问答

恶之花女星吸血前夫?周迅陈坤隐婚?阚清子休养好了?宋亚轩不想拍戏?姨太问答

毒舌扒姨太
2026-03-23 22:38:56
西方突然发现:中国越来越像我们了

西方突然发现:中国越来越像我们了

青木在德国
2026-03-24 20:24:58
现场尖叫拉扯!金溥聪带队闯马办,马英九基金会内讧闹大!

现场尖叫拉扯!金溥聪带队闯马办,马英九基金会内讧闹大!

达文西看世界
2026-03-24 19:50:27
白宫向全世界公布了高市的丑态百出,日本网民炸了:国耻!丢脸

白宫向全世界公布了高市的丑态百出,日本网民炸了:国耻!丢脸

刘森森
2026-03-23 19:20:17
15中13,三分6中5,轰31分4板!球迷:常规赛MVP已在招手

15中13,三分6中5,轰31分4板!球迷:常规赛MVP已在招手

体育哲人
2026-03-24 22:51:38
26岁天才股神坦言:尾盘30分钟就能买到次日必涨的股票,从不例外

26岁天才股神坦言:尾盘30分钟就能买到次日必涨的股票,从不例外

股经纵横谈
2026-01-27 18:22:52
200亿资金“精准抄底”!是谁没浪费大跌机会?

200亿资金“精准抄底”!是谁没浪费大跌机会?

财联社
2026-03-24 18:20:11
记者问蒋万安:你是台湾人还是中国人?蒋万安的回答出乎预料。

记者问蒋万安:你是台湾人还是中国人?蒋万安的回答出乎预料。

阿七说史
2026-03-23 15:27:40
张雪峰心脏骤停在苏州抢救?合伙人、助理回应;网友冲进直播间询问真相,多平台直播间相继中断

张雪峰心脏骤停在苏州抢救?合伙人、助理回应;网友冲进直播间询问真相,多平台直播间相继中断

星岛记事
2026-03-24 21:08:52
狂砍83分后秒变弱鸡?阿德巴约遭文班亚马打爆,17中5现原形

狂砍83分后秒变弱鸡?阿德巴约遭文班亚马打爆,17中5现原形

仰卧撑FTUer
2026-03-24 10:46:02
没有人比五粮液更懂脑血栓

没有人比五粮液更懂脑血栓

老斯基财经
2026-03-06 17:18:30
房价,大涨了40%?

房价,大涨了40%?

科学发掘
2026-03-23 17:18:35
本·拉登藏匿多年无人发现,美军搜遍中亚无果,最后败给一根晾衣绳?

本·拉登藏匿多年无人发现,美军搜遍中亚无果,最后败给一根晾衣绳?

房产衫哥
2026-03-24 14:14:19
曝张雪峰心脏骤停ICU抢救,知情人曝抢救细节,微博上线不发声

曝张雪峰心脏骤停ICU抢救,知情人曝抢救细节,微博上线不发声

古希腊掌管松饼的神
2026-03-24 18:51:41
曝张雪峰已经二婚,11岁女儿继承遗产变复杂,处境令人心疼!

曝张雪峰已经二婚,11岁女儿继承遗产变复杂,处境令人心疼!

古希腊掌管松饼的神
2026-03-24 23:29:16
国乒集体退赛!最新WTT今日开打:世界前16竟无人参战

国乒集体退赛!最新WTT今日开打:世界前16竟无人参战

范动舍长
2026-03-24 10:27:59
奴颜媚骨具象化,高市早苗三十年前照片被扒出,原来她从未变过!

奴颜媚骨具象化,高市早苗三十年前照片被扒出,原来她从未变过!

社会酱
2026-03-23 17:34:19
乱港艺人冲击立法会获刑74个月,诡辩只是无辜路人

乱港艺人冲击立法会获刑74个月,诡辩只是无辜路人

侠客栈
2026-03-24 12:16:54
张凌赫一觉醒来“天塌了”!网友:“怎么了?我的粉底液大将军”

张凌赫一觉醒来“天塌了”!网友:“怎么了?我的粉底液大将军”

小娱乐悠悠
2026-03-23 09:14:55
2026-03-25 00:55:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9089文章数 145035关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

亲子
家居
艺术
旅游
军事航空

亲子要闻

这是我们全家到目前为止最喜欢吃的三明治,没有之一! 杨雪呀

家居要闻

智慧生活 奢享家居

艺术要闻

300米!非洲最高全钢混住宅,中国建造又破纪录!

旅游要闻

2025年哈萨克斯坦入境游客持续增长 中国为第四大来源国

军事要闻

以色列媒体:美国计划于4月9日结束对伊朗战争

无障碍浏览 进入关怀版