最强“医生版ChatGPT”来了！Baichuan-M2 Plus横扫人类医学考试，可信度比肩资深专家！|循证|医疗|医学知识|医学博士

分享至

AI医疗取得又一重大突破，团队来自中国！

10月22日，百川智能发布首个循证增强医疗大模型Baichuan-M2Plus，为医疗AI树立了新标杆。

此前百川发布的Baichuan-M2，作为全球最强开源医疗模型，引发行业广泛关注。

而这次的升级版，更“靠谱”，也更“可用”。

Baichuan-M2 Plus的幻觉率较通用大模型显著降低，相比Deepseek降低3倍，优于美国最火医疗产品OpenEvidence，可信度比肩资深临床医生水准。

在多个人类医学考试中，Baichuan-M2 Plus取得了远超人类水平的成绩。

能做到这些，原因在于百川把现代医学的核心方法——循证医学（Evidence-Based Medicine），深度融入到了AI之中。

简单来说，就是让AI像真正的医生一样，不靠猜测，而是基于可靠的医学证据来做判断。

通用大模型，虽然也能回答医学问题，但很多答案是凭空生成的。它可能读过很多网页，但信息真假混杂。所以，它有时会一本正经地胡说八道，这在医学上是不可接受的。

毕竟，我们都不想将生命健康交给一个会信口开河的AI。

而Baichuan-M2Plus以“循证”为核心原则，真正切中了医生和患者的痛点，让医疗大模型具备了真正的科学可信度。

眼下，AI医疗已成为海内外最热门的赛道之一，传奇投资人木头姐（Cathie Wood）表示「医疗保健是AI最被低估的应用领域」；世界经济论坛提出80亿AI医生愿景，每个人都将拥有自己的私人医生。

在美国，现象级医疗大模型产品OpenEvidence，因符合医学认知的循证增强，已有40%美国医生注册使用，每月咨询量达1650万次。

AI将颠覆医疗行业，已成为顶级资本的共识，OpenEvidence今年以来连续完成A、B、C轮融资，三轮累计融资金额达到4.85亿美元，估值已达60亿美金。

作为AI医疗的先行者，百川智能首创六源循证推理（EAR）范式，在美、日、英的医疗评测中均超过OpenEvidence，代表中国在世界大模型擂台上再下一城。

即日起，M2-Plus将以API形式面向医疗AI开发者、科研机构和行业合作伙伴全面开放；「百小应」APP也已接入M2-Plus作为核心医疗问答引擎，为临床医生提供精准的诊疗决策支持，帮助患者及家属获得最新最权威的医学知识。

正如DeepSeek以极致的性能优化与开放的合作精神掀起技术平权浪潮，百川智能同样为医疗健康事业开启了一个创新共赢的未来。

首创六源循证推理范式，树立行业新标杆

循证医学（Evidence-Based Medicine, EBM）自20世纪90年代由加拿大麦克马斯特大学提出以来，已成为现代医学知识体系的核心范式。

在百川智能看来，循证不只是医生的行为准则，也应成为AI系统的底层原则。

基于这一理念，M2Plus在Baichuan-M2行业领先的医疗推理能力上再次进化，首创了 “六源循证推理”范式，让AI真正学会人类医生的思维和临床实践方法。

六源循证：打造从原始研究到真实世界的完整知识体系

可靠的证据是“循证医学”的基石，百川智能主动屏蔽了互联网的非专业信息来源，只使用权威来源的医学证据，从根源上保证了数据质量。

在循证医学体系中，证据的采取遵循一套用于评估研究质量和置信强度的模型，最可靠的知识存在于顶端，较不可靠的证据位于底部，构成一个证据金字塔（Hierarchy of Evidence）。

M2 Plus在证据分层上也采用了这一原则，将医学证据分为六个层级，并根据实际需求动态调用。

原始研究层：索引海量医学期刊论文
4000
万篇，超过
PubMed
收录数量，涵盖基础与临床研究成果，是循证链条的起点；
证据综述层：整合系统评价和
Meta
分析等高等级证据，提供经过汇总的研究结论。
指南规范层：引入国际和国内权威机构发布的临床指南、专家共识和行业标准，确保回答符合最新规范。
实践知识层：包含临床病例报道、一线专家经验和诊疗技巧等实用知识，贴近医疗实践场景。
公共健康教育层：汇集权威科普和公共卫生知识，如疾病预防宣教、健康指导等内容，服务大众健康教育。
监管与真实世界层：涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息，以反映最新的监管动态与人群研究结果。

这一整套从证据、到实践、再到真实世界反馈六层证据类型的知识体系，经层层演化而来：原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。

这让模型从“生成答案”走向“以证据回答”，实现了从语言可信度到知识可信度的跃升。

循证检索：从“找得到”跃升到“找得准”

传统的RAG 检索往往追求“找得到”，而循证检索追求“找得准”。

M2 Plus采用PICO框架（人群 Population、干预 Intervention、对照 Comparison、结局 Outcome）思维，将查询转化为结构化医学问题，并在六源数据库中进行分层匹配。

例如：当输入“老年OSA 患者使用 CPAP 能否改善高血压？”时，系统优先在高等级证据（系统综述、RCT 元分析）中搜索，并自动辨识研究质量、样本量、置信区间与结局指标。

这种方法克服了通用RAG的两大缺陷：一是缺乏医学语义理解（无法区分 CPAP 疗效与依从性分析）；二是无法辨别文献可靠性（新闻与指南同权）。

在此基础上，M2 Plus能够三步精准锁定“铁证”：

第一步，智能提问：自动将用户问题拆解成多个专业的PICO查询，进行“地毯式”证据搜索，兼顾精度与广度。

第二步，精准锁定：通过自研的Medical Contextual Retrieval技术，完整保留文献的临床因果链，避免信息割裂。

第三步，证据排序：内置“审稿人”模型，自动评估证据等级（如RCT、Meta分析），将最可信、最相关的“铁证”优先呈现。

循证推理：让模型“像医生一样思考”

如果说“六源循证”解决了医疗AI知识从哪来的问题，“PICO智能检索”解决了如何快速找到正确证据的问题，那么最关键的一步是如何确保AI在手握证据时，不会“自由发挥”、脱离事实胡乱回答。

百川智能在M2 Plus中引入“循证增强训练”机制，为模型的回答过程“上了一道锁”，从根本上改变了其生成逻辑，让它学会“引用，而非臆测”：

首先，在训练中奖励“引用”，惩罚“臆测”，准确引用权威来源（如指南、文献）时会获得高分，一旦回答脱离了检索到的证据就会受到惩罚；

其次，内置“证据评估器”，模型被训练得能够自动评估检索到的证据质量，优先采纳高可信度的信息（如RCT、Meta分析），并将其无缝嵌入到推理链中；

第三，句句有据，可回溯、可验证：经过训练，M2-Plus的回答风格发生了根本性改变，在输出关键结论时，自动附上参考文献、指南出处等来源，这赋予了AI回答更高的可解释性与可信赖度。

幻觉水平最低，较DeepSeek降低3倍

这种“循证驱动”的生成逻辑，让M2 Plus几乎杜绝了无中生有的内容。

在多场景评测中，其综合幻觉率在所有大模型当中最低，相较Deepseek R1最新版降低3倍，显著领先OpenEvidence。

不仅如此，在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中，达到了与人类资深临床专家同等的可信度。

301医院的姜医生提问，“目前公认最有效的基因治疗药物靶向足细胞递送方案有哪些？”

很多通用大模型回答这个问题时都产生了明显幻觉，而M2 Plus的回答不仅查到了全球最新研究成果，还能按纳米系统/ AAV病毒载体等维度分类。

姜医生评价道：“引用文献非常具有专业性、且信息源紧贴顶刊ERA等最新进展，对足细胞基因治疗这么前沿的方向，能帮我快速了解国际热点技术路线，少走弯路。”

北京天坛医院的熊医生，在研究目前PACAP在偏头痛中的研究进展如何时发现，头痛相关的研究越来越多，想找到真正有价值的文献并不容易，多数大模型给出的答案都因幻觉问题而不可用。

他试用时发现，百小应“能梳理全球PACAP偏头痛研究，从机制到III期临床试验自动串联证据链，不仅回答问题，更让医生站在未来看科研进展。”

多国医学考试断崖领先，远超人类医生

美国执业医师资格考试（USMLE）是评估临床知识和推理能力的黄金标准，即便是经验丰富的临床专家，要突破90分也极具挑战。

在此项考试中，M2-Plus取得了惊人的97分，不仅远超人类考生平均水平，更与GPT-5的成绩持平，稳居全球第一梯队，展示了其世界级的临床问题解决能力。

中国执业医师资格考试（NMLE）及格线为360分，对于广大医学生而言，能考到450分以上已是高分，超过500分则被视为“学神”级别。

M2 Plus则取得了568分的“碾压级”成绩，在所有公开测试的主流大模型中位列第一，充分证明其对中国临床指南和医疗实践的掌握已炉火纯青。

如果说执医考是“从业门槛”，那么中国硕士研究生招生考试临床医学综合能力（西医）则是顶尖医学生竞争的“华山论剑”。该考试不仅知识面广，且题目设计极为复杂，对临床思维要求高。

通常，能考到280分以上的考生，都是超过协和、北医等顶尖学府的头部学霸。M2 Plus在此项考试中取得了282分。

同时，在日本、英国、澳大利亚等国高级医师职称晋升考试中，M2 Plus的准备率达到85%以上，远超各国及格线。

这些压倒性的成绩充分说明，M2 Plus在复杂医学知识运用上的能力，已经超越了人类医生水准。

百川按下“加速键”，助推医疗AI迈入可信可用阶段

在AI重塑医疗的浪潮中，百川智能怀普惠之志，为行业开放顶尖模型能力，切实推动智慧医疗的落地。

接入M2 Plus的百小应已在各大手机应用商店更新，打造"医生版ChatGPT"。为方便电脑端使用，网页版（ying.ai）也同步上线。

医生可以通过它快速查阅循证指南和文献，患者能够深入理解疾病和治疗方案，公众则可获取权威、可信、可追溯的健康知识。

尤其是，当前患者用DeepSeek自诊和带着DeepSeek就医的现象越来越多。通过百小应，医生有了面对通用模型幻觉挑战的“专属武器”。

此外，M2 Plus也将以API形式面向医疗AI开发者、科研机构和行业合作伙伴全面开放。

通过标准化接口，开发者和医疗机构可以快速构建出专属的AI医生或智能辅助决策系统，并结合自身数据资源实现差异化创新。

这一能力可灵活集成至医院信息系统、科研工具、数字医疗产品与健康服务平台，应用于医院流程优化、专科辅助诊断、个性化健康管理等多种场景。

通过开源Baichuan-Ｍ2、发布Baichuan-Ｍ2 plus、百小应，开放API，百川致力于持续提升AI医疗在真实临床场景的可用性，推动大模型在严肃医疗场景进入落地可用新阶段。

归根到底，百川智能所做的，是让前沿的AI技术真正服务于医生，也服务于每一个普通人。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

最强“医生版ChatGPT”来了！Baichuan-M2 Plus横扫人类医学考试，可信度比肩资深专家！

营收翻倍、巨亏31亿！中国大模型太烧钱了

英法意葡等10国发表联合声明 中方：以色列应立即撤军

英法意葡等10国发表联合声明 中方：以色列应立即撤军

NBA扩军，和篮球无关？

宋宁峰人设崩塌！带娃偷情+反向索赔

电商售械三水光针 机构倒货or假货猖獗?

2026年3月小米汽车交付超2万台 新SU7上市即交付

态度原创

经典配色 昼色银河

多所高校宣布2026年本科扩招！背后释放的信号要懂，学子们要抓住

“灰色阔腿裤"今年春天火爆了，怎么搭都时髦高级！

春日吃花第五期——江西

特朗普：即使霍尔木兹海峡仍关闭 也愿意结束战争

英法意葡等10国发表联合声明中方：以色列应立即撤军

英法意葡等10国发表联合声明中方：以色列应立即撤军

电商售械三水光针机构倒货or假货猖獗?

2026年3月小米汽车交付超2万台新SU7上市即交付

经典配色昼色银河

特朗普：即使霍尔木兹海峡仍关闭也愿意结束战争