网易首页 > 网易号 > 正文 申请入驻

最强“医生版ChatGPT”来了!Baichuan-M2 Plus横扫人类医学考试,可信度比肩资深专家!

0
分享至

AI医疗取得又一重大突破,团队来自中国!

10月22日,百川智能发布首个循证增强医疗大模型Baichuan-M2Plus,为医疗AI树立了新标杆。

此前百川发布的Baichuan-M2,作为全球最强开源医疗模型,引发行业广泛关注。

而这次的升级版,更“靠谱”,也更“可用”。

Baichuan-M2 Plus的幻觉率较通用大模型显著降低,相比Deepseek降低3倍,优于美国最火医疗产品OpenEvidence可信度比肩资深临床医生水准。



在多个人类医学考试中,Baichuan-M2 Plus取得了远超人类水平的成绩。


能做到这些,原因在于百川把现代医学的核心方法——循证医学(Evidence-Based Medicine),深度融入到了AI之中。

简单来说,就是让AI像真正的医生一样,不靠猜测,而是基于可靠的医学证据来做判断。

通用大模型,虽然也能回答医学问题,但很多答案是凭空生成的。它可能读过很多网页,但信息真假混杂。所以,它有时会一本正经地胡说八道,这在医学上是不可接受的。

毕竟,我们都不想将生命健康交给一个会信口开河的AI。

Baichuan-M2Plus“循证”为核心原则,真正切中了医生和患者的痛点,让医疗大模型备了真正的科学可信度

眼下,AI医疗已成为海内外最热门的赛道之一,传奇投资人木头姐(Cathie Wood)表示「医疗保健是AI最被低估的应用领域」;世界经济论坛提出80亿AI医生愿景,每个人都将拥有自己的私人医生。

在美国,现象级医疗大模型产品OpenEvidence,因符合医学认知的循证增强,已有40%美国医生注册使用,每月咨询量达1650万次。

AI将颠覆医疗行业,已成为顶级资本的共识,OpenEvidence今年以来连续完成A、B、C轮融资,三轮累计融资金额达到4.85亿美元,估值已达60亿美金。

作为AI医疗的先行者,百川智能首创六源循证推理(EAR)范式,在美、日、英的医疗评测中均超过OpenEvidence,代表中国在世界大模型擂台上再下一城。

即日起,M2-Plus将以API形式面向医疗AI开发者、科研机构和行业合作伙伴全面开放;「百小应」APP也已接入M2-Plus作为核心医疗问答引擎,为临床医生提供精准的诊疗决策支持,帮助患者及家属获得最新最权威的医学知识。

正如DeepSeek以极致的性能优化与开放的合作精神掀起技术平权浪潮,百川智能同样为医疗健康事业开启了一个创新共赢的未来。


首创六源循证推理范式,树立行业新标杆

循证医学(Evidence-Based Medicine, EBM)自20世纪90年代由加拿大麦克马斯特大学提出以来,已成为现代医学知识体系的核心范式。

在百川智能看来,循证不只是医生的行为准则,也应成为AI系统的底层原则。

基于这一理念,M2PlusBaichuan-M2行业领先的医疗推理能力上再次进化,首创了 “六源循证推理”范式,让AI真正学会人类医生的思维和临床实践方法

六源循证:打造从原始研究到真实世界的完整知识体系

可靠的证据是“循证医学”的基石,百川智能主动屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,从根源上保证了数据质量。

在循证医学体系中,证据的采取遵循一套用于评估研究质量和置信强度的模型,最可靠的知识存在于顶端,较不可靠的证据位于底部,构成一个证据金字塔(Hierarchy of Evidence)。

M2 Plus在证据分层上也采用了这一原则,将医学证据分为六个层级,并根据实际需求动态调用。

  • 原始研究层:索引海量医学期刊论文
    4000
    万篇,超过
    PubMed
    收录数量,涵盖基础与临床研究成果,是循证链条的起点;
  • 证据综述层:整合系统评价和
    Meta
    分析等高等级证据,提供经过汇总的研究结论。
  • 指南规范层:引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范。
  • 实践知识层:包含临床病例报道、一线专家经验和诊疗技巧等实用知识,贴近医疗实践场景。
  • 公共健康教育层:汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育。
  • 监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果。


这一整套从证据、到实践、再到真实世界反馈六层证据类型的知识体系,经层层演化而来:原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。

这让模型从“生成答案”走向“以证据回答”,实现了从语言可信度到知识可信度的跃升。

循证检索:从“找得到”跃升到“找得准”

传统的RAG 检索往往追求“找得到”,而循证检索追求“找得准”。

M2 Plus采用PICO框架(人群 Population、干预 Intervention、对照 Comparison、结局 Outcome)思维,将查询转化为结构化医学问题,并在六源数据库中进行分层匹配。

例如:当输入“老年OSA 患者使用 CPAP 能否改善高血压?”时,系统优先在高等级证据(系统综述、RCT 元分析)中搜索,并自动辨识研究质量、样本量、置信区间与结局指标。

这种方法克服了通用RAG的两大缺陷:一是缺乏医学语义理解(无法区分 CPAP 疗效与依从性分析);二是无法辨别文献可靠性(新闻与指南同权)。

在此基础上,M2 Plus能够三步精准锁定“铁证”:

第一步,智能提问:自动将用户问题拆解成多个专业的PICO查询,进行“地毯式”证据搜索,兼顾精度与广度。

第二步,精准锁定:通过自研的Medical Contextual Retrieval技术,完整保留文献的临床因果链,避免信息割裂。

第三步,证据排序:内置“审稿人”模型,自动评估证据等级(如RCT、Meta分析),将最可信、最相关的“铁证”优先呈现。

循证推理:让模型像医生一样思考

如果说“六源循证”解决了医疗AI知识从哪来的问题,“PICO智能检索”解决了如何快速找到正确证据的问题,那么最关键的一步是如何确保AI在手握证据时,不会“自由发挥”、脱离事实胡乱回答。

百川智能在M2 Plus中引入“循证增强训练”机制,为模型的回答过程“上了一道锁”,从根本上改变了其生成逻辑,让它学会“引用,而非臆测”:

首先,在训练中奖励引用,惩罚臆测,准确引用权威来源(如指南、文献)时会获得高分,一旦回答脱离了检索到的证据就会受到惩罚;

其次,内置证据评估器,模型被训练得能够自动评估检索到的证据质量,优先采纳高可信度的信息(如RCT、Meta分析),并将其无缝嵌入到推理链中;

第三,句句有据,可回溯、可验证:经过训练,M2-Plus的回答风格发生了根本性改变,在输出关键结论时,自动附上参考文献、指南出处等来源,这赋予了AI回答更高的可解释性与可信赖度。


幻觉水平最低,DeepSeek降低3

这种“循证驱动”的生成逻辑,M2 Plus几乎杜绝了无中生有的内容。

在多场景评测中,其综合幻觉率在所有大模型当中最低,相较Deepseek R1最新版降低3倍,显著领先OpenEvidence

不仅如此,在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,达到了与人类资深临床专家同等的可信度。

301医院的姜医生提问,“目前公认最有效的基因治疗药物靶向足细胞递送方案有哪些?”

很多通用大模型回答这个问题时都产生了明显幻觉,而M2 Plus的回答不仅查到了全球最新研究成果,还能按纳米系统/ AAV病毒载体等维度分类

姜医生评价道:“引用文献非常具有专业性、且信息源紧贴顶刊ERA等最新进展,对足细胞基因治疗这么前沿的方向,能帮我快速了解国际热点技术路线,少走弯路。”

北京天坛医院的熊医生,在研究目前PACAP在偏头痛中的研究进展如何时发现,头痛相关的研究越来越多,想找到真正有价值的文献并不容易,多数大模型给出的答案都因幻觉问题而不可用。

他试用时发现,百小应“能梳理全球PACAP偏头痛研究,从机制到III期临床试验自动串联证据链,不仅回答问题,更让医生站在未来看科研进展。



多国医学考试断崖领先,远超人类医生

美国执业医师资格考试(USMLE)是评估临床知识和推理能力的黄金标准,即便是经验丰富的临床专家,要突破90分也极具挑战。

在此项考试中,M2-Plus取得了惊人的97分,不仅远超人类考生平均水平,更与GPT-5的成绩持平,稳居全球第一梯队,展示了其世界级的临床问题解决能力。

中国执业医师资格考试(NMLE及格线为360分,对于广大医学生而言,能考到450分以上已是高分,超过500分则被视为“学神”级别。

M2 Plus则取得了568分的“碾压级”成绩,在所有公开测试的主流大模型中位列第一,充分证明其对中国临床指南和医疗实践的掌握已炉火纯青。

如果说执医考是“从业门槛”,那么中国硕士研究生招生考试临床医学综合能力(西医)则是顶尖医学生竞争的“华山论剑”。该考试不仅知识面广,且题目设计极为复杂,对临床思维要求高。

通常,能考到280分以上的考生,都是超过协和、北医等顶尖学府的头部学霸。M2 Plus在此项考试中取得了282分。

同时,在日本、英国、澳大利亚等国高级医师职称晋升考试中,M2 Plus的准备率达到85%以上,远超各国及格线。

这些压倒性的成绩充分说明,M2 Plus在复杂医学知识运用上的能力,已经超越了人类医生水准。


百川按下“加速键”,助推医疗AI迈入可信可用阶段

在AI重塑医疗的浪潮中,百川智能怀普惠之志,为行业开放顶尖模型能力,切实推动智慧医疗的落地。

接入M2 Plus的百小应已在各大手机应用商店更新,打造"医生版ChatGPT"。为方便电脑端使用,网页版(ying.ai)也同步上线。


医生可以通过它快速查阅循证指南和文献,患者能够深入理解疾病和治疗方案,公众则可获取权威、可信、可追溯的健康知识。

尤其是,当前患者用DeepSeek自诊和带着DeepSeek就医的现象越来越多。通过百小应,医生有了面对通用模型幻觉挑战的“专属武器”。

此外,M2 Plus也将以API形式面向医疗AI开发者、科研机构和行业合作伙伴全面开放。

通过标准化接口,开发者和医疗机构可以快速构建出专属的AI医生或智能辅助决策系统,并结合自身数据资源实现差异化创新。

这一能力可灵活集成至医院信息系统、科研工具、数字医疗产品与健康服务平台,应用于医院流程优化、专科辅助诊断、个性化健康管理等多种场景。

通过开源Baichuan-2、发布Baichuan-2 plus、百小应,开放API,百川致力于持续提升AI医疗在真实临床场景的可用性,推动大模型在严肃医疗场景进入落地可用新阶段。

归根到底,百川智能所做的,是前沿的AI技术真正服务于医生,也服务于每一个普通人。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝李易峰到处求人!为复出去大孤山跪拜,想开演唱会捞金却屡屡失败

曝李易峰到处求人!为复出去大孤山跪拜,想开演唱会捞金却屡屡失败

八星人
2026-03-22 11:16:33
高市早苗在美国,把特朗普说的老脸通红

高市早苗在美国,把特朗普说的老脸通红

江平舟
2026-03-21 18:11:51
全国最邪恶的下饭菜都在浙B

全国最邪恶的下饭菜都在浙B

穷游网
2026-03-19 13:38:10
伊朗人为何不惊慌?

伊朗人为何不惊慌?

西楼饮月
2026-03-11 20:59:17
不可错过!3月22日下午13:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月22日下午13:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-22 08:52:26
家长注意了!这些全是“假牛奶”!别再整箱往家搬了!花钱还坑娃

家长注意了!这些全是“假牛奶”!别再整箱往家搬了!花钱还坑娃

观察鉴娱
2026-03-21 12:39:12
贺子珍多年后才知毛岸英牺牲真相,当场哭喊:那是我亲生儿子啊

贺子珍多年后才知毛岸英牺牲真相,当场哭喊:那是我亲生儿子啊

老杉说历史
2026-03-21 17:38:19
骑士赢了比赛,但问题藏得更深,末节逆转暴露体系裂缝

骑士赢了比赛,但问题藏得更深,末节逆转暴露体系裂缝

不凡体育
2026-03-22 12:02:31
苹果正式官宣:3月21日,新iPhone再次官降

苹果正式官宣:3月21日,新iPhone再次官降

科技堡垒
2026-03-21 11:49:24
福建五地发布一批人事任免

福建五地发布一批人事任免

闽商报
2026-03-22 11:20:55
3月使劲吃这菜,一助消化,二安神,三润肺,四健脾胃,错过可惜

3月使劲吃这菜,一助消化,二安神,三润肺,四健脾胃,错过可惜

阿龙美食记
2026-03-07 12:52:40
4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

都市快报橙柿互动
2026-03-20 19:36:04
伊朗回应“特朗普摧毁电厂威胁”:如果遭攻击,美国及其盟友所有能源基础设施、信息技术系统和海水淡化设施都将成为打击目标

伊朗回应“特朗普摧毁电厂威胁”:如果遭攻击,美国及其盟友所有能源基础设施、信息技术系统和海水淡化设施都将成为打击目标

大象新闻
2026-03-22 10:45:03
38万老车主看完新SU7配置单,沉默了……

38万老车主看完新SU7配置单,沉默了……

道哥说车
2026-03-20 10:17:01
真神仙专业!中国道教学院招生了,包含道教历史与神仙等5个专业,计划招30名本科生,16名研究生

真神仙专业!中国道教学院招生了,包含道教历史与神仙等5个专业,计划招30名本科生,16名研究生

观威海
2026-03-21 15:43:14
杜月笙虽是青帮老大,但他有一个闻名全国的儿子,为祖国奋斗多年

杜月笙虽是青帮老大,但他有一个闻名全国的儿子,为祖国奋斗多年

鹤羽说个事
2026-03-20 21:26:41
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
逃到亚兹德也没用!伊朗最后两架C-130被摧毁

逃到亚兹德也没用!伊朗最后两架C-130被摧毁

老马拉车莫少装
2026-03-19 19:00:31
87年的李立群和胡因梦,注意看胡因梦的眼神,充满了欣赏

87年的李立群和胡因梦,注意看胡因梦的眼神,充满了欣赏

喜文多见01
2026-03-19 15:51:54
狼牙山五壮士幸存老兵,得知勋章被儿子变卖,他亲手将其送警局

狼牙山五壮士幸存老兵,得知勋章被儿子变卖,他亲手将其送警局

抽象派大师
2026-03-21 17:19:26
2026-03-22 12:55:00
智药局 incentive-icons
智药局
我们更懂药物创新
1083文章数 203关注度
往期回顾 全部

科技要闻

OpenAI开启“人海战术” 冲刺8000人规模

头条要闻

70后靳磊出任深圳市委书记 曾在河南工作多年

头条要闻

70后靳磊出任深圳市委书记 曾在河南工作多年

体育要闻

郑钦文两盘横扫前美网冠军 迎迈阿密站开门红

娱乐要闻

《澎湖海战》重启宣传 上映时间确定了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

艺术
本地
时尚
数码
公开课

艺术要闻

第四届深圳大芬国际油画双年展 | 入选油画选刊(四)

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

这些才是适合普通人借鉴的穿搭!衣服叠穿、多穿衬衫,好耐看

数码要闻

笔记本屏幕刷新率最低1Hz?LG Display新面板发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版