网易首页 > 网易号 > 正文 申请入驻

最强“医生版ChatGPT”来了!Baichuan-M2 Plus横扫人类医学考试,可信度比肩资深专家!

0
分享至

AI医疗取得又一重大突破,团队来自中国!

10月22日,百川智能发布首个循证增强医疗大模型Baichuan-M2Plus,为医疗AI树立了新标杆。

此前百川发布的Baichuan-M2,作为全球最强开源医疗模型,引发行业广泛关注。

而这次的升级版,更“靠谱”,也更“可用”。

Baichuan-M2 Plus的幻觉率较通用大模型显著降低,相比Deepseek降低3倍,优于美国最火医疗产品OpenEvidence可信度比肩资深临床医生水准。



在多个人类医学考试中,Baichuan-M2 Plus取得了远超人类水平的成绩。


能做到这些,原因在于百川把现代医学的核心方法——循证医学(Evidence-Based Medicine),深度融入到了AI之中。

简单来说,就是让AI像真正的医生一样,不靠猜测,而是基于可靠的医学证据来做判断。

通用大模型,虽然也能回答医学问题,但很多答案是凭空生成的。它可能读过很多网页,但信息真假混杂。所以,它有时会一本正经地胡说八道,这在医学上是不可接受的。

毕竟,我们都不想将生命健康交给一个会信口开河的AI。

Baichuan-M2Plus“循证”为核心原则,真正切中了医生和患者的痛点,让医疗大模型备了真正的科学可信度

眼下,AI医疗已成为海内外最热门的赛道之一,传奇投资人木头姐(Cathie Wood)表示「医疗保健是AI最被低估的应用领域」;世界经济论坛提出80亿AI医生愿景,每个人都将拥有自己的私人医生。

在美国,现象级医疗大模型产品OpenEvidence,因符合医学认知的循证增强,已有40%美国医生注册使用,每月咨询量达1650万次。

AI将颠覆医疗行业,已成为顶级资本的共识,OpenEvidence今年以来连续完成A、B、C轮融资,三轮累计融资金额达到4.85亿美元,估值已达60亿美金。

作为AI医疗的先行者,百川智能首创六源循证推理(EAR)范式,在美、日、英的医疗评测中均超过OpenEvidence,代表中国在世界大模型擂台上再下一城。

即日起,M2-Plus将以API形式面向医疗AI开发者、科研机构和行业合作伙伴全面开放;「百小应」APP也已接入M2-Plus作为核心医疗问答引擎,为临床医生提供精准的诊疗决策支持,帮助患者及家属获得最新最权威的医学知识。

正如DeepSeek以极致的性能优化与开放的合作精神掀起技术平权浪潮,百川智能同样为医疗健康事业开启了一个创新共赢的未来。


首创六源循证推理范式,树立行业新标杆

循证医学(Evidence-Based Medicine, EBM)自20世纪90年代由加拿大麦克马斯特大学提出以来,已成为现代医学知识体系的核心范式。

在百川智能看来,循证不只是医生的行为准则,也应成为AI系统的底层原则。

基于这一理念,M2PlusBaichuan-M2行业领先的医疗推理能力上再次进化,首创了 “六源循证推理”范式,让AI真正学会人类医生的思维和临床实践方法

六源循证:打造从原始研究到真实世界的完整知识体系

可靠的证据是“循证医学”的基石,百川智能主动屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,从根源上保证了数据质量。

在循证医学体系中,证据的采取遵循一套用于评估研究质量和置信强度的模型,最可靠的知识存在于顶端,较不可靠的证据位于底部,构成一个证据金字塔(Hierarchy of Evidence)。

M2 Plus在证据分层上也采用了这一原则,将医学证据分为六个层级,并根据实际需求动态调用。

  • 原始研究层:索引海量医学期刊论文
    4000
    万篇,超过
    PubMed
    收录数量,涵盖基础与临床研究成果,是循证链条的起点;
  • 证据综述层:整合系统评价和
    Meta
    分析等高等级证据,提供经过汇总的研究结论。
  • 指南规范层:引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范。
  • 实践知识层:包含临床病例报道、一线专家经验和诊疗技巧等实用知识,贴近医疗实践场景。
  • 公共健康教育层:汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育。
  • 监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果。


这一整套从证据、到实践、再到真实世界反馈六层证据类型的知识体系,经层层演化而来:原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。

这让模型从“生成答案”走向“以证据回答”,实现了从语言可信度到知识可信度的跃升。

循证检索:从“找得到”跃升到“找得准”

传统的RAG 检索往往追求“找得到”,而循证检索追求“找得准”。

M2 Plus采用PICO框架(人群 Population、干预 Intervention、对照 Comparison、结局 Outcome)思维,将查询转化为结构化医学问题,并在六源数据库中进行分层匹配。

例如:当输入“老年OSA 患者使用 CPAP 能否改善高血压?”时,系统优先在高等级证据(系统综述、RCT 元分析)中搜索,并自动辨识研究质量、样本量、置信区间与结局指标。

这种方法克服了通用RAG的两大缺陷:一是缺乏医学语义理解(无法区分 CPAP 疗效与依从性分析);二是无法辨别文献可靠性(新闻与指南同权)。

在此基础上,M2 Plus能够三步精准锁定“铁证”:

第一步,智能提问:自动将用户问题拆解成多个专业的PICO查询,进行“地毯式”证据搜索,兼顾精度与广度。

第二步,精准锁定:通过自研的Medical Contextual Retrieval技术,完整保留文献的临床因果链,避免信息割裂。

第三步,证据排序:内置“审稿人”模型,自动评估证据等级(如RCT、Meta分析),将最可信、最相关的“铁证”优先呈现。

循证推理:让模型像医生一样思考

如果说“六源循证”解决了医疗AI知识从哪来的问题,“PICO智能检索”解决了如何快速找到正确证据的问题,那么最关键的一步是如何确保AI在手握证据时,不会“自由发挥”、脱离事实胡乱回答。

百川智能在M2 Plus中引入“循证增强训练”机制,为模型的回答过程“上了一道锁”,从根本上改变了其生成逻辑,让它学会“引用,而非臆测”:

首先,在训练中奖励引用,惩罚臆测,准确引用权威来源(如指南、文献)时会获得高分,一旦回答脱离了检索到的证据就会受到惩罚;

其次,内置证据评估器,模型被训练得能够自动评估检索到的证据质量,优先采纳高可信度的信息(如RCT、Meta分析),并将其无缝嵌入到推理链中;

第三,句句有据,可回溯、可验证:经过训练,M2-Plus的回答风格发生了根本性改变,在输出关键结论时,自动附上参考文献、指南出处等来源,这赋予了AI回答更高的可解释性与可信赖度。


幻觉水平最低,DeepSeek降低3

这种“循证驱动”的生成逻辑,M2 Plus几乎杜绝了无中生有的内容。

在多场景评测中,其综合幻觉率在所有大模型当中最低,相较Deepseek R1最新版降低3倍,显著领先OpenEvidence

不仅如此,在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,达到了与人类资深临床专家同等的可信度。

301医院的姜医生提问,“目前公认最有效的基因治疗药物靶向足细胞递送方案有哪些?”

很多通用大模型回答这个问题时都产生了明显幻觉,而M2 Plus的回答不仅查到了全球最新研究成果,还能按纳米系统/ AAV病毒载体等维度分类

姜医生评价道:“引用文献非常具有专业性、且信息源紧贴顶刊ERA等最新进展,对足细胞基因治疗这么前沿的方向,能帮我快速了解国际热点技术路线,少走弯路。”

北京天坛医院的熊医生,在研究目前PACAP在偏头痛中的研究进展如何时发现,头痛相关的研究越来越多,想找到真正有价值的文献并不容易,多数大模型给出的答案都因幻觉问题而不可用。

他试用时发现,百小应“能梳理全球PACAP偏头痛研究,从机制到III期临床试验自动串联证据链,不仅回答问题,更让医生站在未来看科研进展。



多国医学考试断崖领先,远超人类医生

美国执业医师资格考试(USMLE)是评估临床知识和推理能力的黄金标准,即便是经验丰富的临床专家,要突破90分也极具挑战。

在此项考试中,M2-Plus取得了惊人的97分,不仅远超人类考生平均水平,更与GPT-5的成绩持平,稳居全球第一梯队,展示了其世界级的临床问题解决能力。

中国执业医师资格考试(NMLE及格线为360分,对于广大医学生而言,能考到450分以上已是高分,超过500分则被视为“学神”级别。

M2 Plus则取得了568分的“碾压级”成绩,在所有公开测试的主流大模型中位列第一,充分证明其对中国临床指南和医疗实践的掌握已炉火纯青。

如果说执医考是“从业门槛”,那么中国硕士研究生招生考试临床医学综合能力(西医)则是顶尖医学生竞争的“华山论剑”。该考试不仅知识面广,且题目设计极为复杂,对临床思维要求高。

通常,能考到280分以上的考生,都是超过协和、北医等顶尖学府的头部学霸。M2 Plus在此项考试中取得了282分。

同时,在日本、英国、澳大利亚等国高级医师职称晋升考试中,M2 Plus的准备率达到85%以上,远超各国及格线。

这些压倒性的成绩充分说明,M2 Plus在复杂医学知识运用上的能力,已经超越了人类医生水准。


百川按下“加速键”,助推医疗AI迈入可信可用阶段

在AI重塑医疗的浪潮中,百川智能怀普惠之志,为行业开放顶尖模型能力,切实推动智慧医疗的落地。

接入M2 Plus的百小应已在各大手机应用商店更新,打造"医生版ChatGPT"。为方便电脑端使用,网页版(ying.ai)也同步上线。


医生可以通过它快速查阅循证指南和文献,患者能够深入理解疾病和治疗方案,公众则可获取权威、可信、可追溯的健康知识。

尤其是,当前患者用DeepSeek自诊和带着DeepSeek就医的现象越来越多。通过百小应,医生有了面对通用模型幻觉挑战的“专属武器”。

此外,M2 Plus也将以API形式面向医疗AI开发者、科研机构和行业合作伙伴全面开放。

通过标准化接口,开发者和医疗机构可以快速构建出专属的AI医生或智能辅助决策系统,并结合自身数据资源实现差异化创新。

这一能力可灵活集成至医院信息系统、科研工具、数字医疗产品与健康服务平台,应用于医院流程优化、专科辅助诊断、个性化健康管理等多种场景。

通过开源Baichuan-2、发布Baichuan-2 plus、百小应,开放API,百川致力于持续提升AI医疗在真实临床场景的可用性,推动大模型在严肃医疗场景进入落地可用新阶段。

归根到底,百川智能所做的,是前沿的AI技术真正服务于医生,也服务于每一个普通人。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯多地大规模招募预备役人员,以保护关键设施

俄罗斯多地大规模招募预备役人员,以保护关键设施

碳基生物关怀组织
2025-11-11 22:03:57
欲哭无泪!跌到脚踝了,南京一楼盘从9万跌到2万,学区房不吃香了

欲哭无泪!跌到脚踝了,南京一楼盘从9万跌到2万,学区房不吃香了

火山诗话
2025-11-10 08:39:37
知名小火锅北京门店全关,曾被评为“北京神店”!前高管称收到催债电话

知名小火锅北京门店全关,曾被评为“北京神店”!前高管称收到催债电话

北京商报
2025-11-10 21:31:03
太炸裂!又冒出1人!长沙医生事件,网传是汤医生拍的视频

太炸裂!又冒出1人!长沙医生事件,网传是汤医生拍的视频

小李睡不醒了
2025-11-11 11:54:30
83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

温情邮局
2025-11-11 10:58:54
“跳梁小丑”李玉刚跌下神坛,不再被大家宽容,梅葆玖:永不原谅

“跳梁小丑”李玉刚跌下神坛,不再被大家宽容,梅葆玖:永不原谅

诗意世界
2025-08-13 16:24:00
华中农业28岁博士摘橘子,掉入水中溺亡,老父亲在河边烧纸悼念

华中农业28岁博士摘橘子,掉入水中溺亡,老父亲在河边烧纸悼念

魔都姐姐杂谈
2025-11-11 07:14:31
高领白色无袖配粉色瑜伽裤,自带清新滤镜,甜美活力风尽显时尚感

高领白色无袖配粉色瑜伽裤,自带清新滤镜,甜美活力风尽显时尚感

小乔古装汉服
2025-11-10 14:28:19
美媒彻底懵了:一张40%电费单,撕开美国锁死7nm芯片的真相!AI决战我们早已换道超车,赢在第二起跑线

美媒彻底懵了:一张40%电费单,撕开美国锁死7nm芯片的真相!AI决战我们早已换道超车,赢在第二起跑线

打破砂锅看本质
2025-11-10 12:04:32
中央巡视组进驻后被查的张柏森被决定逮捕

中央巡视组进驻后被查的张柏森被决定逮捕

正义网新闻
2025-11-11 16:11:02
什么时间血液最黏稠?两个时间多喝水,或有助稀释血液,疏通血管

什么时间血液最黏稠?两个时间多喝水,或有助稀释血液,疏通血管

医学原创故事会
2025-11-10 23:50:03
悲情!高诗岩空砍22分燃尽自己,沈梓捷15分14篮板成广东头号功臣

悲情!高诗岩空砍22分燃尽自己,沈梓捷15分14篮板成广东头号功臣

体坛野秀才
2025-11-11 21:18:43
震惊!航班登机口一瞒报孕期孕妇坦言已超36周,出问题要航司负责

震惊!航班登机口一瞒报孕期孕妇坦言已超36周,出问题要航司负责

火山诗话
2025-11-11 06:06:29
全运男篮战报:北京男篮74-71险胜上海男篮,王少杰25+6+2

全运男篮战报:北京男篮74-71险胜上海男篮,王少杰25+6+2

懂球帝
2025-11-11 15:23:06
不装了?面对解放军武力夺台,郑丽文语出惊人,喊出“武力保台”

不装了?面对解放军武力夺台,郑丽文语出惊人,喊出“武力保台”

赵钇是个热血青年
2025-11-05 17:29:23
男子暴打93岁母亲,官方通报原因,女儿曝更多内情,母亲经常被打

男子暴打93岁母亲,官方通报原因,女儿曝更多内情,母亲经常被打

奇思妙想草叶君
2025-11-11 21:04:51
湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

娜乌和西卡
2025-11-10 13:50:19
中国首善李春平离世,13年软饭换268亿遗产,大39岁女星身份曝光

中国首善李春平离世,13年软饭换268亿遗产,大39岁女星身份曝光

壹月情感
2025-10-31 15:08:21
阿伦42+10三分生涯新高!太阳大胜送鹈鹕10战8败西部垫底

阿伦42+10三分生涯新高!太阳大胜送鹈鹕10战8败西部垫底

醉卧浮生
2025-11-11 12:25:42
同学聚会每人出9800元,我没去,隔天警察上门:昨夜你同学出事了

同学聚会每人出9800元,我没去,隔天警察上门:昨夜你同学出事了

红豆讲堂
2025-11-05 16:50:03
2025-11-11 23:23:00
智药局 incentive-icons
智药局
我们更懂药物创新
888文章数 169关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

游戏
艺术
房产
公开课
军事航空

陶德:《星空》是我做过最好的游戏之一 枪械手感很赞

艺术要闻

田英章日常书信曝光,字迹开阔惊艳人心!

房产要闻

海口湾,1300亩巨无霸地块登场!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版