网易首页 > 网易号 > 正文 申请入驻

百川发布最强循证增强大模型M2 Plus,打造“医生版ChatGPT”

0
分享至

【TechWeb】10月22日消息,百川智能发布循证增强医疗大模型Baichuan-M2 Plus,同步升级配套应用百小应并开放API。这是百川自8月开源BAIchuan-M2以来的又一次重要动作。评测显示,M2 Plus的医疗幻觉率较通用大模型显著降低,相比DeepSeek低约3倍,优于美国最火医疗产品OpenEvidence,可信度比肩资深临床医生水准。

据介绍,百川M2 Plus首创六源循证推理(EAR)范式,打造“医生版ChatGPT”,让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛,不仅适合中国医疗环境,在美、日、英的医疗评测中均超过OpenEvidence,代表中国在世界大模型擂台上再下一城。

目前,接入M2 Plus的百小应已在各大手机应用商店更新,成为"医生版ChatGPT"。为方便电脑端使用,网页版(ying.ai)也同步上线。

Baichuan-M2 Plus也提供了标准化API接口,医院信息化部门、互联网医疗、大健康服务等各类泛医学机构,以及从事医疗AI行业的开发者,则可以通过API将循证推理接入服务场景,提升AI服务的医学专业性。

首创六源循证推理范式

循证医学(Evidence-Based Medicine, EBM)作为现代医学知识体系的核心范式,是确保医疗决策可信的关键。

通用大模型像一个“博学但不可靠”的专家,即便有搜索增强,也会因为知识来源混杂不符合循证医学范式。

百川不仅主动屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,还在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系:

• 原始研究层: 索引海量医学期刊论文4000余万篇,超过PubMed收录数量,涵盖基础与临床研究成果,是循证链条的起点;

• 证据综述层: 整合系统评价和Meta分析等高等级证据,提供经过汇总的研究结论;

• 指南规范层: 引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范;

• 实践知识层: 包含临床病例报道、一线专家经验和诊疗技巧等实用知识,贴近医疗实践场景;

• 公共健康教育层: 汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育;

• 监管与真实世界层: 涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果;



这个金字塔形的“六源”,是一层一层演化而来:原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。这让模型从“生成答案”走向“据实回答”,实现了从语言可信度到知识可信度的跃升。

传统的RAG检索往往追求“找得到”,而循证检索追求“找得准”。

M2 Plus采用PICO框架(人群Population、干预Intervention、对照Comparison、结局Outcome)思维,将查询转化为结构化医学问题,并在六源数据库中进行分层匹配。例如:当输入“老年OSA患者使用CPAP能否改善高血压?”时,系统优先在高等级证据(系统综述、RCT元分析)中搜索,并自动辨识研究质量、样本量、置信区间与结局指标。

这种方法克服了通用RAG的两大缺陷:一是缺乏医学语义理解(无法区分CPAP疗效与依从性分析);二是无法辨别文献可靠性(新闻与指南同权)。在此基础上,M2 Plus能够三步精准锁定“铁证”:

第一步,智能提问:自动将用户问题拆解成多个专业的PICO查询,进行“地毯式”证据搜索,兼顾精度与广度。

第二步,精准锁定:通过自研的Medical Contextual Retrieval技术,完整保留文献的临床因果链,避免信息割裂。

第三步,证据排序:内置“审稿人”模型,自动评估证据等级(如RCT、Meta分析),将最可信、最相关的“铁证”优先呈现。

如果说“六源循证”解决了医疗AI知识从哪来的问题,“PICO智能检索”解决了如何快速找到正确证据的问题,那么最关键的一步是如何确保AI在手握证据时,不会“自由发挥”、脱离事实胡乱回答。

百川智能在M2 Plus中引入“循证增强训练”机制,为模型的回答过程“上了一道锁”,从根本上改变了其生成逻辑,让它学会“引用,而非臆测”。

首先,在训练中奖励“引用”,惩罚“臆测”,准确引用权威来源(如指南、文献)时会获得高分,一旦回答脱离了检索到的证据就会受到惩罚;

其次,内置“证据评估器”,模型被训练得能够自动评估检索到的证据质量,优先采纳高可信度的信息(如RCT、Meta分析),并将其无缝嵌入到推理链中;

第三,句句有据,可回溯、可验证:经过训练,M2-Plus的回答风格发生了根本性改变,在输出关键结论时,会自动附上参考文献、指南出处等来源,这赋予了AI回答更高的可解释性与可信赖度。

幻觉最低,达到与人类资深临床专家同等可信度

这种“循证驱动”的生成逻辑,让M2 Plus几乎杜绝了无中生有的内容。在多场景评测中,其综合幻觉率在所有大模型当中最低,相较DeepSeek R1最新版降低3倍,显著领先OpenEvidence。不仅如此,在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,达到了与人类资深临床专家同等的可信度。


美国执业医师资格考试(USMLE)是评估临床知识和推理能力的黄金标准,在此项考试中,M2-Plus取得了惊人的97分,不仅远超人类考生平均水平,更与GPT-5的成绩持平,稳居全球第一梯队。


中国执业医师资格考试(NMLE)及格线为360分,M2 Plus取得了568分的“碾压级”成绩,在所有公开测试的主流大模型中位列第一。

中国硕士研究生招生考试临床医学综合能力(西医)考试中,M2 Plus在此项考试中取得了282分。通常,能考到280分以上的考生,都是协和、北医等顶尖学府的头部学霸。

另外,在日本、英国、澳大利亚等国高级医师职称晋升考试中,M2 Plus的准确率85%以上,远超各国及格线。

百川智能表示,通过开源Baichuan-M2、发布Baichuan-M2 plus、百小应,开放API,百川致力于持续提升AI医疗在真实临床场景的可用性,推动大模型在严肃医疗场景进入落地可用新阶段。(果青)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被告律师称另有隐情:郭某或遭自己人误伤丧命,网友笑喷

被告律师称另有隐情:郭某或遭自己人误伤丧命,网友笑喷

热点菌本君
2025-11-14 14:04:47
这里正在发生真正的种族灭绝,他们却开启了休假模式

这里正在发生真正的种族灭绝,他们却开启了休假模式

以色列计划Pro
2025-11-13 21:42:59
吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

小虎新车推荐员
2025-11-14 14:54:30
柬埔寨“太子集团”首度发声:否认从事非法活动,辩称12.7万枚比特币4年多前被黑客窃取

柬埔寨“太子集团”首度发声:否认从事非法活动,辩称12.7万枚比特币4年多前被黑客窃取

红星新闻
2025-11-13 19:47:43
28年前直播香港回归4位主持:2人去世1人自甘堕落,仅她笑到最后

28年前直播香港回归4位主持:2人去世1人自甘堕落,仅她笑到最后

揽星河的笔记
2025-11-14 13:07:48
“天上人间”的瓜!

“天上人间”的瓜!

书中自有颜如玉
2025-11-14 07:57:34
祝贺上海海港:击败北京国安,锁定中超顶级翼卫!孙祥再次立大功

祝贺上海海港:击败北京国安,锁定中超顶级翼卫!孙祥再次立大功

国足风云
2025-11-14 14:00:28
82岁妓女离世前捐出60万,离世后无人送葬,邻居打开遗物后傻眼了

82岁妓女离世前捐出60万,离世后无人送葬,邻居打开遗物后傻眼了

温情邮局
2025-10-21 11:39:29
利物浦1.36亿打水漂?新援灾难表现带到世预赛!2失良机+球荒15场

利物浦1.36亿打水漂?新援灾难表现带到世预赛!2失良机+球荒15场

我爱英超
2025-11-15 06:53:18
反超,樊振东赢了!

反超,樊振东赢了!

鲁中晨报
2025-11-14 14:27:02
四个省级政府领导班子调整

四个省级政府领导班子调整

上海法治声音
2025-11-13 14:26:04
91年帮女领导扛米面上楼,她递手帕让我擦汗,低声说晚上给你加餐

91年帮女领导扛米面上楼,她递手帕让我擦汗,低声说晚上给你加餐

晓艾故事汇
2025-11-13 08:28:12
微胖女生的穿搭秘诀,白色短款上衣配卡其色瑜伽裤,随性又自在

微胖女生的穿搭秘诀,白色短款上衣配卡其色瑜伽裤,随性又自在

小乔古装汉服
2025-11-13 18:17:03
摩根声援C罗:反抗别人拉他却染红 晒梅西5秒3次肘击视频质疑双标

摩根声援C罗:反抗别人拉他却染红 晒梅西5秒3次肘击视频质疑双标

我爱英超
2025-11-14 22:37:50
400万亿什么时候来?等待我们的是什么?

400万亿什么时候来?等待我们的是什么?

混知房产
2025-11-13 20:41:06
最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

云鹏叙事
2025-11-14 10:26:55
巧立名目发布汽车销量榜单,“易车榜”等账号被通报处置

巧立名目发布汽车销量榜单,“易车榜”等账号被通报处置

界面新闻
2025-11-12 13:00:40
“5G之战爆发”,27国不许用华为,中方掀桌,为何先拿德国开刀?

“5G之战爆发”,27国不许用华为,中方掀桌,为何先拿德国开刀?

军机Talk
2025-11-14 10:51:48
中小学和幼儿园停止室外课程及户外活动!刚刚,南京启动预警

中小学和幼儿园停止室外课程及户外活动!刚刚,南京启动预警

鲁中晨报
2025-11-14 14:23:01
葡萄牙足协前主席:如果我还在任,我绝不会选马丁内斯当教练

葡萄牙足协前主席:如果我还在任,我绝不会选马丁内斯当教练

懂球帝
2025-11-15 05:32:06
2025-11-15 07:12:49
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
14018文章数 43034关注度
往期回顾 全部

健康要闻

金振口服液助力科学应对呼吸道疾病

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

科技要闻

京东“失去的五年”后,找到新增长了吗?

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

房产
家居
教育
旅游
手机

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

家居要闻

现代简逸 寻找生活的光

教育要闻

TTS新传论文带读:“感性是一个媒介”(来积累答题语料了)

旅游要闻

文旅消费转型!景区不收割,真诚才是必杀技

手机要闻

双11霸榜后再爆!iPhone17激活破1000万,Pro Max凭新造型占近4成

无障碍浏览 进入关怀版