作者|子川
来源|AI先锋官
大模型竞争越来越激烈,今天你屠个榜,明天我拿个全球第一 !
但似乎没有一款模型在医疗领域“拍胸脯”!
毕竟,幻觉问题至今无法解决,满嘴跑火车的情况对医疗而言,实在“致命”。
昨天,百川智能发布了循证增强医疗大模型Baichuan-M2 Plus。
评测显示,M2 Plus 的医疗幻觉率较通用大模型显著降低,相比 DeepSeek 低约 3 倍,甚至优于美国最火医疗产品 OpenEvidence,可信度比肩资深临床医生水准。
先看M2 Plus的成绩单——
在多国医学知识考试中,得分优于其他顶尖模型
![]()
比如,在美国执业医师资格考试(USMLE)中,M2 Plus拿下了97分,和GPT-5打了个平手,稳居全球第一梯队。
在中国执业医师资格考试 (NMLE),及格线360分,能考到500分以上就是大家眼里的学神,而M2 Plus直接考了568分。
不仅如此,M2 Plus的幻觉率也大幅度降低!
![]()
在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,综合幻觉率在所有大模型当中最低。
相较 DeepSeek R1 最新版降低3倍,显著领先 OpenEvidence和GPT-5。
为什么模型的幻觉率有明显的下降?
百川给M2 Plus开了独门药方——首创“六源循证推理”(EAR)范式。
简单来说,就是三步走,给AI的嘴,上把锁。
M2 Plus做的第一件事,就是把网上那些鱼龙混杂的非专业信息全都屏蔽掉,只使用权威来源的医学证据。
在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系。
原始研究层:索引海量医学期刊论文 4000 余万篇,超过 PubMed 收录数量,涵盖基础与临床研究成果,是循证链条的起点;
证据综述层:整合系统评价和 Meta 分析等高等级证据,提供经过汇总的研究结论;
指南规范层:引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范;
实践知识层:包含临床病例报道、一线专家经验和诊疗技巧等实用知识,贴近医疗实践场景;
公共健康教育层:汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育;
监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果;
![]()
这六个源头像一个金字塔,从最底层的4000多万篇医学论文,到药监部门公告和真实世界的研究数据,一层比一层精炼。
原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。
这么一套组合拳下来,就保证了AI的知识库里全是干货,先是从源头上杜绝了胡说八道。
有了靠谱的知识库还不够,还得找得准。普通AI搜索就像大海捞针,而M2 Plus用的是一套叫PICO框架的思维模式。
它会像医生一样,把你的问题拆解成四个核心要素:人群(P)、干预(I)、对照(C)、结局(O)。
比如你问“老年人睡前用呼吸机(CPAP)能改善高血压吗?”
它会立刻抓住“老年人”、“呼吸机”、“高血压”这些关键点,然后去知识库里精准匹配最高质量的研究报告。
最关键的一步来了。为了防止AI在拿到证据后自由发挥。
百川给M2 Plus的训练机制加了道锁:奖励“引用”,惩罚“臆测”。
在M2 Plus的系统里,如果回答能准确引用权威指南或者文献,就会得高分;
一旦回答脱离了检索到的证据就会受到惩罚。
同时,它还内置了内置“证据评估器”,能自动评估证据的可信度,优先采用最高等级的证据。
最终的结果就是,M2 Plus的每一个关键回答,都会像写论文一样,清清楚楚地附上参考文献和来源,让你随时可以查证。
![]()
AI看病这事儿,看起来慢慢要靠谱了。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.