网易首页 > 网易号 > 正文 申请入驻

百川发布M2 Plus,医疗幻觉率比DeepSeek低3倍!

0
分享至

作者|子川

来源|AI先锋官

大模型竞争越来越激烈,今天你屠个榜,明天我拿个全球第一 !

但似乎没有一款模型在医疗领域“拍胸脯”!

毕竟,幻觉问题至今无法解决,满嘴跑火车的情况对医疗而言,实在“致命”。

昨天,百川智能发布了循证增强医疗大模型Baichuan-M2 Plus。

评测显示,M2 Plus 的医疗幻觉率较通用大模型显著降低,相比 DeepSeek 低约 3 倍,甚至优于美国最火医疗产品 OpenEvidence,可信度比肩资深临床医生水准。

先看M2 Plus的成绩单——

在多国医学知识考试中,得分优于其他顶尖模型


比如,在美国执业医师资格考试(USMLE)中,M2 Plus拿下了97分,和GPT-5打了个平手,稳居全球第一梯队。

在中国执业医师资格考试 (NMLE),及格线360分,能考到500分以上就是大家眼里的学神,而M2 Plus直接考了568分。

不仅如此,M2 Plus的幻觉率也大幅度降低!


在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,综合幻觉率在所有大模型当中最低。

相较 DeepSeek R1 最新版降低3倍,显著领先 OpenEvidence和GPT-5。

为什么模型的幻觉率有明显的下降?

百川给M2 Plus开了独门药方——首创“六源循证推理”(EAR范式

简单来说,就是三步走,给AI的嘴,上把锁。

M2 Plus做的第一件事,就是把网上那些鱼龙混杂的非专业信息全都屏蔽掉,只使用权威来源的医学证据。

在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系。

  • 原始研究层:索引海量医学期刊论文 4000 余万篇,超过 PubMed 收录数量,涵盖基础与临床研究成果,是循证链条的起点;

  • 证据综述层:整合系统评价和 Meta 分析等高等级证据,提供经过汇总的研究结论;

  • 指南规范层:引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范;

  • 实践知识层:包含临床病例报道、一线专家经验和诊疗技巧等实用知识,贴近医疗实践场景;

  • 公共健康教育层:汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育;

  • 监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果;


这六个源头像一个金字塔,从最底层的4000多万篇医学论文,到药监部门公告和真实世界的研究数据,一层比一层精炼。

原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。

这么一套组合拳下来,就保证了AI的知识库里全是干货,先是从源头上杜绝了胡说八道。

有了靠谱的知识库还不够,还得找得准。普通AI搜索就像大海捞针,而M2 Plus用的是一套叫PICO框架的思维模式。

它会像医生一样,把你的问题拆解成四个核心要素:人群(P)、干预(I)、对照(C)、结局(O)

比如你问“老年人睡前用呼吸机(CPAP)能改善高血压吗?”

它会立刻抓住“老年人”、“呼吸机”、“高血压”这些关键点,然后去知识库里精准匹配最高质量的研究报告。

最关键的一步来了。为了防止AI在拿到证据后自由发挥。

百川给M2 Plus的训练机制加了道锁:奖励“引用”,惩罚“臆测”

在M2 Plus的系统里,如果回答能准确引用权威指南或者文献,就会得高分;

一旦回答脱离了检索到的证据就会受到惩罚。

同时,它还内置了内置“证据评估器”,能自动评估证据的可信度,优先采用最高等级的证据。

最终的结果就是,M2 Plus的每一个关键回答,都会像写论文一样,清清楚楚地附上参考文献和来源,让你随时可以查证。


AI看病这事儿,看起来慢慢要靠谱了。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美印负债金额差距断崖:美国38万亿,印度2.18万亿,中国多少?

中美印负债金额差距断崖:美国38万亿,印度2.18万亿,中国多少?

凉羽亭
2025-11-04 05:43:40
悲剧发生了!广州一16岁女孩停经2月,系边缘性行为致“葡萄胎”

悲剧发生了!广州一16岁女孩停经2月,系边缘性行为致“葡萄胎”

火山诗话
2025-11-03 18:53:05
天涯神贴:普通人家孩子的最好出路

天涯神贴:普通人家孩子的最好出路

前沿天地
2025-11-03 07:42:49
久功不克俄罗斯连撤两员大将!西尔斯基:红军城守住了

久功不克俄罗斯连撤两员大将!西尔斯基:红军城守住了

史政先锋
2025-11-03 11:54:13
保时捷压根没把小米当回事儿

保时捷压根没把小米当回事儿

汽车K线
2025-11-01 17:06:12
杨瀚森继续被摁在替补席,这样还不如不回来!

杨瀚森继续被摁在替补席,这样还不如不回来!

十点街球体育
2025-11-04 15:58:33
沉默3天后,美方发出威胁:如果中国敢出尔反尔,将动用最大杠杆

沉默3天后,美方发出威胁:如果中国敢出尔反尔,将动用最大杠杆

芳芳历史烩
2025-11-04 15:20:10
中日韩全军覆没,固态电池布局了10多年,为什么还没有实现量产?

中日韩全军覆没,固态电池布局了10多年,为什么还没有实现量产?

削桐作琴
2025-10-28 13:10:37
霜降后去菜市场,聪明人专买这3种菜,农残少营养便宜,别不懂吃

霜降后去菜市场,聪明人专买这3种菜,农残少营养便宜,别不懂吃

江江食研社
2025-11-03 14:30:03
赖清德对大陆摊牌,和平统一绝无可能,解放军开始为收台做准备了

赖清德对大陆摊牌,和平统一绝无可能,解放军开始为收台做准备了

成视Talk
2025-11-04 10:33:55
少妇玉米地被奸杀,强奸部位及其变态

少妇玉米地被奸杀,强奸部位及其变态

史记趣闻
2025-10-31 20:25:03
1965年,毛主席劝蒋介石回大陆,老蒋提出6个要求,毛主席:同意

1965年,毛主席劝蒋介石回大陆,老蒋提出6个要求,毛主席:同意

诺言卿史录
2025-07-17 14:23:29
潜伏在我国高层的四大间谍,被安插在军政两界,导致我国损失惨重

潜伏在我国高层的四大间谍,被安插在军政两界,导致我国损失惨重

阅识
2025-10-28 15:23:15
11月3日俄乌最新:反包围

11月3日俄乌最新:反包围

西楼饮月
2025-11-03 19:31:32
随着湖人战胜开拓者,快船惜败热火,西部最新排行:火箭升至第5

随着湖人战胜开拓者,快船惜败热火,西部最新排行:火箭升至第5

小火箭爱体育
2025-11-04 14:16:20
乌军投降了,红军城大鱼落网,俄凌晨击落6架敌机,基辅封锁消息

乌军投降了,红军城大鱼落网,俄凌晨击落6架敌机,基辅封锁消息

影孖看世界
2025-11-02 23:36:09
起底千亿杀猪盘大亨:曾投拍反诈电影,给艺人女友每月千万零花

起底千亿杀猪盘大亨:曾投拍反诈电影,给艺人女友每月千万零花

文娱春秋Plus
2025-11-03 09:26:25
就在今天!11月4日晚,乒乓球传来张本智和、伊藤美诚新消息

就在今天!11月4日晚,乒乓球传来张本智和、伊藤美诚新消息

林子说事
2025-11-04 13:59:03
女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

思絮
2025-10-24 10:42:12
悍将骨折!开拓者无奈官宣,四人伤停,杨瀚森迎来机会,渴望逆袭

悍将骨折!开拓者无奈官宣,四人伤停,杨瀚森迎来机会,渴望逆袭

阿泰希特
2025-11-03 14:27:59
2025-11-04 16:16:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
373文章数 22关注度
往期回顾 全部

健康要闻

超声探头会加重受伤情况吗?

头条要闻

男子为骗巨额保金推妻坠海已被执行死刑 检方披露细节

头条要闻

男子为骗巨额保金推妻坠海已被执行死刑 检方披露细节

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

《繁花》录音事件完整版长达43分钟

财经要闻

作价40亿美元!星巴克中国易主

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

汽车要闻

上汽旗舰智己LS9首发评测 可能是最好开的9系SUV

态度原创

旅游
房产
手机
公开课
军事航空

旅游要闻

走!去荣成看大天鹅 共赴一场浪漫之约

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

手机要闻

vivo Y500 Pro定档11月10日:同档首发2亿HP5主摄、7000mAh半固态电池

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄最新核潜艇下水 可搭载“末日鱼雷”

无障碍浏览 进入关怀版