6月22日消息,百川智能与清华大学近日联合发布医疗增强大模型 Baichuan-M4,重点围绕"信息不完整"这一临床痛点,强化主动问诊追问、长程病程记忆、循证溯源与任务调度四项能力。
![]()
据官方披露,在 OpenAI 提出的医疗评测基准 HealthBench上,M4综合得分68.6(Hard 子集49.7,Professional 子集55.1);事实性幻觉率3.3%。据介绍,通用大模型擅长"拿到完整病例后答题",但现实中患者叙述零散,M4的改动主要落在主动追问这一环节。
问诊方面,M4会围绕症状性质、诱因、危险信号等多轮追问,优先排查危急情况。百川联合150余位一线医生,参照 OSCE 思路构建动态问诊评测 SCAN-bench,M4初诊与复诊得分分别为79.0与74.7。
记忆方面,M4推出"全病程记忆",打通历史病历、多轮问诊、化验趋势与用药反馈,长上下文临床记忆评测得分86.9,较上一代 M3提升21.1分。
循证方面,M4采用"证据锚定",结论对应到原始论文或指南具体段落,内置标准化临床路径超1000个、覆盖200余种疾病;自建循证评测 Baichuan-EBM 上引用精度90.0%。
此外,百川面向医疗场景构建调度层 Baichuan-Harness,由模型自主决定追问/检索/调病史时机,并对工具调用施加安全约束。官方将 M4定位为可完成连续诊疗动作的医疗智能体雏形。(袁雪丽)
