
在医学人工智能快速发展的当下,GPT-4、Med-PaLM2等大型语言模型在医学问答与考试中不断刷新纪录,展现出接近人类的认知能力。然而,单一模型固有的“黑箱”局限、缺乏多视角校验的推理机制,已成为其在真实、高风险临床场景中安全落地的关键瓶颈。如何让AI像多学科专家会诊一样,实现交叉质证、协同决策,是医疗AI走向可信、可靠必须跨越的科学鸿沟。
近日,中国医学科学院基础医学研究所龙尔平团队与北京大学基础医学院万沛星团队在Cell Reports Medicine期刊在线发表了题为Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models的研究论文,提出“模型对抗与协作”(MCC)框架,推动医疗AI从“单点智能”迈向“协同推理”的范式跃迁,通过构建可辩论、可追溯、动态协作的模型圆桌,从根本上促进了医疗AI向可靠、可解释、可协作的下一代形态演进。
![]()
MCC框架:模型对抗与协作
团队提出“模型对抗与协作” (Model Confrontation and Collaboration, MCC) 框架,将不同的大型语言模型组合成一个动态的、具备“推理—行动—反思”的圆桌式智囊团。MCC引入共享的“上下文工作区” (shared context) :将问题、已生成的候选答案、关键证据点与各模型的立场变化以结构化方式写入同一上下文记忆,并在每一轮辩论中保持对完整对话历史的可见性,从而确保批判与修正始终基于同一事实与语境。其核心流程可概括为:第一步,独立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1在同一问题上并行生成答案与关键论证点;随后引入分歧门控(Gate):系统/主持LLM对候选答案进行一致性检测,仅在出现分歧时激活辩论,从源头控制额外计算开销;第二步,对抗辩论(Debate as Action):进入多轮消息传递,每轮中模型执行“质疑—举证—反驳—修正”四类动作,围绕共享上下文中的证据缺口与推理断点开展交叉验证:定位论证中的跳步、证据不足或概念混淆,进一步补充指南、机制与鉴别诊断依据;随后进行自我反思,审计自身推理链与关键假设,并以可解释方式更新立场与结论。第三步,共识优化(Consensus Optimization):每轮结束后进行共识判定与早停;若三轮内仍不收敛,则以多数投票作为保底输出策略。与传统“静态集成/硬投票”不同,MCC将多模型互补性显式转化为“基于上下文的迭代纠错”协作过程,使异构模型在知识覆盖与推理偏好上的差异得以用于错误定位与证据对齐,从而显著提升难题场景下的收敛质量与输出稳定性。
![]()
MCC 在 MedQA 基准上的表现与决策动态
多项医学基准测试获得SOTA表现
MCC在多项代表性医学基准上展现出一致而稳定的性能:在MedQA上取得92.6%(±0.3)的平均准确率,并在多次独立运行中显示出稳定性。PubMedQA达到84.8%;在MMLU医学子集中覆盖遗传学、解剖学等多个科目,整体维持90%+,并在其中五个科目获得SOTA表现。更重要的是,MCC不仅在“常规题”上提升准确率,也在“更难、更接近真实风险”的评测中保持稳健:在MedXpertQA上准确率约40%,在该基准的对比评测中表现位居前列。在MetaMedQA中能够识别不确定或无明确标准答案的情形并给出“未知/需补充信息”的保守处理,体现出更强的元认知边界管理能力。此外,在RABBITS鲁棒性测试中,面对药物商品名与学名的混用与替换,MCC性能几乎不受影响,显示其对临床语言变体具有更强的泛化与稳定性。
长文本问答:综合回答水平更高
在开放式长问答任务中,团队使用MultiMedQA基准并邀请医生与非专业评审开展双视角盲评,以评估模型在真实医疗咨询中的综合表达与建议能力。结果显示,MCC在所有维度上均优于GPT-o1、Qwen、DeepSeek-R1以及Med-PaLM2:医生评审的12项指标中,MCC在病情要点提取、推理正确性与偏差控制等关键维度提升8–12个百分点且错误内容率更低;在另一组9项综合质量指标中,其缺陷率下降3%–9%,一致性与知识覆盖更为稳定。进一步在HealthBench上,MCC在与临床专家共识对齐的任务中取得92.1的综合评分,并在更高难度的HealthBench Hard中保持领先,体现出在复杂场景下的稳健性与安全性优势。
![]()
开放式医学问答输出的多维度评估
模拟诊断对话:对话版“诊疗小组”
为评估MCC在交互式诊疗场景中的能力,研究团队构建了类医学院OSCE的模拟病例对话测试:模型作为医生与模拟患者实时交互,在完成病史采集后给出诊断与鉴别诊断。结果显示,MCC在病史采集阶段平均可捕获80%以上的关键患者信息点;在16个病例中,有14例的信息覆盖率超过80%,而单一模型在同等标准下难以稳定达到该水平。与此同时,MCC提出的问题与患者主诉的相关性更高(多数病例>80%),提示其问诊路径更聚焦关键线索、减少遗漏。在诊断结论阶段,在15个可判定病例中,MCC的首选诊断正确率达到80%(12/15),并在鉴别诊断的完整性上呈现优势。典型案例是一位56岁女性出现多饮多尿、乏力与体重下降,既往以2型糖尿病处理但血糖控制不佳。辩论过程中,模型间交叉质询促使补问胰腺相关病史与上腹痛向背部放射等线索,进而将诊断从“糖尿病本身”推进至“胰腺肿瘤相关继发性糖尿病”的更深层解释,体现出“圆桌式会诊”对关键线索召回与深入诊断推理的促进作用。
![]()
MCC在诊断对话任务中的表现
展望与意义
本研究表明,多模型对抗与协作可作为医疗推理能力增强的一种通用范式:在不引入额外任务训练与外部知识库的条件下,借助结构化辩论将不同模型的知识覆盖与推理偏好差异显式用于交叉核验、证据对齐与错误纠偏,从而提高复杂问题上的推理收敛质量与输出稳定性。需要强调的是,MCC并非替代医生,而是提供多角度论据与可追溯的辩论日志,帮助临床人员降低漏诊误判风险并提升决策透明度,同时亦具备教学示范意义。面向临床应用,仍需进一步推进与电子病历及检查结果的端到端集成、对不确定/冲突信息的处理策略,以及隐私合规与计算成本控制,使其能够以安全、高效的方式融入真实工作流。
中国医学科学院基础医学研究所博士生孙欣提和洪奇阳为该论文共同第一作者,龙尔平研究员、万沛星研究员(北京大学基础医学院)为共同通讯作者。
原文链接:https://www.sciencedirect.com/science/article/pii/S2666379125006202
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.