网易首页 > 网易号 > 正文 申请入驻

Cell Rep Med丨龙尔平/万沛星团队发布大模型“圆桌会议”框架MCC,大幅提升医疗推理能力

0
分享至


在医学人工智能快速发展的当下,GPT-4、Med-PaLM2等大型语言模型在医学问答与考试中不断刷新纪录,展现出接近人类的认知能力。然而,单一模型固有的“黑箱”局限、缺乏多视角校验的推理机制,已成为其在真实、高风险临床场景中安全落地的关键瓶颈。如何让AI像多学科专家会诊一样,实现交叉质证、协同决策,是医疗AI走向可信、可靠必须跨越的科学鸿沟。

近日,中国医学科学院基础医学研究所龙尔平团队与北京大学基础医学院万沛星团队在Cell Reports Medicine期刊在线发表了题为Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models的研究论文,提出“模型对抗与协作”(MCC)框架,推动医疗AI从“单点智能”迈向“协同推理”的范式跃迁,通过构建可辩论、可追溯、动态协作的模型圆桌,从根本上促进了医疗AI向可靠、可解释、可协作的下一代形态演进。


MCC框架:模型对抗与协作

团队提出“模型对抗与协作” (Model Confrontation and Collaboration, MCC) 框架,将不同的大型语言模型组合成一个动态的、具备“推理—行动—反思”的圆桌式智囊团。MCC引入共享的“上下文工作区” (shared context) :将问题、已生成的候选答案、关键证据点与各模型的立场变化以结构化方式写入同一上下文记忆,并在每一轮辩论中保持对完整对话历史的可见性,从而确保批判与修正始终基于同一事实与语境。其核心流程可概括为:第一步,独立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1在同一问题上并行生成答案与关键论证点;随后引入分歧门控(Gate):系统/主持LLM对候选答案进行一致性检测,仅在出现分歧时激活辩论,从源头控制额外计算开销;第二步,对抗辩论(Debate as Action):进入多轮消息传递,每轮中模型执行“质疑—举证—反驳—修正”四类动作,围绕共享上下文中的证据缺口与推理断点开展交叉验证:定位论证中的跳步、证据不足或概念混淆,进一步补充指南、机制与鉴别诊断依据;随后进行自我反思,审计自身推理链与关键假设,并以可解释方式更新立场与结论。第三步,共识优化(Consensus Optimization):每轮结束后进行共识判定与早停;若三轮内仍不收敛,则以多数投票作为保底输出策略。与传统“静态集成/硬投票”不同,MCC将多模型互补性显式转化为“基于上下文的迭代纠错”协作过程,使异构模型在知识覆盖与推理偏好上的差异得以用于错误定位与证据对齐,从而显著提升难题场景下的收敛质量与输出稳定性。


MCC 在 MedQA 基准上的表现与决策动态

多项医学基准测试获得SOTA表现

MCC在多项代表性医学基准上展现出一致而稳定的性能:在MedQA上取得92.6%(±0.3)的平均准确率,并在多次独立运行中显示出稳定性。PubMedQA达到84.8%;在MMLU医学子集中覆盖遗传学、解剖学等多个科目,整体维持90%+,并在其中五个科目获得SOTA表现。更重要的是,MCC不仅在“常规题”上提升准确率,也在“更难、更接近真实风险”的评测中保持稳健:在MedXpertQA上准确率约40%,在该基准的对比评测中表现位居前列。在MetaMedQA中能够识别不确定或无明确标准答案的情形并给出“未知/需补充信息”的保守处理,体现出更强的元认知边界管理能力。此外,在RABBITS鲁棒性测试中,面对药物商品名与学名的混用与替换,MCC性能几乎不受影响,显示其对临床语言变体具有更强的泛化与稳定性。

长文本问答:综合回答水平更高

在开放式长问答任务中,团队使用MultiMedQA基准并邀请医生与非专业评审开展双视角盲评,以评估模型在真实医疗咨询中的综合表达与建议能力。结果显示,MCC在所有维度上均优于GPT-o1、Qwen、DeepSeek-R1以及Med-PaLM2:医生评审的12项指标中,MCC在病情要点提取、推理正确性与偏差控制等关键维度提升8–12个百分点且错误内容率更低;在另一组9项综合质量指标中,其缺陷率下降3%–9%,一致性与知识覆盖更为稳定。进一步在HealthBench上,MCC在与临床专家共识对齐的任务中取得92.1的综合评分,并在更高难度的HealthBench Hard中保持领先,体现出在复杂场景下的稳健性与安全性优势。


开放式医学问答输出的多维度评估

模拟诊断对话:对话版“诊疗小组”

为评估MCC在交互式诊疗场景中的能力,研究团队构建了类医学院OSCE的模拟病例对话测试:模型作为医生与模拟患者实时交互,在完成病史采集后给出诊断与鉴别诊断。结果显示,MCC在病史采集阶段平均可捕获80%以上的关键患者信息点;在16个病例中,有14例的信息覆盖率超过80%,而单一模型在同等标准下难以稳定达到该水平。与此同时,MCC提出的问题与患者主诉的相关性更高(多数病例>80%),提示其问诊路径更聚焦关键线索、减少遗漏。在诊断结论阶段,在15个可判定病例中,MCC的首选诊断正确率达到80%(12/15),并在鉴别诊断的完整性上呈现优势。典型案例是一位56岁女性出现多饮多尿、乏力与体重下降,既往以2型糖尿病处理但血糖控制不佳。辩论过程中,模型间交叉质询促使补问胰腺相关病史与上腹痛向背部放射等线索,进而将诊断从“糖尿病本身”推进至“胰腺肿瘤相关继发性糖尿病”的更深层解释,体现出“圆桌式会诊”对关键线索召回与深入诊断推理的促进作用。


MCC在诊断对话任务中的表现

展望与意义

本研究表明,多模型对抗与协作可作为医疗推理能力增强的一种通用范式:在不引入额外任务训练与外部知识库的条件下,借助结构化辩论将不同模型的知识覆盖与推理偏好差异显式用于交叉核验、证据对齐与错误纠偏,从而提高复杂问题上的推理收敛质量与输出稳定性。需要强调的是,MCC并非替代医生,而是提供多角度论据与可追溯的辩论日志,帮助临床人员降低漏诊误判风险并提升决策透明度,同时亦具备教学示范意义。面向临床应用,仍需进一步推进与电子病历及检查结果的端到端集成、对不确定/冲突信息的处理策略,以及隐私合规与计算成本控制,使其能够以安全、高效的方式融入真实工作流。

中国医学科学院基础医学研究所博士生孙欣提和洪奇阳为该论文共同第一作者,龙尔平研究员、万沛星研究员(北京大学基础医学院)为共同通讯作者。

原文链接:https://www.sciencedirect.com/science/article/pii/S2666379125006202

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)


转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨瀚森:和混音队友开玩笑说让我当控卫 半个NBA赛季都在摸爬滚打

杨瀚森:和混音队友开玩笑说让我当控卫 半个NBA赛季都在摸爬滚打

罗说NBA
2026-01-17 13:11:50
皇马vs莱万特:姆巴佩、维尼修斯首发,贡萨洛、贝林厄姆出战

皇马vs莱万特:姆巴佩、维尼修斯首发,贡萨洛、贝林厄姆出战

懂球帝
2026-01-17 19:40:02
特朗普又变卦!紧急之下伊朗向中国紧急求援,王毅提出了3点建议

特朗普又变卦!紧急之下伊朗向中国紧急求援,王毅提出了3点建议

阿天爱旅行
2026-01-17 19:05:11
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
惊艳!章子怡一身香奈儿造型再捧影后奖杯

惊艳!章子怡一身香奈儿造型再捧影后奖杯

FUFASHION
2026-01-14 23:10:03
劳荣枝死刑过程曝光,临终前说出多年未了的心愿,网友听后:活该

劳荣枝死刑过程曝光,临终前说出多年未了的心愿,网友听后:活该

哄动一时啊
2025-11-20 20:18:23
泽连斯基回应特朗普说其“阻挠达成俄乌和平协议”:俄罗斯发动袭击旨在破坏乌克兰能源系统,必须向俄施压

泽连斯基回应特朗普说其“阻挠达成俄乌和平协议”:俄罗斯发动袭击旨在破坏乌克兰能源系统,必须向俄施压

鲁中晨报
2026-01-16 18:55:02
上甘岭战役,美军为何不用喷火器?志愿军的办法,让美军头疼不已

上甘岭战役,美军为何不用喷火器?志愿军的办法,让美军头疼不已

墨说古今
2026-01-05 16:37:54
吴佩慈成最大赢家?婆婆入狱纪家崩塌,13年不领证终成保命符

吴佩慈成最大赢家?婆婆入狱纪家崩塌,13年不领证终成保命符

青史楼兰
2026-01-17 17:39:32
斯诺克大师赛|吴宜泽首次参赛即打进四强 奖金颇丰

斯诺克大师赛|吴宜泽首次参赛即打进四强 奖金颇丰

北青网-北京青年报
2026-01-17 08:59:10
“出轨丈夫”所在企业通报了!连发视频道歉女子回应带货争议及视频下架,粉丝已超60万

“出轨丈夫”所在企业通报了!连发视频道歉女子回应带货争议及视频下架,粉丝已超60万

新民晚报
2026-01-17 17:52:03
刮一个穴位,把肝胆里面的瘀滞排干净,还能治难言之隐!!

刮一个穴位,把肝胆里面的瘀滞排干净,还能治难言之隐!!

神奇故事
2025-12-13 23:55:36
简氏防务:中国在南海开始新建人工岛礁!

简氏防务:中国在南海开始新建人工岛礁!

达文西看世界
2026-01-17 15:17:44
天崩地裂!13000公里时速,导弹爆炸温度数千度:普京真掀桌子了

天崩地裂!13000公里时速,导弹爆炸温度数千度:普京真掀桌子了

古事寻踪记
2026-01-15 07:07:07
李宗仁归国之后,希望能出任人大副委员长一职,毛主席却给出了三条关键理由,直言此事并不合适

李宗仁归国之后,希望能出任人大副委员长一职,毛主席却给出了三条关键理由,直言此事并不合适

史海孤雁
2025-12-25 16:48:16
恭喜,上港外援第1签,29岁,前锋,效力豪门,身价50万欧元

恭喜,上港外援第1签,29岁,前锋,效力豪门,身价50万欧元

乐聊球
2026-01-17 15:23:07
格力24年老大地位被结束,击败它的是国内最大空调集团,日收10亿

格力24年老大地位被结束,击败它的是国内最大空调集团,日收10亿

趣文说娱
2025-12-16 17:17:27
祝贺!19岁全红婵正式上任,现身广东新岗位,陈芋汐祝福引热议

祝贺!19岁全红婵正式上任,现身广东新岗位,陈芋汐祝福引热议

做一个合格的吃瓜群众
2026-01-15 21:03:08
马斯克:三年内星舰发射频率将超过每小时一次!SpaceX的终极目标是每年生产1万艘星舰飞船

马斯克:三年内星舰发射频率将超过每小时一次!SpaceX的终极目标是每年生产1万艘星舰飞船

和讯网
2026-01-15 14:55:12
夺东北头功、拥兵十万的曾克林为何屡遭贬?林彪的话揭秘核心

夺东北头功、拥兵十万的曾克林为何屡遭贬?林彪的话揭秘核心

唠叨说历史
2026-01-04 14:55:46
2026-01-17 21:12:49
BioArtMED
BioArtMED
BioArt旗下科普媒体
4237文章数 2466关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

媒体:网友捐款超1400万 并不能直接解决嫣然医院问题

头条要闻

媒体:网友捐款超1400万 并不能直接解决嫣然医院问题

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

数码
房产
健康
游戏
军事航空

数码要闻

苹果多款产品将于2026至2028年陆续换装OLED屏幕

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

血常规3项异常,是身体警报!

LCK春季赛:大闹天宫一锤定音,BFX鏖战团战击溃BRO

军事要闻

普京谈及当前国际局势:世界太危险了

无障碍浏览 进入关怀版