网易首页 > 网易号 > 正文 申请入驻

Cell子刊:龙尔平/万沛星团队发布大模型“圆桌会议”框架,大幅提升医疗AI推理能力

0
分享至


编辑丨王多鱼

排版丨水成文

医疗人工智能快速发展的当下,GPT-4、Med-PaLM2 等大型语言模型在医学问答与考试中不断刷新纪录,展现出接近人类的认知能力。然而,单一模型固有的“黑箱”局限、缺乏多视角校验的推理机制,已成为其在真实、高风险临床场景中安全落地的关键瓶颈。如何让 AI 像多学科专家会诊一样,实现交叉质证、协同决策,是医疗 AI 走向可信、可靠必须跨越的科学鸿沟。

2026 年 1 月 5 日,中国医学科学院基础医学研究所龙尔平团队与北京大学基础医学院万沛星团队合作(中国医学科学院基础医学研究所博士生孙欣提洪奇阳为论文共同第一作者),在Cell Reports Medicine期刊在线发表了题为:Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models 的研究论文。

该研究提出了“模型对抗与协作”(Model confrontation and collaboration,MCC)框架,推动医疗 AI 从“单点智能”迈向“协同推理”的范式跃迁,通过构建可辩论、可追溯、动态协作的模型圆桌,从根本上促进了医疗 AI 向可靠、可解释、可协作的下一代形态演进。



MCC 框架:模型对抗与协作

在这项最新研究中,研究团队提出了“模型对抗与协作”(Model Confrontation and Collaboration,MCC)框架,将不同的大型语言模型组合成一个动态的、具备“推理-行动-反思”的圆桌式智囊团。MCC 引入共享的“上下文工作区”(shared context):将问题、已生成的候选答案、关键证据点与各模型的立场变化以结构化方式写入同一上下文记忆,并在每一轮辩论中保持对完整对话历史的可见性,从而确保批判与修正始终基于同一事实与语境。

其核心流程可概括为——

第一步,独立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1 在同一问题上并行生成答案与关键论证点;随后引入分歧门控(Gate):系统/主持 LLM 对候选答案进行一致性检测,仅在出现分歧时激活辩论,从源头控制额外计算开销。

第二步,对抗辩论(Debate as Action):进入多轮消息传递,每轮中模型执行“质疑-举证-反驳-修正”四类动作,围绕共享上下文中的证据缺口与推理断点开展交叉验证:定位论证中的跳步、证据不足或概念混淆,进一步补充指南、机制与鉴别诊断依据;随后进行自我反思,审计自身推理链与关键假设,并以可解释方式更新立场与结论。

第三步,共识优化(Consensus Optimization):每轮结束后进行共识判定与早停;若三轮内仍不收敛,则以多数投票作为保底输出策略。与传统“静态集成/硬投票”不同,MCC将多模型互补性显式转化为“基于上下文的迭代纠错”协作过程,使异构模型在知识覆盖与推理偏好上的差异得以用于错误定位与证据对齐,从而显著提升难题场景下的收敛质量与输出稳定性。


MCC 在 MedQA 基准上的表现与决策动态

多项医学基准测试获得 SOTA 表现

MCC 在多项代表性医学基准上展现出一致而稳定的性能:在 MedQA 上取得 92.6%(±0.3)的平均准确率,并在多次独立运行中显示出稳定性。PubMedQA 达到 84.8%;在 MMLU 医学子集中覆盖遗传学、解剖学等多个科目,整体维持 90%+,并在其中五个科目获得 SOTA 表现。

更重要的是,MCC 不仅在“常规题”上提升准确率,也在“更难、更接近真实风险”的评测中保持稳健:在 MedXpertQA 上准确率约 40%,在该基准的对比评测中表现位居前列。在 MetaMedQA 中能够识别不确定或无明确标准答案的情形并给出“未知/需补充信息”的保守处理,体现出更强的元认知边界管理能力。此外,在 RABBITS 鲁棒性测试中,面对药物商品名与学名的混用与替换,MCC 性能几乎不受影响,显示其对临床语言变体具有更强的泛化与稳定性。

长文本问答:综合回答水平更高

在开放式长问答任务中,研究团队使用 MultiMedQA 基准并邀请医生与非专业评审开展双视角盲评,以评估模型在真实医疗咨询中的综合表达与建议能力。结果显示,MCC 在所有维度上均优于 GPT-o1、Qwen、DeepSeek-R1 以及 Med-PaLM2:医生评审的 12 项指标中,MCC 在病情要点提取、推理正确性与偏差控制等关键维度提升 8–12 个百分点且错误内容率更低;在另一组 9 项综合质量指标中,其缺陷率下降 3%–9%,一致性与知识覆盖更为稳定。进一步在 HealthBench 上,MCC 在与临床专家共识对齐的任务中取得 92.1 的综合评分,并在更高难度的 HealthBench Hard 中保持领先,体现出在复杂场景下的稳健性与安全性优势。


开放式医学问答输出的多维度评估

模拟诊断对话:对话版“诊疗小组”

为评估 MCC 在交互式诊疗场景中的能力,研究团队构建了类医学院 OSCE 的模拟病例对话测试:模型作为医生与模拟患者实时交互,在完成病史采集后给出诊断与鉴别诊断。结果显示,MCC 在病史采集阶段平均可捕获 80% 以上的关键患者信息点;在 16 个病例中,有 14 例的信息覆盖率超过 80%,而单一模型在同等标准下难以稳定达到该水平。与此同时,MCC 提出的问题与患者主诉的相关性更高(多数病例>80%),提示其问诊路径更聚焦关键线索、减少遗漏。在诊断结论阶段,在 15 个可判定病例中,MCC 的首选诊断正确率达到 80%(12/15),并在鉴别诊断的完整性上呈现优势。典型案例是一位 56 岁女性出现多饮多尿、乏力与体重下降,既往以 2 型糖尿病处理但血糖控制不佳。辩论过程中,模型间交叉质询促使补问胰腺相关病史与上腹痛向背部放射等线索,进而将诊断从“糖尿病本身”推进至“胰腺肿瘤相关继发性糖尿病”的更深层解释,体现出“圆桌式会诊”对关键线索召回与深入诊断推理的促进作用。


MCC 在诊断对话任务中的表现

展望与意义

这项研究表明,多模型对抗与协作可作为医疗推理能力增强的一种通用范式:在不引入额外任务训练与外部知识库的条件下,借助结构化辩论将不同模型的知识覆盖与推理偏好差异显式用于交叉核验、证据对齐与错误纠偏,从而提高复杂问题上的推理收敛质量与输出稳定性。需要强调的是,MCC 并非替代医生,而是提供多角度论据与可追溯的辩论日志,帮助临床人员降低漏诊误判风险并提升决策透明度,同时亦具备教学示范意义。面向临床应用,仍需进一步推进与电子病历及检查结果的端到端集成、对不确定/冲突信息的处理策略,以及隐私合规与计算成本控制,使其能够以安全、高效的方式融入真实工作流。

论文链接

https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00620-2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本为什么挑衅中国,西班牙专家:中国错就错在没跟日本彻底清算

日本为什么挑衅中国,西班牙专家:中国错就错在没跟日本彻底清算

我心纵横天地间
2025-12-08 18:32:33
发现一个奇怪现象:喜欢把家里打扫得很干净的人,往往会有这3种命运,并非迷信

发现一个奇怪现象:喜欢把家里打扫得很干净的人,往往会有这3种命运,并非迷信

LULU生活家
2025-12-23 18:33:20
筱梅湾湾办节日家宴!箖箖和玥儿露正脸!玥儿坐在那神态太像大S

筱梅湾湾办节日家宴!箖箖和玥儿露正脸!玥儿坐在那神态太像大S

锋哥与八卦哥
2026-01-06 16:03:26
回国了我才敢说:越南,是我去过的所有国家中,最被看轻的

回国了我才敢说:越南,是我去过的所有国家中,最被看轻的

好贤观史记
2026-01-05 10:18:43
一到三年级挖煤,四到六年级染布!网友:穿了一天都要包浆了…

一到三年级挖煤,四到六年级染布!网友:穿了一天都要包浆了…

另子维爱读史
2026-01-07 21:51:29
巴萨vs毕包:拉菲尼亚、巴尔德吉首发,亚马尔、莱万替补

巴萨vs毕包:拉菲尼亚、巴尔德吉首发,亚马尔、莱万替补

懂球帝
2026-01-08 04:15:20
经典恐怖片确认引进中国内地!网友:曾经的阴影

经典恐怖片确认引进中国内地!网友:曾经的阴影

环球网资讯
2026-01-07 10:02:21
最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

林雁飞
2026-01-04 19:29:51
杨鸣携三思姐公开亮相!离婚风波后感情终见光?

杨鸣携三思姐公开亮相!离婚风波后感情终见光?

阿晞体育
2026-01-04 17:17:09
“一个杯子开15次会”?小米徐洁云:至少开了16次

“一个杯子开15次会”?小米徐洁云:至少开了16次

三言科技
2026-01-07 22:29:04
靠谱?德媒:恩里克拒绝与巴黎圣日耳曼续约,寻求新挑战

靠谱?德媒:恩里克拒绝与巴黎圣日耳曼续约,寻求新挑战

星耀国际足坛
2026-01-08 00:11:10
小米,这次不是别人黑你们了吧!

小米,这次不是别人黑你们了吧!

亮见
2026-01-07 14:48:20
段永平说:我教儿子投资的第一件事是每天要去跑步

段永平说:我教儿子投资的第一件事是每天要去跑步

马拉松跑步健身
2025-12-26 21:42:28
陈汉典、Lulu惊喜晒婚纱照,甜蜜告白:好险,我找到你了!

陈汉典、Lulu惊喜晒婚纱照,甜蜜告白:好险,我找到你了!

ChicMyGeek
2026-01-07 11:02:04
风向突变,以德为首的西方国家齐发声:中国已在换电关键领域崛起

风向突变,以德为首的西方国家齐发声:中国已在换电关键领域崛起

法老不说教
2025-12-07 17:48:28
补脾是最好的抗衰,坚持吃它半个月,脾胃好了,气色更红润!

补脾是最好的抗衰,坚持吃它半个月,脾胃好了,气色更红润!

江江食研社
2025-12-31 08:30:32
贵州小伙自杀后续!掏空家底惨遭骗婚,细节曝光,网友为女方叫屈

贵州小伙自杀后续!掏空家底惨遭骗婚,细节曝光,网友为女方叫屈

李健政观察
2026-01-07 11:17:45
深圳惊现"光杆老板"!无办公室无员工,靠一张营业执照年赚60万

深圳惊现"光杆老板"!无办公室无员工,靠一张营业执照年赚60万

捣蛋窝
2025-12-22 16:14:26
瓦妮莎晒与科比和女儿吉安娜墓碑合影,这张照片迅速引爆网络

瓦妮莎晒与科比和女儿吉安娜墓碑合影,这张照片迅速引爆网络

今古深日报
2026-01-07 10:42:01
老了才明白:尽量不要跟身边任何人,包括你的儿女,分享这5件事

老了才明白:尽量不要跟身边任何人,包括你的儿女,分享这5件事

朗威谈星座
2025-12-25 10:51:58
2026-01-08 04:32:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
8681文章数 144958关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

教育
旅游
艺术
公开课
军事航空

教育要闻

在AI时代,教育有三个基本原理不会变

旅游要闻

嗨到凌晨3点!仙游一网红夜市即将启用!0成本即可当老板...

艺术要闻

24位国画大师联手,震撼美学体验等你来!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版