清华刘洋团队论文：揭示为何 70B 的医疗模型，反而不如 8B 会问诊丨ILCR 2026|医生|科学|刘洋(航天员)

清华刘洋团队论文：揭示为何 70B 的医疗模型，反而不如 8B 会问诊丨ILCR 2026

2026-02-13 17:07:05　来源: AI科技评论

广东举报

分享至

DOCTOR-R1：将临床问诊建模为 POMDP，用强化学习训练会动态提问的医疗智能体。

作者丨郑佳美

编辑丨岑峰

在医疗人工智能的发展历程中，能力评估方式在很大程度上塑造了技术演进的方向。

过去相当长一段时间里，医疗 AI 的进步主要围绕医学知识获取与推理展开，模型是否“足够聪明”通常通过医学考试题、临床问答数据集等静态基准来衡量。在这一评价框架下，模型只需在信息完整、问题封闭的条件下给出正确答案，便被视为具备较高的医疗能力。

随着大语言模型的兴起，这一路径迅速取得突破性进展，多种系统在 MedQA 等测试中达到甚至超过人类专家水平，使得“医疗 AI 是否已经成熟”一度成为行业内的乐观判断。

然而，随着这些模型被逐步引入更贴近真实临床的交互场景，一个长期被掩盖的问题开始显现：真实医疗实践并非基于完整信息给出诊断，而是一种在高度不确定条件下，通过连续提问、风险识别与信息整合来逐步逼近决策的动态过程。

模型在静态评测中展现出的知识优势，并未自然转化为对真实问诊场景的可靠支持，反而在多轮对话中暴露出提问策略僵化、对高风险信号反应迟钝、过早形成结论以及缺乏基本沟通与共情能力等缺陷。

这种“高分通过考试，却难以胜任临床问诊”的断层，逐渐成为医疗 AI 领域的核心瓶颈，也迫使研究者重新思考一个根本性问题：医疗智能体真正需要被训练和评估的，究竟是什么能力。

在这一背景下，清华大学刘洋团队提出了题为《DOCTOR-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning》的研究工作，试图从问题建模和训练范式层面打破以静态知识评测为中心的既有路径。

这项研究不再将模型能力简单等同于知识覆盖度或参数规模，而是将临床问诊本身视为一个长期、多轮、部分可观测且高度风险敏感的决策过程，重点探索如何让模型学会在信息不完整的条件下提出高价值问题、动态调整询问策略，并在整个过程中保持安全意识与沟通质量。为医疗智能体从工具型问答系统迈向具备临床推理与交互能力的决策主体提供了新的研究范式。

论文链接：https://arxiv.org/pdf/2510.04284

从模板化提问到策略性问诊

这项研究的实验结果本质上围绕三个核心问题展开，即现有模型在真实临床问诊场景中究竟面临哪些挑战，DOCTOR-R1 在哪些具体能力层面弥补了这些不足，以及这些能力提升是否确实源于研究团队提出的方法机制而非偶然因素。

研究人员首先通过对照实验揭示了一个关键事实：在静态医学问答任务中表现优异的模型，在需要多轮交互的动态临床问诊环境中会出现系统性失效。

这种失效并非源于医学知识储备不足，而主要体现在问诊策略层面，例如提问顺序缺乏针对性，倾向于使用信息增益较低的标准化体检式问题；在患者给出潜在高危信号后，仍难以及时调整提问路径，而是沿用固定模板继续询问；在关键信息尚未充分收集的情况下过早形成判断，甚至给出不恰当的安抚性或错误建议；以及整体沟通方式与真实医疗场景不匹配，表现为共情不足、语气过于武断或对不确定性处理不当。

由于这些问题在 MedQA、MMLU 等静态评测中几乎不会暴露，研究指出传统评测方式对模型真实临床能力存在失真。与之相比，DOCTOR-R1 的性能提升并非体现在单一指标上，而是整体改变。DOCTOR-R1模型除了在上述传统测试的表现优于已有模型，在 MAQuE等模拟评测数据集上，其最终表现也优于 GPT-4.1 等模型。

这一点在对话轮次与准确率关系的分析中也得以体现，DOCTOR-R1 从首轮对话开始即占据优势，并且随着对话推进持续扩大领先幅度，体现出一种越问越准的策略特征。

同时，在 HealthBench 的沟通质量、上下文理解和回答完整性等指标上，DOCTOR-R1 的提升幅度明显高于准确率本身，表明良好的沟通与共情能力并非附带收益，而是其问诊策略的内在组成部分，即共情本身有助于提高信息获取效率。

进一步的消融实验验证了这一结论。研究团队发现，在移除过程奖励、仅保留最终诊断奖励的情况下，模型虽然仍能学习到正确的诊断结果，但中间问诊过程明显退化为模板化和低风险偏好模式，在高风险场景中更容易产生安全性不足的回答，说明如果不对提问过程本身进行显式奖励，模型会倾向于忽略如何提问这一关键能力。

而当经验库机制被移除时，模型在新场景中的适应能力显著下降，在相似病例上的表现也更加不稳定，对话策略波动明显增大，这表明仅依赖 on-policy 强化学习不足以模拟真实医生通过长期经验积累形成的稳定问诊策略。

因此，这些实验结果并非对整体性能的简单补充，而是从多个角度直接支撑了研究团队提出的核心机制设计。

让模型在不确定中学会决策

在实验设计层面，研究团队认为必须采用强化学习而非单纯的微调方法，其核心判断在于两者所能学习的能力本质不同。

微调主要教会模型在获取完整信息后如何生成回答，而临床问诊的关键并不在于“如何作答”，而在于模型在尚不清楚答案的情况下，如何决定下一步应该询问什么信息。

这一过程本质上属于行动会改变未来可获取信息结构的序列决策问题，因此天然更适合用强化学习来建模。进一步地，研究人员指出临床问诊并非一个完全可观测的决策过程。在真实医疗场景中，患者自身往往也无法完整理解病情，医生只能通过患者的回答逐步反推出潜在状态，且大量关键信息只有在被主动询问后才会显现。

基于这一现实，该研究将问诊过程建模为部分可观测马尔可夫决策过程，而非简单的马尔可夫决策过程，其中真实病情状态对医生模型不可见，医生所获得的观察信息具有噪声和不完整性，而每一次提问行为都会直接影响下一步能够获得的信息内容。

这一建模方式对于保留“问什么才有意义”这一核心问题至关重要。与此同时，研究团队强调多智能体交互环境并非形式上的复杂化，而是提升泛化能力的必要条件。如果患者仅由固定脚本模拟，模型很容易学会针对脚本进行应对，从而在真实场景中表现出极差的泛化能力。

为此，研究人员使用大语言模型扮演患者智能体，因此即便在相同疾病背景下，患者的表述方式、回答顺序以及风险信号的暴露时机都具有高度多样性，从而让医生智能体真正学习稳定有效的问诊策略，而非记忆固定套路。

在奖励设计方面，研究提出的双层奖励机制旨在解决长期存在的两个关键难题。一方面，如果仅依据最终诊断结果给予奖励，模型往往会倾向于过早猜测并提前结束对话，导致中间问诊过程不可控，高风险错误也难以及时被惩罚；另一方面，医疗决策中普遍存在否决型错误，即一次危险建议或严重误判无法被多次礼貌或合理表达所抵消。

不同于传统的权重平均得分，研究团队引入了分层惩罚机制，将安全性、推理合理性和医学准确性置于最高优先级，一旦触发底线错误即直接给予强负奖励。这种在强化学习中相对激进的设计虽然约束严格，但能让模型守住临床安全的底线，且更贴近真实医疗场景的风险要求。

最后，在经验利用机制上，该研究并未将经验库视为普通的记忆模块，而是将其定位为经过筛选的“高质量医生经验”。研究人员通过仅存储高奖励轨迹、在检索时同时考虑语义相似度与历史奖励，并引入新颖性约束以避免模型反复依赖同一问诊套路，使模型在面对新患者时更接近一名积累了大量临床经验的医生，而非简单依赖答案记忆的学生。

真实临床能力导向的医疗 AI 方法论启示

从整体意义上看，这项研究在医疗人工智能领域具有明确而深远的启示作用。研究结果首先表明，当前医疗 AI 的瓶颈不仅受限于模型所具备的医学知识规模，还在于是否采用了与真实临床实践相匹配的训练范式。

通过实验可以看到，在参数规模仅为 8B 的条件下，结合合适的强化学习训练框架，模型在多项动态问诊指标上能够超过参数规模达到 32B 甚至 70B 的知识型模型，这一现象对长期以来以模型规模和知识覆盖度为中心的发展路径形成了纠偏。

其次，研究将以往被视为难以量化和系统训练的软技能问题转化为可优化目标。研究人员通过合理的任务建模和奖励设计，使得共情表达、沟通质量以及对不确定性的处理等能力能够被稳定评估并持续强化，验证了软技能并非只能依赖隐式学习或人工规则，而是可以纳入统一的训练与评价体系之中。

最后，从方法论层面来看，研究提出的框架为真实世界智能体的构建提供了一种具有可复制性的通用模板。其核心问题特征包括不完全信息条件下的决策、面向长期目标的序列行为、高风险情境中的安全约束以及对经验积累机制的依赖，而这些特征正是大多数真实世界智能体任务所共有的。

因此，这项工作的意义不仅局限于医疗领域，也为更广泛的智能体研究提供了具有参考价值的范式思路。

构建 DOCTOR-R1 的人

论文第一作者为黎雍卉，清华大学计算机科学与技术系硕士研究生，导师为刘洋教授。她的主要研究方向为智慧医疗与大模型智能体，特别是在医疗模型的交互、进化、推理等方面的能力优化。她已发表了ICLR等多篇成果，曾获中国政府奖学金、北京市政府奖学金、清华计算机系 84 创新未来奖学金等多项荣誉。

论文的共同通讯作者之一是马为之，他是清华大学智能产业研究院副研究员，主要从事智能信息获取与智慧医疗的研究工作。他在 SIGIR、ICLR 等国际顶级会议以及 Nature Medicine 等权威期刊上发表了100余篇论文，曾获得SIGIR、EMNLP等会议的论文奖项，入选中国科协青年人才托举工程、北京市科技新星。目前担任 ACM TOIS 副主编及中国中文信息学会青工委秘书长。

参考链接：https://air.tsinghua.edu.cn/info/1046/1196.htm

论文的另一位共同通讯作者是刘洋，他是清华大学计算机科学与技术系万国数据教授、智能产业研究院院长、人工智能医院联席执行院长。研究方向为自然语言处理、智慧医疗和科学智能。

刘洋教授承担国家自然科学基金委杰出青年项目、科技创新2030“新一代人工智能”重大项目等重要科研项目，获得国家科技进步二等奖1项、省部级与一级学会科技奖励5项、重要国际会议优秀论文奖4项。主要学术兼职包括中国人工智能学会组织工作委员会主任、中国中文信息学会计算语言学专业委员会主任等。

参考链接：https://nlp.csai.tsinghua.edu.cn/~ly

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.