MedVLM-R1：借力DeepSeek强化学习赋能医疗视觉语言模型的推理能力|medvlm|deepseek

MedVLM-R1：借力DeepSeek强化学习赋能医疗视觉语言模型的推理能力

2025-03-26 08:24:21　来源: 将门创投

北京举报

分享至

本文提出了 MedVLM-R1，这是一种集成 DeepSeek GRPO 强化学习的医学 VLM，旨在弥合放射学 VQA 中的准确性、可解释性和稳健性差距。模型通过显式推理提升透明度和可信度，这在高风险临床环境中至关重要。结果显示，强化学习比纯 SFT 方法在 OOD 设置下泛化能力更强。尽管医学 VLM 仍处于早期且面临挑战，研究人员认为其在提供更安全透明的医疗解决方案方面具有潜力，并应得到行业重视与鼓励。

射学影像是现代医疗诊断的关键，每年全球约有 80 亿次影像检查。随着 AI 技术的快速发展，医学视觉语言模型 (VLM) 在放射学任务中显示出良好的前景，但大多数现有的 VLM 仅产生最终答案而不展示底层推理。

医学推理在临床应用中扮演着至关重要的角色。一方面，医生对于 AI 诊断结果的「可理解、可追溯」有着强烈需求；另一方面，监管部门也往往更关注模型输出的透明度，以确保临床安全性和合规性。

当前大多数医学视觉语言模型往往只输出最终答案或「伪解释」，缺少完整推理链条，难以获得信任。因此，如何既保持高准确率，又能为医生和监管部门提供透明可信的推理过程，一直是摆在医疗 AI 面前的重大挑战。

为了弥补这一差距，慕尼黑工业大学（Technische Universität München，TUM）、牛津大学（University of Oxford）、帝国理工学院（Imperial College London）、麻省总医院（Massachusetts General Hospital）、谢菲尔德大学（University of Sheffield）的合作团队推出了 MedVLM-R1，一款在关注提供高准确率的同时，具备明确自然语言推理能力的医学视觉语言模型。

通过采用 DeepSeek 的强化学习框架，激励模型在不使用任何推理参考的情况下发现人类可解释的推理路径。它在仅有 600 个视觉问答（VQA）样本、2B参数规模的轻量级条件下，在 MRI、CT 和 X 射线基准测试中的准确率从 55.11% 提高到了 78.22% 准确率，远超在大规模数据上训练的同类大模型，为可解释的医学影像分析开辟了新思路。

通过将医学图像分析与显式推理相结合，MedVLM-R1 标志着迈向临床实践中值得信赖和可解释的 AI 的关键一步。

论文标题： MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning 论文链接： https://arxiv.org/abs/2502.19634 模型开源地址： https://huggingface.co/JZPeterPan/MedVLM-R1

放射学影像在现代医疗中至关重要，每年会进行超过 80 亿次扫描。随着诊断需求增长，AI 驱动的影像解读需求日益迫切。

医学视觉语言模型（VLMs）在 MRI、CT 和 X 射线影像的视觉问答（VQA）中展现出潜力，可辅助医生和患者，但现有模型多依赖监督微调（SFT），存在过拟合、捷径学习以及对分布外数据（OOD）表现不佳的问题，且仅提供最终答案或「伪解释」，缺乏逐步推理能力，难以满足临床对可解释性和可信度的需求。

强化学习（RL）通过奖励模型自主发现逻辑步骤，显示出优于 SFT 的泛化能力，但传统RL依赖神经奖励模型，资源消耗大。近日，DeepSeek推出的群体相对策略优化（GRPO）通过规则化策略减少计算需求，在资源有限的医疗领域具有潜力，但尚未得到充分探索和应用。在最新的研究中，研究人员提出了 MedVLM-R1，这是第一个能够通过使用DeepSeek GRPO 技术进行训练来生成具有明确推理的答案的医学视觉语言模型，可用于放射学 VQA 任务。主要贡献如下：

具有明确推理的医学 VLM：他们推出了 MedVLM-R1，这是第一个轻量级医学 VLM，能够在最终答案的同时生成明确推理，而不仅仅是提供最终答案。
无需明确监督的新兴推理：与需要具有复杂推理步骤的数据的传统 SFT 方法不同，MedVLM R1 使用 GRPO 和仅包含最终答案的数据集进行训练，展示了无需明确监督的新兴推理能力。
卓越的泛化能力和效率：MedVLM-R1 实现了对分布外数据（例如 MRI → CT/X 射线）的稳健泛化，并且尽管是一个仅在 600 个样本上训练的紧凑型 2B 参数模型，但它的表现优于 Qwen2VL-72B 和 Huatuo-GPT-Vision-7B 等更大的模型。

图示：团队使用的提示的模板，模型响应和奖励标准的一个例子。（来源：论文）
一、总体表现

下表总结了各种 VLM 的域内 (ID) 和域外（OOD）性能。ID/OOD 专门指在 MRI 数据上微调的模型。

比较结果显示，使用 GRPO 和 SFT 微调的 VLM 在域内任务上的表现明显优于零样本通用 VLM。团队的 GRPO 训练模型表现出非常强大的 OOD 性能，与 SFT 同类模型相比，CT 图像提高了 16%，X 射线图像提高了 35%，凸显了 GRPO 卓越的通用性。

此外，尽管 MedVLM-R1 是一个仅使用 600 个样本进行训练的紧凑型 2B 参数模型，但它的表现优于 Qwen2-VL-72B 和 HuatuoGPT-Vision-7B 等大型模型，后者专门针对大规模医疗数据进行训练。这凸显了基于 RL 的训练方法在高效且可扩展的医疗 VLM 开发方面的巨大潜力。

二、推理能力和可解释性

除了强大的泛化能力之外，MedVLM-R1 的核心优势在于它能够产生明确的推理能力——这是所有基线所不具备的能力。如下图所示，MedVLM-R1 在标签内呈现了一个逻辑思维过程，最终决策包含在标签中。

图示：MedVLM-R1 在 X 射线（1、2）、MRI（3）和 CT（4）上的医学 VQA 示例。（来源：论文）

值得注意的是，对于相对较简单的问题（问题 1 和 2），推理似乎很有说服力，并且与医学知识相符。然而，更复杂的查询有时会显示启发式或只是部分推理。

例如，在第三个样本中，模型通过排除法而不是详细的医学分析得出了正确答案，这表明它利用了基于线索的推理，而不是领域专业知识。

同样，在某些情况下（例如问题 4），推理和结论之间的因果关系仍然不清楚，这引发了一个问题：模型是否只是在预测正确答案后编造了相对应的解释。尽管存在这些缺陷，但 MedVLM-R1 代表了放射学决策可解释性方面迈出的显著一步。

三、局限性

尽管 MedVLM-R1 在 MRI、CT 和 X 射线数据集中表现出色，但仍存在一些局限性：

模式差距：在其他医学模式（例如病理学或 OCT 图像）上进行测试时，该模型无法收敛。研究人员假设这是由于基础模型在预训练期间对这些模式的接触不足造成的。
封闭集依赖性：当前方法适用于多项选择（封闭集）VQA。在没有提供预定义选项的开放式问题设置中，模型的性能会大幅下降。这也是许多 VLM 面临的共同挑战。
肤浅/幻觉推理：在难度较大的任务推理任务中，MedVLM-R1有时仍能提供正确答案，但仅仅会提供肤浅的推理过程（例如，“思考：让我们来看一下这张核磁共振图片。答案：A。”）。此外在这些难度较大的任务中，模型推理得出的结论可能会与最终给出的答案自相矛盾。这种现象说明，即使是为可解释性而设计的模型有时也会出现肤浅/幻觉的论证，凸显了在生成始终透明且合乎逻辑的合理性方面仍然存在挑战。

关于所有这些问题，团队认为他们基础模型的当前 2B 参数规模构成了潜在的瓶颈，接下来计划在更大的 VLM 主干上评估 MedVLM-R1 以解决这些问题。

四、结语

总之，团队提出了 MedVLM-R1，一种集成了基于DeepSeek GRPO 的强化学习的医学 VLM，用于弥合放射学 VQA 中准确性、可解释性和稳健性能之间的差距。通过专注于显式推理，该模型提高了透明度和可信度——这些能力在高风险临床环境中必不可少。

他们的结果表明，基于强化学习的方法比纯 SFT 方法具有更好的泛化能力，尤其是在 OOD 设置下。虽然基于视觉语言模型的医学推理仍处于起步阶段并面临相当大的挑战，但研究人员相信，它在提供更安全、更透明的医疗解决方案的潜力会受到行业的重视并应受行业的到鼓励。

来源：公众号【ScienceAI】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.