网易首页 > 网易号 > 正文 申请入驻

达摩院推出多智能体框架ReasonMed,打造医学推理数据生成新范式

0
分享至



本文第一作者是阿里巴巴达摩院研究实习生孙雨,他的主要研究兴趣方向是Medical Reasoning LM。本文通讯作者是阿里巴巴达摩院资深专家徐挺洋博士。

在人工智能领域,推理语言模型(RLM)虽然在数学与编程任务中已展现出色性能,但在像医学这样高度依赖专业知识的场景中,一个亟待回答的问题是:复杂的多步推理会帮助模型提升医学问答能力吗?要回答这个问题,需要构建足够高质量的医学推理数据,当前医学推理数据的构建存在以下挑战:

数据匮乏:现有医学领域思维链数据规模较少,且缺乏一个流水线来批量构建一个高质量大规模医学推理数据集;

来源单一:现有数据集多依赖单一模型生成,未能结合不同预训练模型的知识域差异,丰富和探索多样化的推理路径;

构建数据成本高:构建高质量、大规模医学推理数据集往往需要调用大模型生成和人工参与验证,计算和人力成本都非常高昂,难以支撑百万级规模的扩展。

缺乏有效性验证:缺乏系统性实验来对比「详细解说诊断思维」与「直接给出结论」两种训练策略的优劣。

因此,我们亟需探索更科学的方法,为模型注入权威医学知识、扩展其知识边界,并生成更严谨、高质量的多步推理路径。针对上述挑战,ReasonMed 提出一套完整的医疗推理数据生成解决方案:

多源知识的整合:从四个权威医学问答基准(MedQA、MMLU、PubMedQA、MedMCQA)汇聚约 19.5 万医学问题,覆盖广泛的专业知识面。

多模型的数据构建:通过引入多个专有模型,共同生成并验证医疗推理路径,多模型互补与交叉验证提升了知识覆盖与逻辑一致性,更好的构建规模化且高质量的医学推理数据。

基于多智能体交互的多维验证和优化:设计「Easy-Medium-Difficult」分层管线,根据验证通过率动态选择不同处理策略。通过多智能体交互的方式来对医学推理数据的逻辑一致性、答案正确性和医学事实性多维度进行验证优化,实现高质量与低成本的平衡。

推理路径注入和精炼:引入推理路径注入与自动化精炼机制,以提升逻辑连贯性与知识准确度。同时对于每条推理样本保留完整的多步推理链(CoT)与由响应摘要器生成的简明答案(Response),实现推理过程与最终结论的双重监督。

基于上述框架,阿里巴巴达摩院联合多家机构提出医学推理数据生成新范式 ReasonMed,并开源百万级高质量数据集 ReasonMed370K。该范式通过多智能体协作、多温度采样与逐步校验,动态调用不同参数模型,既保证推理质量与知识注入,又显著提升数据多样性。

基于此数据集训练微调的 ReasonMed-7B/14B 在多项权威医学问答基准上(PubMedQA 上性能:82.0%)超越更大规模模型(LLaMA3.1-70B:77.4%),充分验证了「小模型 + 高质量数据」的潜力。同时 ReasonMed 也在 EMNLP 2025 上以高分(9 分)被接收。



  • 论文链接:
  • https://arxiv.org/abs/2506.09513
  • Hugging Face:
  • https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed
  • Code:
  • https://github.com/alibaba-damo-academy/ReasonMed

基于多智能体协作的医疗推理数据的构建

ReasonMed 多智能体系统介绍



ReasonMed 的多智能体体系由多个专门角色(Agents)组成,每个 Agent 负责不同阶段的推理生成、验证与优化,共同构建高质量医学推理数据集。下面是 ReasonMed 中各个组件的功能介绍:

  • CoT Generator(推理生成 Agent):包含多种不同大语言模型(Qwen2.5-72B、HuatuoGPT-o1-70B、DeepSeek-R1-Distill-LLaMA-70B),通过在不同温度配置下生成多条推理路径,形成多样化的推理语料。这种多模型、跨温度的设计使 ReasonMed 能充分结合不同模型的知识优势与风格差异,既丰富推理模式,也增强数据的逻辑多样性。

  • Verifier(验证 Agent):评估每条推理链的正确性、临床要点识别、逻辑一致性与医学事实准确性。输出结构化结果(Correct/Error + 原因),为后续筛选与修正提供依据。

  • Response Summarizer(摘要 Agent):将复杂的 CoT 推理提炼为简洁、符合医学问答风格的总结回答,使数据同时具备推理深度与可读性。

  • Quality Ranker(质量排序 Agent):对通过验证的多条正确 CoT 进行评分与排序,选出前两条质量最高的推理路径(Top-2),确保训练数据的代表性与多样性。

  • Error Refiner(错误修正 Agent):聚焦难样本,基于验证反馈识别逻辑或事实错误,并调用更强模型进行针对性修正,以保持推理链逻辑完整性和事实准确性。

  • Score Evaluator(评分评估 Agent):量化不同阶段推理优化的效果,评估修正后样本的整体提升幅度与数据集质量,形成闭环反馈。 ReasonMed 的多智能体系统通过「生成-验证-排序-修正-评估」的闭环流程,将多个模型的专长整合为一个高可靠、可扩展的医学推理数据构建体系。

数据生成流程



基于以上的多智能体系统,ReasonMed 整个医疗推理数据生成过程分为以下三个步骤:

  • 数据收集(Data Collection)

ReasonMed 首先从四个权威医学问答数据集(MedQA、MedMCQA、PubMedQA、MMLU)收集 19.5 万个医学问题,构建初始问题库。这些问题覆盖解剖学、临床知识、遗传学等多个子领域,为多模型协同生成提供广泛知识基础。

  • 多智能体推理生成与验证(Multi-Agent CoT Generation & Validation)

在该阶段,CoT Generator 针对每个问题以不同温度参数进行采样,共生成 9 条多步推理链,覆盖从直接推断到深度分析的多层逻辑,随后由 Verifier 智能体协同完成验证。 这一流程实现了从多模型输出到结构化、多维验证的知识融合,确保了生成数据在多样性与正确性上的平衡,为后续分层精炼与高质量医学推理数据集的构建奠定了基础。

  • 分层优化与推理精炼(CoT Pipeline Refinement)

根据 Verifier 验证后统计到的推理链错误数量,ReasonMed 设计了 Easy / Medium / Difficult 三条 Pipeline:

  • Easy Pipeline(9 条推理链中有 0–4 个错误):对于验证通过率高的问题,直接由 Quality Ranker 选出 Top-2 优质 CoT 作为最终样本;

  • Medium Pipeline(9 条推理链中有 5–7 个错误):存在部分逻辑或事实性错误的问题,调用 Error Refiner 基于 Verifier 的反馈进行针对性修正与细粒度补充,强化逻辑完整性;

  • Difficult Pipeline(9 条推理链中有 8–9 个错误):错误率极高,则调用更强模型(GPT-o1)重新生成完整推理链,相当于由专家重新诊断并开具「二次报告」。 该分层机制显著提升了数据一致性与可靠性。通过在不同难度层面引入差异化处理,ReasonMed 成功在保持高精度的同时,将整体数据构建成本降低约 73%,实现高质量与低成本的统一。

质量评估与数据汇总

我们通过Score Evaluator,基于逻辑连贯性(coherence)、医学事实一致性(factual fidelity)、选项分析完整性(option analysis)等方面对样本进行 0–10 分量化评分,验证各阶段精炼带来的质量提升。

经过这一全流程筛选与优化后,最终形成 37 万条高质量医学推理样本(ReasonMed370K),用于后续模型训练与评估。基于同样的评分逻辑,我们也对比了生成的数据和当前公开医学推理数据的质量:



结果表明,ReasonMed 在评分均值上显著优于现有公开数据集,验证了 ReasonMed 框架的有效性。

为了进一步分析「显式推理」与「总结式回答」等不同的思维模式在医学大模型训练中的贡献,我们从同一数据源中抽取并拆分出三个变体:

  • CoTMed370K保留原始的详细推理轨迹,重点训练模型复现多步推理过程与思维逻辑,使模型学习复杂医学推理的链式结构;

  • ResponseMed370K仅保留由 Response Summarizer 生成的精炼结论部分,用于训练模型在保留关键信息的同时生成简洁、临床友好的回答。

  • ReasonMed370K包含完整的多步推理链以及由多智能体生成的简明答案(Response)



ReasonMed-7B / 14B 模型效果评估



为了验证生成数据对于模型构建的贡献,我们基于 ReasonMed370K/ResponseMed370K/CoTMed370K 在 Qwen2.5-7B 进行了微调构建了三族模型 ReasonMed-7/14B,ResponseMed-7B 和 CoTMed-7B/14B。我们和当前的主流医疗/通用模型在 MedQA/MedMCQA/PubMedQA/MMLU 数据集上进行了对比。得到以下结论:

  • 基于 ReasonMed370K 训练的小模型效果可比甚至超越 70B 级别模型

在多个权威医学问答基准(包括 PubMedQA、MedMCQA、MMLU-Med)上,ReasonMed-7B 展现了显著优势。

其中,在 PubMedQA 上达到 82.0% 的准确率,超过了 LLaMA3.1-70B 的 77.4%;在 MedMCQA 与 MMLU 医学子集上也表现稳定提升。

进一步扩展至 14B 参数规模后,ReasonMed-14B 的整体准确率达到 72.8%,相较于 Qwen2.5-14B 提升 3.8%(72.8% vs 69.0%),并在总体性能上超越 Qwen2.5-32B(72.6%),与 LLaMA3.1-70B(72.9%)几乎持平。

这表明 ReasonMed 的「多智能体生成 + 分层优化」策略具备强大的可扩展性——即便是中小规模模型,也能在医学推理任务中实现与超大模型相当的表现。

  • 融合推理路径与总结答案的训练策略效果最佳

为了分析不同数据类型对模型推理能力的影响,团队基于同一底座(Qwen2.5-7B)训练了三个版本:


CoTMed-7B:学习完整推理路径,强调逻辑链条复现;


ResponseMed-7B:仅学习简明答案,注重输出的准确性与简洁性;

ReasonMed-7B:结合推理路径与总结式答案的混合训练策略。

结果显示,ReasonMed-7B 的融合策略效果最佳,在综合准确率上达 69.6%,分别超越 CoTMed-7B(69.1%)和 ResponseMed-7B(67.0%)。同时,其生成输出在逻辑深度与表达简洁度之间取得了良好平衡,既具可解释性,又具实用性。

这验证了 ReasonMed 的核心理念:显式推理链的学习能显著增强模型的泛化推理能力,而「推理 + 总结」融合策略是医学 QA 领域更优的训练路径。

  • 基于多智能体的分层处理策略显著降低思维链路生成成本,兼顾质量与效率



同时我们也验证了,ReasonMed 的分层优化机制(Easy / Medium / Difficult Pipeline)在确保数据质量的同时显著降低了数据构建成本。

若完全依赖最先进的大模型 API 生成 37 万条复杂推理链,成本预计在 16,631 美元;而在 ReasonMed 的实际设计中,仅约 2.56% 的样本进入最高难度流程,需调用更强模型,其余问题均由中等规模模型完成。 在这一策略下,项目总成本约 4,552 美元(o1 API 推理花费 3,595 美元),实现了 70% 以上的成本节省。

这种「难题精修、易题高效」的分层机制,在保证推理链质量与一致性的前提下,实现了高性价比的数据构建,为大规模推理数据的可持续生产提供了可复制模板。

项目意义和展望

ReasonMed 项目的推出,为医学 AI 研究提供了新的范式,其核心价值主要体现在以下几个方面:


填补医学推理数据空白:ReasonMed370K 提供了当前业界规模最大、质量最高的开源医学推理数据集,极大缓解了医学领域数据匮乏的问题,为后续研究和应用提供了坚实可靠的基础。


验证了显式多步推理在医疗模型的训练的关键作用:通过系统性地验证显式推理路径对模型性能提升的关键作用,ReasonMed 明确了知识密集型 AI 的训练方法论,为未来 AI 模型的研发提供了清晰的实践指南。


推动「小模型 + 高质量数据」路线:在特定专业领域,小模型搭配高质量数据可显著超越更大规模模型的性能,可以有效降低了医疗 AI 工具研发的成本门槛。


低成本,标准化的可扩展思维链生成框架:ReasonMed 框架可以迁移至其他知识密集领域(如生命科学,材料科学等),为构建特定领域的数据集提供了参考,具有跨领域应用的潜力。

同时,ReasonMed 相关技术也用到了达摩院多模态医疗大模型 Lingshu[1] 的构建中。接下来,我们计划进一步扩展数据覆盖的深度与广度,探索如影像诊断、多模态理解、医学工具调用等更复杂的医学推理场景。同时,我们也希望通过开放协作,让更多研究者参与数据完善与模型优化,共同建立一个持续演化、可信可复用的医学推理生态。

社区反馈

ReasonMed 发布后在社区内引发了积极反响。研究者普遍认为其「多智能体 × 分层调优」策略为高质量推理数据生成提供了新范式,并在 Hugging Face 与社区获得了广泛关注。论文发布当天即登上 Hugging Face「Paper of the Day」榜首,并获得 Hugging Face CEO 在 X 平台的转发与推荐,引发了业内研究者与开发者的热烈讨论。





[1]https://huggingface.co/lingshu-medical-mllm

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄金税收优惠没了,老铺黄金等珠宝商为何重挫?

黄金税收优惠没了,老铺黄金等珠宝商为何重挫?

华尔街见闻官方
2025-11-03 15:49:49
马龙为何不打男单?方博:他接受不了不是世界第一,第二也不行

马龙为何不打男单?方博:他接受不了不是世界第一,第二也不行

念洲
2025-11-03 10:26:45
36F女生穿吊带坐车开山路太颠咋办?晒动图求助后跳绳这个图更狠哈哈

36F女生穿吊带坐车开山路太颠咋办?晒动图求助后跳绳这个图更狠哈哈

王根基
2025-10-31 22:08:10
秦始皇后裔终现身!这 4 个姓氏全是他的血脉,看看有你的吗?

秦始皇后裔终现身!这 4 个姓氏全是他的血脉,看看有你的吗?

猫眼观史
2025-10-27 22:56:06
固态电池被吹成“电池革命”?3大致命缺点,5年内难普及

固态电池被吹成“电池革命”?3大致命缺点,5年内难普及

沙雕小琳琳
2025-11-02 15:01:30
三个央企新能源品牌,销量加起来不如一个新势力

三个央企新能源品牌,销量加起来不如一个新势力

第一财经资讯
2025-11-01 19:26:28
上头有人!柬埔寨诈骗集团头脑陈志,被曝出更多内幕

上头有人!柬埔寨诈骗集团头脑陈志,被曝出更多内幕

王二哥老搞笑
2025-10-21 08:28:28
你见过的土豪是什么样子的?网友:前台小姐直接跟着他走了

你见过的土豪是什么样子的?网友:前台小姐直接跟着他走了

特约前排观众
2025-08-19 00:20:03
独生女家庭醒醒吧,大部分的女婿成不了岳父母的半个儿子,主要有2个原因

独生女家庭醒醒吧,大部分的女婿成不了岳父母的半个儿子,主要有2个原因

有故事的人
2025-10-27 06:35:23
忠告全天下子女:再孝顺,也不要为年过70的老父老母,做这4件事

忠告全天下子女:再孝顺,也不要为年过70的老父老母,做这4件事

小小包工头阿汾
2025-11-03 08:01:59
黄仁勋再喊话特朗普:中国不要我们芯片了,得让他们继续依赖啊

黄仁勋再喊话特朗普:中国不要我们芯片了,得让他们继续依赖啊

boss外传
2025-11-02 19:05:03
曝曼联验货成功欲7000万签新中场!阿莫林冬窗就想买,一人最现实

曝曼联验货成功欲7000万签新中场!阿莫林冬窗就想买,一人最现实

罗米的曼联博客
2025-11-03 07:06:44
撩已婚女人,她若有4种反应,就是在告诉你:可以干

撩已婚女人,她若有4种反应,就是在告诉你:可以干

小鬼头体育
2025-09-18 15:10:53
蒋纬国去世后,宋美龄看完账单当场沉默:养子81年,竟欠一身债

蒋纬国去世后,宋美龄看完账单当场沉默:养子81年,竟欠一身债

老范谈史
2025-11-03 17:09:56
白天陪玩晚上陪睡?明码标价8000一次!高端伴游沦为色情交易温床

白天陪玩晚上陪睡?明码标价8000一次!高端伴游沦为色情交易温床

阿纂看事
2025-08-29 15:46:57
物理竞赛前50无一女生入围,家长叹息:生女儿还是别走这条路了

物理竞赛前50无一女生入围,家长叹息:生女儿还是别走这条路了

熙熙说教
2025-11-03 17:05:20
布伦森31分吉迪23+12+12 尼克斯终结公牛五连胜

布伦森31分吉迪23+12+12 尼克斯终结公牛五连胜

北青网-北京青年报
2025-11-03 10:47:03
11月1日起:土地承包一夜大改?土地归并定了!一次性补贴打卡?

11月1日起:土地承包一夜大改?土地归并定了!一次性补贴打卡?

李博世财经
2025-11-02 11:21:40
长得丑演技也烂,脸上写满“关系户”的5位演员,看着就让人心烦

长得丑演技也烂,脸上写满“关系户”的5位演员,看着就让人心烦

淼犇小牛
2025-10-08 15:45:03
陪玩变陪睡?高端伴游实则是下流交易?

陪玩变陪睡?高端伴游实则是下流交易?

黯泉
2025-11-03 14:45:40
2025-11-04 00:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11635文章数 142497关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

57名储户在银行大厅受骗损失千万本金 当地成立调查组

头条要闻

57名储户在银行大厅受骗损失千万本金 当地成立调查组

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

游戏
艺术
亲子
手机
公开课

TES惨败T1后再次发文:糟糕的对局辜负了大家的期待

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

亲子要闻

陪宝宝山顶飙车,小星星弯道超车太帅了,新秋名山车神诞生!

手机要闻

华为突然推送3.68GB大更新:Pura 80获推,你收到更新了吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版