网易首页 > 网易号 > 正文 申请入驻

7B模型对标GPT-4o,全球首个医疗代码生成大模型训练平台来了

0
分享至

德克萨斯大学西南医学中心团队投稿 发自 凹非寺
量子位 | 公众号 QbitAI

医疗AI场景复杂,需要“又懂医疗又懂编程”的agent。

但像GPT这样现成的大模型难以直接部署,该如何突破技术壁垒?

答案是:打造一个统一的训练平台,专门训练能够生成医疗代码的大模型。

最近,来自埃默里大学、佐治亚理工学院、耶鲁大学和德克萨斯大学西南医学中心的研究团队,发布了全球首个专注于医疗代码生成的大模型训练平台——MedAgentGym。

该平台不仅提供了全面的评估基准,更重要的是建立了完整的训练生态系统,能够系统性提升大模型在医疗领域的代码生成和推理能力。

实验结果表明,经过MedAgentGym训练的开源模型Med-Copilot-7B在多项医疗编程任务上达到了与GPT-4o相当的性能水平。

医疗AI的”编程瓶颈”

当前医疗AI应用面临着一个关键技术挑战:如何让AI系统自动生成可靠的医疗相关代码。

无论是处理电子健康记录(EHR)查询、生物信息学分析,还是构建临床决策支持系统,都需要精确的编程能力作为支撑。

然而,现有解决方案存在明显局限:

商业模型的现实困境

- 数据隐私风险:医疗数据的敏感性使得直接调用商业API存在合规风险
- 成本压力:大规模医疗应用的API调用费用难以承受
- 部署限制:无法在本地或私有云环境中灵活部署

开源模型的能力短板

- 专业知识不足:缺乏深度的医学领域知识
- 编程能力有限:在复杂的医疗编程任务上表现不佳
- 训练资源缺乏:缺少专门的医疗代码训练数据和环境

研究表明,引入编程能力可以显著提升模型在计算医疗推理任务上的表现。在MIMIC-III、eICU和MedCalcBench等数据集中,基于代码的计算推理成功率远高于传统的自然语言推理方法。

在MIMIC-III、eICU和MedCalcBench三个数据集中,基于代码的计算推理(橙色)成功率远高于传统的叙述式推理(蓝色)。

MedAgentGym:突破性的解决方案

与其他基准相比,MedAgentGym提供了集成了可执行环境、交互式反馈和任务隔离运行设施的编码训练平台。为了解决这一系列挑战,MedAgentGym提供了一个前所未有的综合性解决方案。该平台的核心创新体现在三个维度:

大规模真实医疗任务集合

MedAgentGym整合了来自12个真实生物医学场景的72,413个编程任务实例,覆盖129个不同类别。

任务范围横跨四大核心领域:
- 结构化医疗信息检索:如EHR数据库查询、临床记录分析
- 医疗数据科学:包括统计分析、临床计算等
- 生物信息学建模:涵盖序列分析、系统发育学等
- 机器学习应用:临床预测、风险评估等

数据模态极其丰富,包含临床笔记、实验室报告、EHR表格、生物序列等多种格式,全面考验模型的综合处理能力。

高效可扩展的训练基础设施

MedAgentGym在技术架构上实现了多项突破:

- 容器化隔离环境:每个任务都封装在独立的Docker容器中,预装所有依赖项,确保环境安全性和可复现性
- 交互式反馈机制:当代码执行出错时,系统能将错误信息转化为结构化的自然语言反馈,帮助模型进行调试和优化
- 并行处理能力:集成Ray和Joblib等后端引擎,支持大规模并行轨迹采样和训练

在拥有交互式调试能力时(蓝色),gpt-4.1-mini模型的性能远高于移除该能力后(橙色)的表现,证明了MedAgentGym交互式环境的巨大价值。

此外,错误类型分析揭示了当前模型在复杂医疗代码任务中面临的主要挑战。其中,“陷入循环”不能成功debug是最主要的错误类型,占比高达50.39%。

全面的模型评估体系

研究团队系统性评估了超过25个主流大模型,包括:

  • API商业模型:GPT系列
  • 开源通用模型:Qwen、LLaMA、Gemma等
  • 专业编程模型:Qwen2.5-Coder等
  • 医疗领域模型:HuatuoGPT、MedReason等

评估结果揭示了商业模型与开源模型之间的显著性能差距,为后续优化指明了方向。

MedAgentGym零样本(Zero-shot)测试集结果详细列出了超过25个前沿大模型在8个不同任务上的原始得分,是评估各模型在医疗代码生成领域综合实力的核心依据。

Med-Copilot:开源模型的逆袭之路

基于MedAgentGym平台,研究团队开发了Med-Copilot系列模型,并取得了突破性成果。

训练策略: 采用两阶段精细化训练框架:

- 监督微调(SFT):使用2,137个成功执行的代码轨迹进行初始训练
- 强化学习优化(DPO):通过偏好优化进一步提升性能

性能突破

Med-Copilot-7B通过SFT训练,性能提升36.44%
结合DPO后,总体性能提升达到42.47%
最终在MedAgentGym基准上达到59.90分,接近GPT-4o的性能水平

关键技术创新

研究团队还训练了一个AI验证器(Verifier),能够从多次代码生成尝试中自动识别最佳解决方案。实验显示:

  • 在16次尝试中,模型的潜在成功率可达45%
  • AI验证器能够以42%的准确率识别出正确答案
  • 仅有3%的差距证明了验证器的可靠性

仅使用SFT、仅使用DPO以及SFT与DPO结合的策略对7B和14B基础模型性能的提升效果,验证了SFT+DPO两阶段训练框架的有效性。

可持续进化的蓝图:自我提升与性能扩展

MedAgentGym不仅展示了一次性的成功,更揭示了一条可持续进化的清晰路径。其中的关键,在于一个强大的“AI裁判”(即验证器,Verifier)。

性能具备高度可扩展性

研究团队让模型对同一个任务进行多次尝试(最多16次),并让“AI裁判”从这些尝试中选出最佳答案。结果令人惊喜:

- 潜力上限 (Pass@k):在16次尝试中,模型只要有一次成功,就算解出。在这种理想情况下,成功率从单次尝试的17%飙升至45%。这说明模型本身具备解决问题的潜力。
- 实际表现 (Best@k):更关键的是,在“AI裁判”的帮助下,从这16次尝试中自动选出的最佳答案,其实际成功率高达42%!

仅有3%的微小差距证明,这个AI裁判的眼光极其“毒辣”,能够非常可靠地识别出正确的解决方案。这一成果意义重大,因为它意味着这个验证器已经足够强大,可以作为奖励模型(Reward Model)赋能给PPO、GRPO等更先进的在线强化学习框架,为训练出更强大的医疗AI铺平了道路。

- 无论是增加训练数据量,还是在推理时增加尝试次数(Rollouts),模型的最终成功率都表现出稳定、显著的提升。这为未来进一步提升模型性能指明了方向:更多的计算投入和数据积累,将带来更强大的医疗AI智能体。

推理时增加尝试次数(k)能提升成功率(Pass@k);此外,显示增加训练数据量也能稳定提升模型表现。

- 模型可以自我提升:这种强大的验证能力也解锁了模型的自我提升:AI智能体可以通过“拒绝采样+迭代DPO”的自我改进循环,利用自己生成的轨迹数据进行持续学习和优化,不断突破性能上限 (3-5%)。

通过“拒绝采样SFT”和两轮DPO的自我改进循环,模型性能得以持续增长。

未来展望:加速医疗AI的普惠化进程

MedAgentGym的发布,为医学的AI和大语言模型智能体的研究者和开发者提供了一个强大工具。它通过提供一个统一、开放、可扩展的平台,填补了医疗代码智能体开发领域的关键空白。

通过将真实世界的生物医学任务、高效可复现的基础设施以及对前沿模型的大规模基准测试相结合,MedAgentGym为推动LLM在医疗领域的应用奠定了一个坚实的基础。

研究团队希望,MedAgentGym能够激发更多创新,促进高效、可靠、临床接地的AI智能体的发展,最终为现实世界的医疗研究与实践提供支持。

有理由相信,在MedAgentGym的助力下,一个能够从成功中学习、从失败中进化的,更加智能和高效的未来医疗新时代,正加速到来。

论文链接:https://arxiv.org/abs/2506.04405

项目主页:https://wshi83.github.io/MedAgentGym-Page/

代码链接:https://github.com/wshi83/MedAgentGym

数据及模型:https://huggingface.co/MedAgentGym

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
25岁林妙可惊艳蜕变:丰腴之美,自信如花?

25岁林妙可惊艳蜕变:丰腴之美,自信如花?

娱乐领航家
2026-01-16 22:00:03
奥乐齐疯狂复刻「贵妇美妆」被江浙沪中产抢成白菜?“不到50就拿下4000块鱼子精华平替”

奥乐齐疯狂复刻「贵妇美妆」被江浙沪中产抢成白菜?“不到50就拿下4000块鱼子精华平替”

Vista氢商业
2026-01-15 16:29:15
聂卫平去世后,日本棋院以及诸多围棋界人士表达哀悼

聂卫平去世后,日本棋院以及诸多围棋界人士表达哀悼

懂球帝
2026-01-16 00:49:38
华南理工大学一本科生,申请转入一民办高校,原因公布,让人可惜

华南理工大学一本科生,申请转入一民办高校,原因公布,让人可惜

凯旋学长
2026-01-16 16:08:06
果然没让中国失望!李在明当着高市早苗的面,给日本浇了一盆冷水

果然没让中国失望!李在明当着高市早苗的面,给日本浇了一盆冷水

云景侃记
2026-01-16 21:48:38
特朗普刚要下令对伊朗动武,谁曾想接到一通电话后,紧急叫停行动

特朗普刚要下令对伊朗动武,谁曾想接到一通电话后,紧急叫停行动

老寓杂谈
2026-01-16 21:15:18
抗美援朝时,美空军为何始终找不到彭老总的指挥所?有一关键人物

抗美援朝时,美空军为何始终找不到彭老总的指挥所?有一关键人物

大运河时空
2026-01-05 08:20:03
新款本田飞度上市,换装分体式灯组,三种车漆配色,售价6.68万元

新款本田飞度上市,换装分体式灯组,三种车漆配色,售价6.68万元

红涛说車
2026-01-15 18:38:56
朱元璋出巡时,遇到当年的地主:当年到你家要饭,为何给我馊饭?

朱元璋出巡时,遇到当年的地主:当年到你家要饭,为何给我馊饭?

五元讲堂
2025-11-06 10:41:50
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
1月13日,美军展示了一个照片,几乎等于承认和中方没法打!

1月13日,美军展示了一个照片,几乎等于承认和中方没法打!

安安说
2026-01-15 14:30:22
难以接受现实,外国媒体曾坚决认定,中国新型战机压根不是六代机

难以接受现实,外国媒体曾坚决认定,中国新型战机压根不是六代机

你是我心中最美星空
2026-01-16 22:00:05
王阳:尽管我和蒋欣有过恋情,但余生绝不会辜负苦等我6年的高斯

王阳:尽管我和蒋欣有过恋情,但余生绝不会辜负苦等我6年的高斯

小熊侃史
2025-12-20 10:55:51
苏林主导!越共十四大下周开幕,最高权力结构将被重塑?

苏林主导!越共十四大下周开幕,最高权力结构将被重塑?

40度观察
2026-01-16 16:32:00
我也不能怪父亲!男子回家过年没地方睡:这样的家庭,我该怎么办

我也不能怪父亲!男子回家过年没地方睡:这样的家庭,我该怎么办

唐小糖说情感
2026-01-16 16:54:54
下一站是?格拉斯纳:我几个月前已通知俱乐部,想要新的挑战

下一站是?格拉斯纳:我几个月前已通知俱乐部,想要新的挑战

懂球帝
2026-01-16 22:10:09
单论军事指挥能力而言,十大元帅该怎么排名,徐帅肯定不是第八

单论军事指挥能力而言,十大元帅该怎么排名,徐帅肯定不是第八

兴趣知识
2026-01-16 14:56:20
受够了AI脱衣?新《古墓丽影》劳拉演员宣布推特删号

受够了AI脱衣?新《古墓丽影》劳拉演员宣布推特删号

游民星空
2026-01-14 12:13:11
林允最新活动有“妈味”!?

林允最新活动有“妈味”!?

八卦疯叔
2026-01-16 11:46:29
亚洲第一个倒下的国家即将出现,曾比肩中国,如今在走日本的老路

亚洲第一个倒下的国家即将出现,曾比肩中国,如今在走日本的老路

丰谭笔录
2026-01-16 07:45:09
2026-01-16 22:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
12023文章数 176360关注度
往期回顾 全部

科技要闻

传小米传音Ovi四家手机厂下调全年出货预期

头条要闻

温州一家企业火了:春节放假35天 准时返岗再发5000元

头条要闻

温州一家企业火了:春节放假35天 准时返岗再发5000元

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

健康
数码
亲子
教育
游戏

血常规3项异常,是身体警报!

数码要闻

震动拖地+8.8cm越障!石头G30S Pro将带来极致清洁体验

亲子要闻

宝妈必学,不要把孩子的安危寄托于别人!

教育要闻

博主举报闫学品儿子林某

LCK春季赛:T1阵容初见峥嵘,三局战胜HLE,宙斯和姑妈有点难看

无障碍浏览 进入关怀版