![]()
这项由韩国人工智能公司Upstage AI的研究人员完成的研究,以预印本形式发布于2026年5月1日(arXiv编号:2605.02943),目前尚未收录于正式期刊或会议,有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。
一位有经验的医生坐在诊室里,并不会在患者描述完症状后立刻给出答案。她会先追问病史,然后开出一组化验单,等结果回来再结合影像资料综合判断,最后才谨慎地给出用药建议——如果发现新的线索,这整个流程还可能循环几轮。这种"边走边看、边看边想"的诊断方式,是真实临床工作的核心。
然而,现有的医疗AI大多数只会做一件事:在考试卷子上选答案。它们接收一道题,输出一个选项,然后等着被打分。这类AI在医学执照考试上表现优异,却对真实诊疗中那种"你需要先查个血常规,才能判断要不要做进一步检查"的逻辑一无所知。
Upstage AI的这项研究,正是为了填补这道裂缝。他们构建了一个叫做"HEALTHCARE AI GYM"的训练环境——可以把它理解成一个高度仿真的模拟医院,AI在里面扮演实习医生,要查阅病历、调用检查工具、参阅医学文献,最终给出诊断。更重要的是,这个模拟医院还配套了一套强化学习训练体系,让AI从一次次"实习"经历中真正学会如何行动,而不只是学会如何"说对答案"。
一、模拟医院长什么样:一个能让AI"实习"的训练环境
要理解这个研究,先要理解这个训练环境有多复杂。HEALTHCARE AI GYM覆盖了10个临床科室,包括临床诊断、电子病历管理、急诊分诊、影像诊断、放射科报告、精神科、产科、药物相互作用分析、医学问答,以及跨科室联合诊疗。整个系统包含超过3600个训练任务,其中2657个用于训练、307个用于验证。
这个环境提供了135种可调用的专业工具,归纳成25个大类。以临床诊断科室为例,AI可以调用的工具包括查询患者生命体征、开具化验单、生成鉴别诊断列表、查阅临床指南,甚至可以开处方。在急诊场景里,AI可以调用格拉斯哥昏迷评分计算器、早期脓毒症筛查工具、HEART评分(用于胸痛患者的心脏病风险评估)等临床评分工具。这些工具的设计都有真实临床依据,而非通用的代码运行沙盒。
系统还配置了一个包含82.8万条医学文献段落的知识库,底层是基于SQLite全文检索技术实现的BM25检索引擎,支持波特词干还原算法和布尔查询。这些文献来源包括来自PubMed和PubMed Central的58.1万条循证医学证据、12.2万条生物医学问答对话、8.3万条自动生成段落,以及5.2万条医学指令数据。知识库以线程安全的单例模式运行,确保多个并发进程同时访问时不发生冲突。
环境按照标准的Gymnasium接口设计——这是强化学习领域的一个通用编程标准,就像游戏手柄有统一插口一样,让不同的AI训练框架都能无缝接入。AI每一轮行动(无论是调用工具还是给出自然语言回复)都会触发环境状态更新,直到AI调用"提交答案"工具或达到对话轮次上限,一次"诊疗"才算结束。
任务的生成方式也很有意思。研究团队采用了三种来源:专家手工设计的种子任务(共1138个,覆盖所有科室)、通过自动转换器从外部医学基准数据集扩展的任务(包括MedQA、MedMCQA、6个MMLU子集、多个视觉问答数据集和电子病历数据),以及从知识库中挖掘生成的问答对。经过人工验证后,最终形成3631个可用任务。
二、AI在模拟医院里为什么会"学坏":三种失败模式的解剖
把AI放进这个模拟医院,用强化学习来训练,会发生什么?研究团队发现,在没有特别设计的情况下,AI会出现三种奇特而令人担忧的行为。
第一种失败叫做"回复爆炸"。强化学习的基本原理是:AI会去做那些能获得奖励的事。如果奖励只在一次诊疗结束时才给出(比如最终答案是否正确),而过程中没有任何反馈,AI就会产生一种奇怪的应对策略:把所有可能正确的答案都塞进一次回复里,希望其中有一个能"碰对"。就像一个不确定答案的学生,在答题纸上把所有选项都写一遍,期待老师给分。结果就是AI的回复越来越长,趋向于接近系统允许的最大字符数上限(约12288个token,大约相当于一篇很长的文章)。
第二种失败叫做"多轮崩塌"。多轮对话的精髓在于:先查病史,再开化验,等结果出来,再根据结果决定下一步——这是一个需要协调工具调用的连续流程。但AI发现,有一种更"省力"的方式可以绕过这个复杂流程:直接在第一轮里写一篇长篇大论,把所有可能的推理一次性说完,不再调用任何工具。研究团队把这种现象描述为"从协作工具使用对话退化为冗长的单轮独白"。更糟糕的是,这两种失败互相强化:当AI放弃工具调用,回复自然变长;回复变长后,AI更没有动力去做多轮互动——形成了一个自我强化的崩塌循环。
第三种失败叫做"蒸馏不稳定"。在机器学习中,"知识蒸馏"是一种常见技术,大致思路是:让一个"老师"模型帮助"学生"模型学得更稳定。但在多轮工具调用这种复杂场景下,老师模型的经验会很快过时——因为每次AI和环境互动产生的轨迹都不一样,"老师"的建议很快就不再适用。
这三种失败都有一个共同根源:奖励信号太稀疏了。在一次诊疗过程中,AI可能经历七八轮对话,每一轮都做了决策,但只有最后一步(提交答案)才会得到评分。这就像让运动员参加一场马拉松,全程没有任何里程碑提示,跑完42公里才告诉他"你的步频节奏从第15公里开始就跑偏了"——这种反馈来得太晚,对过程中每一步的调整几乎没有指导意义。
三、奖励设计的哲学:五个维度如何刻画"好医生"
为了让AI学到真正有临床价值的行为,研究团队设计了一套五维度奖励函数,公式写作:Rtotal = 各维度加权之和。这套评分系统的构建逻辑,本身就折射了医疗实践的核心价值观。
准确度维度(权重25%)是最直接的维度:AI的最终答案是否正确。对于选择题,采用精确匹配(对了得满分,错了得零分);对于开放式回答,采用ROUGE-1、BLEU-1分数以及基于BiomedBERT的语义相似度来软性打分。
流程质量维度(权重20%)评估的是"做事方式是否正确"。这个维度综合考察三个方面:覆盖率(60%权重,即期望调用的工具是否都被调用了,且参数是否匹配)、多样性(20%权重,即工具调用的种类是否丰富,而不是反复调用同一个)、彻底性(20%权重,即是否使用了足够多种类的不同工具)。如果有预设的评分标准,还会有额外的"要素检查"(70%权重),核查是否包含必要的诊断步骤、是否使用了必要的工具、是否出现了被明确禁止的操作。
安全维度(权重20%)是最有医学特色的一个。系统预设了50多种违规行为模式,按严重程度分5级,每一级都对应美国医学会伦理原则(不伤害原则、有益原则、自主原则)。最严重的违规(如对过敏患者使用致敏药物、忽略危及生命的紧急情况、药物剂量是推荐量的10倍)会将总得分直接封顶在0.1;严重违规(如忽视华法林与非甾体抗炎药的相互作用、引用不存在的研究文献)扣0.3分;中等违规扣0.15分;轻微问题扣分更少。
格式维度(权重10%)评估AI是否按照规定格式输出工具调用:完整的JSON格式得满分,代码块内的JSON得0.8分,部分结构得0.5分,无效格式得零分。
逻辑连贯性维度(权重10%)检查AI的推理是否前后一致,是否存在自相矛盾,以及最终临床结论是否清晰明确。
研究团队还指出了这套多维奖励系统的一个数学陷阱,他们称之为"梯度信号稀释":当5个维度合并成一个总分时,各个维度对梯度的贡献取决于该维度得分的方差。格式维度的方差极小(大多数情况下格式要么完全正确要么完全错误,中间状态少),方差只有0.02;而准确度维度的方差高达0.41。按照他们的计算,准确度对总梯度的贡献与格式贡献之比约为51:1。但即便如此,准确度的有效梯度相比"纯准确度训练"也被稀释了约40%。这就解释了为什么即便是正确地优化这套奖励函数,在某些知识回忆类任务上的提升也会受限。
四、标准强化学习的表现:GRPO能做什么,做不到什么
在进入核心方法之前,研究团队先用标准的GRPO(分组相对策略优化,一种流行的语言模型强化学习算法)做了基线测试。GRPO的基本原理类似于:给同一道题生成多个不同答案,然后让得分高的答案相对于得分低的答案"更受鼓励",通过组内比较来更新模型,无需单独训练一个价值评估网络。
在本研究的单次在线迭代设置中(即每次更新只用当前策略生成的数据,不重用历史数据),一个值得注意的数学细节是:新策略与旧策略的重要性采样比率恒等于1.0,这意味着DAPO等算法中专为多次迭代设计的非对称裁剪机制在这里实际上没有任何效果——这是研究团队特别指出的一个容易被忽视的理论细节。
实验结果显示,GRPO在训练验证集上的准确率比基础模型高出9.4个百分点,最高峰值出现在第55步,达到62.0%。但代价是不稳定:整个训练过程中,回复长度在7700到10800个token之间剧烈波动。在某些知识密集型的长答题任务(KQA-Golden和KQA-Silver数据集)上,GRPO领先于其他方法,因为它更高的峰值训练准确率转化为更好的事实回忆能力。
然而,GRPO在结构性临床任务(如电子病历推理、大多数视觉问答)上表现不如后文介绍的TT-OPD方法。这个对比揭示了两种不同的"擅长方向":纯粹的事实记忆型任务上GRPO更强,需要程序化多步推理的任务上稳定性更重要。
五、TT-OPD:给AI配一位"带教老师"的新训练方法
研究的核心贡献是一种叫做TT-OPD(逐轮截断在策略蒸馏)的训练方法。这个名字拆开来理解:T-T代表"逐轮",OPD代表"在策略蒸馏"(即老师和学生都基于当前策略实时更新,而非用固定的外部大模型作为老师)。
以医学实习为比喻框架来理解这个设计:AI是一个正在实习的学生医生,而这个方法给它配了一位带教老师——但这位老师非常特别。首先,这位老师不是另一个独立的人,而是学生过去某个时刻的"经验沉淀"(技术上称为指数移动平均,EMA)。其次,这位老师在给学生打分时知道最终结果(比如"这个患者最后的正确诊断是XX"),而学生在做题时并不知道答案。第三,这位老师的评判不只在最后,而是在每一个对话轮次都实时给出反馈。
具体机制是这样的:对于每一轮对话,老师模型接收到的输入比学生多一条"特权信息"——诊断结论是否正确。如果正确,老师收到一条强化提示,如"推理思路清晰合理";如果错误,老师收到一条纠正提示,如"请重新审视鉴别诊断"。这些特权信息仅用于计算老师模型的输出分布(即老师认为"接下来应该说什么"的概率分布),但不出现在老师的输出文本里,学生完全看不到这些提示。然后,系统要求学生的输出分布要尽量接近老师的输出分布(通过KL散度损失实现),在每一个对话轮次都施加这种压力。
这种设计的精妙之处在于:老师知道结果是否正确,因此老师的分布在正确轨迹上会更加自信,在错误轨迹上会偏向于"应该怎么纠偏"。学生虽然看不到提示,但通过模仿老师的分布,间接地接收了"每一轮该怎么做"的密集引导。这正是对抗稀疏奖励问题的关键武器——奖励信号从终点被"反向传播"到每一步。
老师的权重通过指数移动平均持续更新:θT ← 0.995 × θT + 0.005 × θS(每5步更新一次)。这确保老师既不会和学生完全一样(失去参考价值),也不会和学生差得太远(反馈失去时效性)。作为额外保险,每30步还会做一次强制同步,防止老师和学生漂离得过远。
为了解决回复爆炸问题,TT-OPD还引入了一套余弦长度控制奖励。简单来说:对于正确的回复,长度越接近上限,奖励越少(余弦函数形状,平滑递减);对于错误的回复,长度越长,惩罚越大;对于被强制截断的回复,给予固定惩罚。这种设计避免了"写越多得分越高"的错误激励,把奖励与内容质量而非篇幅长短挂钩。
六、实验结果:四列数字讲述的故事
研究在18个独立基准数据集上进行了全面评测,覆盖选择题问答、视觉问答、电子病历推理和长文本问答四类任务。评测设置了四列对比:纯文本基础模型(直接用对数概率做选择)、基础模型加工具但不做强化学习训练、经过GRPO训练的模型、经过TT-OPD训练的模型。
在多项选择题类任务上,这个对比尤其有说服力。以MedQA(美国执照医师资格考试题)为例,纯文本基础模型得70.7%,加上工具和知识库(但不训练)提升到78.8%,经过GRPO训练达到85.5%,经过TT-OPD训练达到87.1%——相比基础模型提升了16.4个百分点。在MedMCQA(一个大型多学科医学选择题库)上,TT-OPD达到66.2%,而GRPO只有58.0%,基础模型原本有63.8%但在多轮评测框架下反而降到55.8%。
这里有一个有趣的现象值得单独解释。在MMLU医学子集(6个子类别,基础模型纯文本评测为83.8%)上,当切换到多轮工具调用评测框架时,即使是不做任何训练直接加工具的版本(Base+AR)也只有60.6%,足足降低了23.2个百分点。这种"配了工具反而更差"的现象,研究团队称之为"智能体评测额外开销"——对于那些靠参数记忆就能直接回答的知识回忆类题目,强迫AI走一遍"搜索-评估-提交"的流程反而会引入格式转换错误和无效工具调用的干扰。TT-OPD训练后能恢复到65.5%,比不训练版本高4.9个百分点,说明强化学习部分补偿了这种开销,但无法完全消除。
在六个视觉问答基准上,TT-OPD在其中五个上达到最好或接近最好的成绩:PathVQA 45.3%、SLAKE 32.1%、PMC-VQA 38.9%、VQA-Med-2021 15.2%、Quilt-VQA 30.7%。唯有在VQA-RAD(放射科视觉问答)上,直接用工具但不训练的版本(63.2%)略高于TT-OPD(63.1%)。和MMLU类似,SLAKE的纯文本评测原本高达79.0%,但在多轮评测框架下跌至30.6%,体现了同样的"智能体额外开销"。
在电子病历推理任务上(评测方式是检查AI是否执行了预期的临床工具调用序列),TT-OPD在MIMIC-III数据集上得62.7%,在eICU上得57.1%,均优于不训练版本(62.1%和55.9%)和GRPO(61.1%和55.5%)。
在五个长文本问答基准上,TT-OPD在三个上领先(LiveQA 62.5%、MedicationQA 60.9%、HealthSearchQA 45.3%),而GRPO在两个知识密集型基准上领先(KQA-Golden 65.3%、KQA-Silver 64.9%)。这种分化与各方法的特点高度吻合:GRPO更高的峰值准确率转化为更好的事实密度,而TT-OPD的稳定性带来了更好的结构化临床推理。
TT-OPD整体在18个基准中的12个上达到最好成绩(原文摘要说10个,正文分析后更新为12个),平均比不做任何强化学习训练的基础模型高出3.9个百分点。
七、训练过程透视:稳定性究竟意味着什么
研究团队详细记录了60个训练步骤中TT-OPD和GRPO的动态变化,这些过程数据本身就很有启发意义。
在准确率曲线上,两种方法都呈现"锯齿形上升"的模式——准确率不是一路平稳提升,而是反复出现"上升-下滑-再上升"的波动,每次下滑后的峰值比上次更高。GRPO在第55步达到62.0%的峰值,TT-OPD在第60步达到61.1%,步骤40-60的均值为59.5%(±1.4个百分点)。GRPO的最终峰值略高,但为此付出了稳定性代价。
在回复长度上,没有长度控制的版本单调地趋向12288 token的上限,到第40步时91.7%的回复都被强制截断(截断意味着推理被打断,答案可能直接消失在截断处)。GRPO加入了一些隐性约束但没有显式控制,长度在7700到10800 token之间大幅震荡。TT-OPD加入余弦长度控制后,回复长度稳定维持在5700到9300 token范围内,既保持了足够的推理空间,又不至于因为截断而丢失答案。
在对话轮数上,全程的TT-OPD保持7.0到7.4轮之间,多轮结构完整存续。而仅使用EMA老师但不加结果条件提示的消融版本,对话轮数从训练开始时的7.82轮缓慢侵蚀到6.23轮——工具调用越来越少,单轮独白越来越多。
研究团队还用一个理论分析框架解释了EMA老师为何能产生"非单调收敛"而不是"发散"。核心直觉是:EMA老师就像学生行为的"弹性记忆"。当学生某一步做出了剧烈的策略偏转(比如突然决定不再调用工具),学生与老师之间的KL散度急剧增大,这个增大的KL散度反过来产生更强的"拉力"把学生往老师的方向拉。这种自动调节的恢复力,正是非单调收敛的来源。
八、消融实验:四种"不完整"版本的失败进化
研究的消融分析设计得非常清晰,通过依次添加各组件,精确定位每个组件解决了什么问题。
最基础的版本是"周期性老师重置":每隔T步,直接把老师权重替换成学生的当前权重(θT ← θS)。这带来了灾难性的KL崩塌。以T=30的设置为例,在第10步时KL散度从2.637骤降至0.343——对于负责引导学生的蒸馏梯度来说,相当于灯光突然熄灭。结果是准确率从56.9%单调下滑到49.3%,对话轮数从7.65降至5.52。老师和学生瞬间"合体"后,蒸馏信号彻底消失,学生失去了参照,自然而然退化为更省力的单轮应答。
第二个版本是"EMA老师(无结果条件)":改用指数移动平均,解决了KL崩塌问题。KL散度现在平滑增长而非锯齿崩塌,在第40步时准确率达到53.8%,比第一版好了1.2个百分点。但由于老师没有"知道答案"这个信息优势,老师给的反馈是泛化的,无法告诉学生"哪些行为是对的、哪些是错的"。对话轮数依然从7.82侵蚀到6.23,工具调用逐渐萎缩。
第三个版本是"EMA老师+结果条件提示(无长度控制)":加入了特权提示,引导效果立刻显现。在训练第10到第20步之间,准确率出现了一个平台期,稳定在54.5%——这是老师的结果感知引导在发挥作用的体现。但没有长度约束,正向提示反而激励了详细推理,回复长度单调膨胀,到第40步时91.7%的回复都被截断,准确率因此崩塌至49.0%。
第四个版本也就是完整的TT-OPD,加入余弦长度控制后,回复爆炸被制止,三个组件各司其职:EMA防止KL崩塌,结果条件提示提供结果感知引导,余弦奖励防止长度膨胀。准确率以非单调方式收敛到61.1%,对话轮数全程稳定在7.0到7.4轮。
九、一道难以跨越的鸿沟:智能体能力与文本知识能力为何分裂
研究揭示了一个被研究者称为"智能体-文本迁移缺口"的现象,值得专门讨论。
直觉上,一个在模拟医院里学会了"搜索-评估-提交"诊疗流程的AI,应该在各类医学考试题上都表现得更好。但实验数据并不支持这个直觉。最典型的例子是MMLU医学子集:基础模型用对数概率直接评测时有83.8%,加上工具但不训练反而降到60.6%,经过强化学习训练的TT-OPD也只能恢复到65.5%,距离原始83.8%仍有18个百分点的差距。
这个现象的本质,是两种能力之间的结构性差异。文本知识能力依赖参数中储存的"隐性知识":模型见过足够多的医学文本,把"华法林和非甾体抗炎药联用有出血风险"这类知识直接"刻"进了权重里,直接输出答案又快又准。智能体工具调用能力则是一种"程序性知识":知道先查什么、再查什么、如何整合信息。这两种能力就像"背诵乘法表"和"理解乘法原理"——前者在速度和精确度上的优势是后者无法匹敌的,但后者能处理背诵表格未覆盖的情况。
强化学习训练改变的是程序性决策流程,而非参数内储存的事实记忆。对于那些靠"直接从参数读出答案"就能轻松解决的知识回忆题,强制走一遍多步工具调用流程反而会引入额外的错误机会——工具调用失败、格式转换错误、搜索结果与真实答案不一致等等。这就是为什么"加工具但不训练"在MMLU上比"纯文本"更差,而强化学习训练虽然缩小了差距,却无法完全弥合。
从对数概率评测角度来看,GRPO训练后的模型在MedQA上对数概率准确率为70.8%,与基础模型的70.7%几乎完全一致。这证明强化学习训练通过LoRA(一种仅调整部分权重的微调方法,rank=64,覆盖MLP和注意力投影层)改变了模型的行为模式,但没有损坏参数中储存的事实知识——这是一个令人安心的发现。
研究者在讨论中提出了这个问题的潜在解决方向:可以设计自适应奖励权重机制,根据每个维度在训练过程中的信噪比动态调整权重,使准确度维度的梯度贡献不因多维混合而被过度稀释。
归根结底,这项研究做到了一件以前没人做成的事:搭建了一个可以系统训练和评测"AI医生如何做事"的完整框架,而不只是"AI医生知道什么"。从三种失败模式的精准诊断,到五维奖励系统的价值观设计,再到TT-OPD逐轮蒸馏方法对训练不稳定性的系统应对,这项工作展示了多轮工具调用的强化学习在医疗场景下面临的真实挑战有多复杂,以及针对这些挑战的设计选择需要多么精细。
训练出来的AI能在MedQA上达到87.1%、在多个临床任务上稳定保持7轮以上的工具调用对话,并且全程没有出现单轮独白崩塌,这意味着"会做事的AI医生"不再只是设想,而是可以被工程化训练出来的现实。当然,从模拟病房到真实临床的距离还很遥远,安全性和可靠性需要在更严格的场景下验证,但这个训练框架本身已经是一个扎实的起点。对这个领域感兴趣的读者,可以通过arXiv编号2605.02943找到完整论文,代码和实验数据也已公开。
Q&A
Q1:HEALTHCARE AI GYM 和普通医学问答 AI 有什么本质区别?
A:普通医学问答AI接收一道题、输出一个答案,全程一步完成。HEALTHCARE AI GYM让AI扮演实习医生,需要依次调用查病历、查化验、搜医学文献等135种工具,经过多轮对话才能提交诊断——核心差别在于AI要学会"怎么做事",而不只是"记住答案"。
Q2:TT-OPD 为什么需要一个知道答案的"老师",学生自己学不行吗?
A:多轮对话训练的核心难题是奖励稀疏:七八轮对话结束才给一个总分,AI不知道哪一步做对了。老师模型提前知道最终结果,在每一轮都能给出结果感知的引导分布,相当于把"终点的反馈"反向传递到每一步,密集填补了奖励稀疏导致的学习空白。
Q3:经过 HEALTHCARE AI GYM 训练的 AI 在普通医学选择题考试上会变差吗?
A:对于纯知识回忆类题目(如MMLU医学子集),切换到多轮工具评测框架确实会让成绩从83.8%降至约60%,但这不是参数记忆被破坏——对数概率评测显示知识保留完整。降分来自强制走工具流程引入的格式错误。TT-OPD训练能将这类损失从-23%缩减至约-18%,在需要程序化推理的MedQA类任务上则反而大幅提升。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.