网易首页 > 网易号 > 正文 申请入驻

GAIR Paper 105|离线强化学习新突破——ROMI:破解对抗式模型学习「过保守、训不稳」深层困局|ICLR 2026

0
分享至

ROMI:离线强化学习新突破,探索对抗式模型学习范式全新实现路径,破解保守性难控与训练不稳的深层困局。

作者丨乔钟健

离线强化学习(offline RL)的目标,是在不与环境继续交互的前提下,仅依赖已有数据集学习策略。相比无模型(model-free)方法,基于模型的离线强化学习(model-based offline RL)会额外训练一个环境动力学模型,让策略在该模型上生成轨迹,借此扩展离线训练数据、提升算法的样本效率与泛化能力。

然而,基于模型的离线强化学习并非完全理想,主要原因在于:模型预测的环境动态不可能完全准确,一旦策略在生成轨迹过程中探索到模型预测偏差较大但价值较高的区域,就可能利用这些误差,朝着“在模型里看起来价值高、在真实环境里却表现差”的方向优化。这就是经典的模型利用model exploitation问题。

为了解决这一问题,以往研究通常会引入某种形式的保守性(conservatism)。其中,一条主流路线是利用不确定性估计来给模型增加惩罚项;另一经典范式则是对抗式模型学习(adversarial model learning),即把环境模型看作一个“最坏情况”的对手,在一定不确定性集合内寻找对策略最不利的动力学模型,从而抑制策略对模型误差的投机利用 [1]。

尽管该范式在理论分析层面已积累较为丰富的结果,但如何设计实际训练算法实现该范式仍面临挑战,有待进一步探索。其中 RAMBO [2] 是该研究方向中最具代表性的经典工作之一。

本论文旨在探索对抗式模型学习范式的全新实现路径,进一步弥合理论与实际实现性能之间的鸿沟,设计更有效的实际算法,并在标准数据集上验证其实用性能

通过深入分析,本文作者发现,RAMBO 在实践中往往面临两个难以回避的问题:保守程度很难控制,以及训练过程容易不稳定,这源于 RAMBO 使用了容易导致过度保守和梯度爆炸的模型梯度(model gradient)方法来更新环境模型。

针对这一瓶颈,本文的研究者提出了ROMI(RObust Value-aware Model learning with Implicitly differentiable adaptive weighting)方法

该方法不再直接沿用RAMBO的模型更新方式,而是提出一种鲁棒价值感知的模型学习框架,并进一步引入隐式可微的自适应加权双层优化机制,同时兼顾价值保守性与分布外泛化能力。

在 D4RL 与 NeoRL 多个基准任务上,ROMI 显著超越同属对抗式模型学习路线的 RAMBO,更在多数任务上达到甚至超越无模型与基于模型带惩罚项的离线强化学习 SOTA 方法的性能。

本文作者来自香港城市大学、腾讯、芝加哥大学、香港科技大学(广州)等机构。作者包括乔钟健、吕加飞、吕博翔、舒遥、高思阳、邱爽。其中,第一作者为香港城市大学乔钟健,通讯作者为香港城市大学助理教授邱爽。该论文已被国际机器学习顶会ICLR 2026接收。


论文题目:Model-based Offline RL via Robust Value-aware Model Learning with Implicitly Differentiable Adaptive Weighting

文章链接:https://openreview.net/pdf?id=yxx6XiXwx2

01


研究背景:对抗式模型学习和RAMBO算法

为缓解模型利用问题,一类主流方法依赖不确定性估计,对模型施加额外惩罚;相比之下,对抗式模型学习提供了另一条路径:不再显式估计不确定性,而是将离线强化学习表述为一个策略与动力学模型之间的博弈问题。该范式目标是求解一个最大化最小值(max-min)问题 [1]:

其中, 是动态不确定性集合, 是分布距离度量, 为通过最大似然估计学习到的数据集动态。

RAMBO 算法则是对抗式模型学习的一种经典实现方式,将原问题转化为优化求解以下问题 [2]:

其中,第一项是对抗损失,以最小化模型在分布外(OOD)区域的价值,通过模型梯度进行优化;第二项是标准的最大似然损失。 是拉格朗日乘子,在实际中对于每个任务设置为常数。

02


核心痛点:RAMBO 为什么不够理想


本文指出,RAMBO 虽然提供了一个可落地的对抗式模型学习实现,但它依赖一个对抗权重系数 去平衡最大似然学习与对抗训练。问题在于, 在原始算法中往往被设得极小,例如 ,这意味着对抗项的作用其实被压得很弱。基于此观察,论文首先探索了不同 值对训练的影响。论文发现,当 很小时,如 , 对训练的影响区别并不大。然而,一旦把 略微调大一些,如 0.05 或 0.1,训练可能会导致 Q 值严重低估,甚至出现梯度爆炸,从而导致训练崩溃。这背后反映的是两个更本质的问题:

  • 保守性难以精细控制。RAMBO 中的 本质上应视为对偶变量,并需要通过梯度算法来进行更新优化。但在实际训练中,往往在同一个任务中将 设定为一个常数,因此很难稳定地决定“到底该有多保守”。

  • 模型梯度更新本身容易过于激进。RAMBO 借助模型梯度(model gradient)去主动寻找“值函数更低”的区域,这种机制在实际实现中往往会把模型推向一些数值上极不稳定的方向,进而带来 Q 值低估与梯度爆炸。

03


解决方案:ROMI 算法

针对以上两个核心痛点,本文的研究者提出 ROMI 算法作为解决方案,ROMI 的核心包括鲁棒价值感知的模型学习框架,以及隐式可微的自适应加权双层优化机制。

鲁棒价值感知的模型学习

为了解决 RAMBO 中“保守性难以控制”以及“模型梯度更新不稳定”的问题,ROMI 不再直接用模型梯度去压低分布外区域的价值,而是回归对抗式模型学习的离线强化学习范式中原始的最大化最小值目标,从单步价值误差(one-step value estimation error)的角度构造一个更稳定、也更可控的模型学习目标。具体来说,ROMI将原问题改写为:

即,将原始的最大化最小值问题转换成“使模型对应的价值与不确定性集合下的最坏情况价值保持对齐”的优化目标。为了实现这个目标,需要最小化价值感知的模型误差(value-aware model error):

根据价值函数的定义进行单步展开,进一步得到:

然而,直接最小化 会带来一个关键问题:由于动作是从当前策略采样的,而 只在离线数据集 中有定义,因此,一旦产生了分布外动作,最小化 会驱使模型在分布外区域内追求任意低的价值,这也是 RAMBO 会过度保守的本质原因。为了解决这个问题,ROMI将目标改为只在分布内区域显式学习保守性:将动作分布从策略 换成行为策略 ,并把价值函数替换成训练过程中的价值 ,得到新的优化目标:

即,在分布内区域学习一个“温和保守"的模型,而分布外区域的保守性则通过模型的泛化性实现。优化 的主要困难在于计算 ,因为 是一个无法直接得到的动力学集合。为了解决这个问题,论文选择Wasserstein距离作为分布距离度量,并定义Wasserstein动力学不确定集:

其中 代表两个分布之间的Wasserstein距离。在Wasserstein距离度量下,论文给出了一个关键的对偶形式转换:

其中 为状态不确定集。在这样的转换下,ROMI 不再依赖无法得到的动力学不确定集,而只需要在显式的状态空间中进行最小值函数的搜索即可。将以上对偶形式代入 的表达式,得到:

训练目标转化为:让当前模型预测的下一个状态的价值,贴近局部邻域中的最小价值。进一步,由于离线数据中已经有 的样本,而 正是由这些样本通过最大似然拟合得到的,因此在可以使用数据集中的 作为邻域中心,并在其附近加噪构造 ,并将 参数化为 ,得到最终的鲁棒价值感知的模型损失(robust value-aware model loss,RVL):

其中, 是从 中随机采样得到的 个扰动状态。这套构造有两个最大优点:

  • 保守程度的可控性。保守性由 直接控制,而非由拉格朗日系数隐式控制。 越大,状态不确定集越大,局部最小值越低,保守性增强;反之, 越小,保守性减弱。

  • 模型更新的稳定性。RAMBO 的风险在于它用模型梯度直接把预测推向价值陡降区域,很容易导致梯度爆炸;而 ROMI 只是在一个邻域里做最小值逼近,因此训练稳定性显著增强。

隐式可微的自适应加权双层优化

由于 仅仅约束了模型预测状态的价值,并没有考虑模型预测动态的误差,可能会导致策略在多步轨迹生成时被迫探索分布外区域,增加分布外泛化的误差。因此,还需要一个能够平衡价值约束和动态约束的机制。ROMI 使用双层优化来实现这一目标。具体来说,ROMI 引入了一个动态加权网络 对每一个状态转移对 分配独立的权重,并优化以下目标函数:

其中, 为加权监督学习损失。ROMI 在内层通过加权监督学习来更新环境动态模型,以实现动态约束;同时在外层利用隐式微分通过最小化 来优化 ,以实现价值约束。

  • 内层优化:固定 ,使用梯度下降最小化 来优化环境动态模型 :


其中, 是环境动态模型在第 步的学习率。

  • 外层优化:通过链式法计算动态加权网络 的梯度:


其中,

接着,使用Pytorch框架的自动微分来更新

其中, 是动态加权网络在第 步的学习率。

最终的 ROMI 算法通过鲁棒价值感知的模型学习以及隐式可微的自适应加权双层优化框架更新环境动态模型 ,同时使用 SAC 算法更新策略 完成训练流程。

04


实验验证

基准性能测试

论文在标准的 D4RL 以及 NeoRL 基准的多个数据集上验证了 ROMI 的有效性,并与多个代表性离线强化学习方法进行了充分对比:包括与 ROMI 同属基于模型的对抗式模型学习路线的 RAMBO,无模型离线强化学习算法 CQL 与 IQL,以及基于模型且带惩罚项的离线强化学习方法 MOPO、Count-MORL 和 MOBILE。

D4RL. 在 D4RL 基准上,论文选择了三种机器人控制任务(halfcheetah,hopper,walker2d),每种任务包含四种数据集(random,medium,medium-replay,medium-expert)。下表展示了在各个数据集下,ROMI 和基线算法的标准化得分(Normalized Score)对比结果。可以看出,ROMI 在绝大部分数据集上都取得了相比基线算法更优秀的性能。具体来说,ROMI 的总得分达到了953.5,相比于 RAMBO 算法提升了18.6%。即使相比于 MOBILE 和 Count-MORL 算法,ROMI 也在12个数据集中的11个达到了最优的性能。


NeoRL.在 NeoRL 基准上,论文选择了三种机器人控制任务(halfcheetah,hopper,walker2d),每种任务包含三种数据质量的数据集(low,medium,high)。论文同样展示了在每个数据集上 ROMI 和基线算法的标准化得分对比结果。可以看出,ROMI在9个数据集中的6个达到了最优的性能,并取得了最高的总得分。


消融实验

论文通过消融实验探究了动态约束对 ROMI 算法性能以及模型预测误差的影响。下图对比了在加入动态约束和去掉动态约束下,算法性能以及模型预测误差对比。可以看出,在加入动态约束之后,算法的性能得到提升,而模型预测误差大大降低,这验证了动态约束的重要性。


参数敏感性实验

论文探究了ROMI对于不确定集尺度 的敏感性。下图对比了在不同 值下的ROMI的Q值估计、标准化得分、内层梯度范数、外层梯度范数。可以看出:(1)对于所有选择的 ,均未发生严重 Q 值低估以及梯度爆炸;(2)对于不同的 ,Q 值估计清晰可分, 越大,Q值越低。这说明 ROMI 能够提供可控的保守性并保证训练的稳定性。


05


总结

本论文聚焦于基于模型的离线强化学习,首先探究了 RAMBO 算法的局限性:倾向于过度保守以及训练不稳定。针对这个局限,论文提出 ROMI 算法,通过鲁棒价值感知的模型学习,以及隐式可微的自适应加权双层优化,实现了可控的保守性,以及增强了训练的稳定性。在多个基准和数据集下的实验结果表明,ROMI 都展示了比基线算法更高的性能,充分验证了其有效性。

[1] Masatoshi Uehara and Wen Sun. Pessimistic model-based offline reinforcement learning under partial coverage. ICLR 2022

[2] Marc Rigter, Bruno Lacerda, and Nick Hawes. RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning. NeurIPS 2022

上车,带你看遍全球 AI 顶会精华

可独家畅览:

专家演讲PPT

大会报告全文

热门论文解读

学术新星访谈

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央八 40集剧集奉陪到底,王阳王骁出演,狂飙之后又一力作

央八 40集剧集奉陪到底,王阳王骁出演,狂飙之后又一力作

情感大头说说
2026-07-02 07:17:11
湖人奇才达成1换3交易!艾顿联手浓眉 东契奇与前队友哈迪团聚

湖人奇才达成1换3交易!艾顿联手浓眉 东契奇与前队友哈迪团聚

罗说NBA
2026-07-04 05:50:37
要变天了,杜特尔特的指示传回菲律宾,老杜放开手脚发动群众

要变天了,杜特尔特的指示传回菲律宾,老杜放开手脚发动群众

孤酒老巷QA
2026-07-05 03:49:14
2026旅游业现状:“奄奄一息”的商户,甚至没有最后的力气去哀嚎

2026旅游业现状:“奄奄一息”的商户,甚至没有最后的力气去哀嚎

混沌录
2026-07-03 19:56:08
虽败犹荣,中国男篮惨败日本队,却收重大好消息,郭士强面临下课

虽败犹荣,中国男篮惨败日本队,却收重大好消息,郭士强面临下课

宗介说体育
2026-07-04 18:28:24
高盛预测:未来10年,房地产在中国居民总资产中占比从52%降至42%

高盛预测:未来10年,房地产在中国居民总资产中占比从52%降至42%

专业聊房君
2026-07-02 18:08:07
西媒:维尼修斯训练迟到,队友掌声嘘声齐送

西媒:维尼修斯训练迟到,队友掌声嘘声齐送

懂球帝
2026-07-05 00:38:14
梅西谈世界杯对佛得角:场上他们往死踢我,赛后追着找我要自拍和球衣

梅西谈世界杯对佛得角:场上他们往死踢我,赛后追着找我要自拍和球衣

隐于山海
2026-07-04 16:08:11
浙江商人用23年时间,从身无分文的穷小子,成了佛得角总理、市长的座上宾!“我在赞助的足球俱乐部,就是沃齐尼亚曾经服役的那一家”

浙江商人用23年时间,从身无分文的穷小子,成了佛得角总理、市长的座上宾!“我在赞助的足球俱乐部,就是沃齐尼亚曾经服役的那一家”

都市快报橙柿互动
2026-07-04 22:02:53
新加坡部长曾警告中国:台海若爆发战争,等于中美直接对抗

新加坡部长曾警告中国:台海若爆发战争,等于中美直接对抗

新时代精神
2026-07-05 02:03:50
20分钟伤退!摩洛哥头号射手萨伊巴里世界杯报销,阿特拉斯雄狮还能走多远?

20分钟伤退!摩洛哥头号射手萨伊巴里世界杯报销,阿特拉斯雄狮还能走多远?

林间小温柔
2026-07-05 01:41:08
F-35到了土耳其手里,立马就对中国完全透明?白给解放军也不稀罕

F-35到了土耳其手里,立马就对中国完全透明?白给解放军也不稀罕

叹知
2026-07-02 12:09:07
全进华评价张家齐,表示不再和她一起直播,情商高到张家齐都笑了

全进华评价张家齐,表示不再和她一起直播,情商高到张家齐都笑了

娱最资讯
2026-07-04 20:17:53
动容!34岁萨拉赫含泪庆祝 率队92年后再进世界杯16强 创3大纪录

动容!34岁萨拉赫含泪庆祝 率队92年后再进世界杯16强 创3大纪录

我爱英超
2026-07-04 05:37:28
少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

许三岁
2026-06-14 09:57:24
夜市当众“活春宫”!夫妻双双获刑25天,公共场合真不是你家卧室

夜市当众“活春宫”!夫妻双双获刑25天,公共场合真不是你家卧室

川渝视觉
2026-07-03 09:50:57
左氧氟沙星立大功!研究发现:老人吃左氧氟沙星,或缓解5种症状

左氧氟沙星立大功!研究发现:老人吃左氧氟沙星,或缓解5种症状

医学科普汇
2026-06-30 19:20:05
乌军发起斩首行动,莫斯科遇袭,俄军机场被炸?普京:已拿下一地

乌军发起斩首行动,莫斯科遇袭,俄军机场被炸?普京:已拿下一地

绿叶贝贝
2026-07-05 03:57:30
瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

古书记史
2026-01-06 16:31:56
哈梅内伊遗体告别仪式上,伊朗议长哭到身体不停颤抖,穆杰塔巴未出席,其岳父现身仪式

哈梅内伊遗体告别仪式上,伊朗议长哭到身体不停颤抖,穆杰塔巴未出席,其岳父现身仪式

极目新闻
2026-07-04 13:39:08
2026-07-05 05:16:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7428文章数 20761关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
游戏
本地
艺术
数码

教育要闻

两个孩子拾金不昧,没想到换来全套练习题

韩版“全境封锁”PC配置降低 内存改为32GB起步

本地新闻

国内足球之旅?这座小城给你高分答案

艺术要闻

为什么时尚圈集体“失语”?只因这个男人的镜头,太敢拍了!

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

无障碍浏览 进入关怀版