网易首页 > 网易号 > 正文 申请入驻

用动作分块突破RL极限,伯克利引入模仿学习,超越离线/在线SOTA

0
分享至

机器之心报道

编辑:杜伟、冷猫

如今,强化学习(Reinforcement Learning,RL)在多个领域已取得显著成果。

在实际应用中,具有长时间跨度和稀疏奖励特征的任务非常常见,而强化学习方法在这类任务中的表现仍难令人满意。

传统强化学习方法在此类任务中的探索能力常常不足,因为只有在执行一系列较长的动作序列后才能获得奖励,这导致合理时间内找到有效策略变得极其困难。

假如将模仿学习(Imitation Learning, IL)的思路引入强化学习方法,能否改善这一情况呢?

模仿学习通过观察专家的行为并模仿其策略来学习,通常用于强化学习的早期阶段,尤其是在状态空间和动作空间巨大且难以设计奖励函数的场景。

近年来,模仿学习不仅在传统的强化学习中取得了进展,也开始对大语言模型(LLM)产生一定影响。近日,加州大学伯克利分校的研究者提出了一种名为Q-chunking的方法,该方法将动作分块(action chunking)—— 一种在模仿学习中取得成功的技术 —— 引入到基于时序差分(Temporal Difference, TD)的强化学习中。

该方法主要解决两个核心问题:一是通过时间上连贯的动作序列提升探索效率;二是在避免传统 n 步回报引入偏差的前提下,实现更快速的值传播。

  • 论文标题:Reinforcement Learning with Action Chunking
  • 论文地址:https://www.alphaxiv.org/overview/2507.07969v1
  • 代码地址:https://github.com/ColinQiyangLi/qc

如下图 1 左所示,Q-chunking(1)使用动作分块来实现快速的价值回传,(2)通过时间连贯的动作进行有效探索。图 1 右中,本文方法首先在离线数据集上进行 100 万步的预训练(灰色部分),然后使用在线数据更新,再进行另外 100 万步的训练(白色部分)。

问题表述与研究动机

Q-chunking 旨在解决标准强化学习方法在复杂操作任务中存在的关键局限性。

在传统强化学习中,智能体在每一个时间步上逐一选择动作,这常常导致探索策略效率低下,表现为抖动、时间不连贯的动作序列。这一问题在稀疏奖励环境中尤为严重 —— 在此类环境中,智能体必须执行较长的、协调一致的动作序列才能获得有效反馈。

研究者提出了一个关键见解:尽管马尔可夫决策过程中的最优策略本质上是马尔可夫性的,但探索过程却可以从非马尔可夫性、时间上扩展的动作中显著受益。这一观察促使他们将「动作分块」这一原本主要用于模仿学习的策略引入到时序差分学习中。

该方法特别面向离线到在线的强化学习场景(offline-to-online RL),即智能体先从预先收集的数据集中进行学习,再通过在线交互进行微调。这一设定在机器人应用中尤为重要,因为在线数据采集成本高且可能存在安全风险。

方法概览

Q-chunking 将标准的 Q-learning 扩展至时间扩展的动作空间,使策略不再仅预测单一步骤的动作,而是预测连续 h 步的动作序列。该方法主要包含两个核心组成部分:

扩展动作空间学习

算法实现

研究者展示了Q-chunking框架的两种实现方式:

QC(带有隐式 KL 约束的 Q-chunking)

该分支通过「从 N 个中选择最优」(best-of-N)的采样策略,隐式地施加 KL 散度约束。其方法如下:

1. 在离线数据上训练一个流匹配行为策略 f_ξ(・|s)

2. 对于每个状态,从该策略中采样 N 个动作序列(action chunks)

3. 选择具有最大 Q 值的动作序列:a* = arg max_i Q (s, a_i)

4. 使用该动作序列进行环境交互与 TD 更新

QC-FQL(带有 2-Wasserstein 距离约束的 Q-chunking)

该实现基于 FQL(Flow Q-learning)框架:

1. 保持一个独立的噪声条件策略 μ_ψ(s, z)

2. 训练该策略以最大化 Q 值,并通过正则项使其靠近行为策略

3. 使用一种蒸馏损失函数,对平方的 2-Wasserstein 距离进行上界估计

4. 引入正则化参数 α 来控制约束强度

实验设置及结果

关于实验环境和数据集,研究者首先考虑 6 个稀疏奖励的机器人操作任务域,任务难度各不相同,包括如下:

来自 OGBench 基准的 5 个任务域:scene-sparse、puzzle-3x3-sparse,以及 cube-double、cube-triple 和 cube-quadruple,每个任务域包含 5 个任务;来自 robomimic 基准中的 3 个任务。

对于 OGBench,研究者使用默认的「play-style」数据集,唯独在 cube-quadruple 任务中,使用了一个规模为 1 亿大小的数据集。

关于基线方法比较,研究者主要使用了以加速「价值回传」为目标的已有方法,以及此前表现最好的「离线到在线」强化学习方法,包括BFN(best-of-N)、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC

下图 3 中展示了 Q-chunking 与基线方法在 5 个 OGBench 任务域上的整体性能表现,下图 4 中展示了在 3 个 robomimic 任务上的单独性能表现。其中在离线阶段(图中为灰色),QC 表现出具有竞争力的性能,通常可以比肩甚至有时超越了以往最优方法。而在在线阶段(图中为白色),QC 表现出极高的样本效率,尤其是在 2 个最难的 OGBench 任务域(cube-triple 和 quadruple)中,其性能远超以往所有方法(特别是 cube-quadruple 任务)。

下图 5 为消融实验,比较了 QC 与其变体 QC-FQL、以及 2 种 n 步回报的基线方法(BFN-n 和 FQL-n)。这些 n 步回报基线方法没有利用时间扩展的 critic 或 policy,因此其性能显著低于 QC 和 QC-FQL。实际上,它们的表现甚至常常不如 1 步回报的基线方法 BFN 和 FQL,这进一步突显了在时间扩展动作空间中进行学习的重要性。

接下来探讨的问题是:为什么动作分块有助于探索?研究者在前文提出了一个假设:动作分块策略能够生成在时间上更连贯的动作,从而带来更好的状态覆盖和探索效果。

为了进行实证,他们首先可视化了训练早期 QC 与 BFN 的末端执行器运动轨迹,具体如下图 7 所示。可以看到,BFN 的轨迹中存在大量停顿(在图像中心区域形成了一个大而密集的簇),特别是在末端执行器下压准备抓取方块时。而 QC 的轨迹中则明显停顿较少(形成的簇更少且更浅),并且其在末端执行器空间中的状态覆盖更加多样化。

为了对动作的时间连贯性进行定量评估,研究者在训练过程中每 5 个时间步记录一次 3D 末端执行器位置,并计算相邻两次位置差向量的平均 L2 范数。如果存在较多停顿或抖动动作,该平均范数会变得较小,因此可以作为衡量动作时间连贯性的有效指标。

正如图 7(右)所示,在整个训练过程中,QC 的动作时间连贯性明显高于 BFN。这一发现表明,QC 能够提高动作的时间连贯性,从而解释了其更高的样本效率。

更多细节内容请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
事情闹大了?日本内阁连发公告,中国态度 告诉了世界一个铁的事实

事情闹大了?日本内阁连发公告,中国态度 告诉了世界一个铁的事实

呼呼历史论
2026-03-26 14:28:13
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

暖心萌阿菇凉
2026-03-25 22:01:09
抗日战争的转折点是什么?为何这场大战后,日本高层面如死灰

抗日战争的转折点是什么?为何这场大战后,日本高层面如死灰

诺言卿史录
2026-03-21 09:32:10
手握5个CBA冠军,曾获吉尼斯世界纪录,37岁不退役,仍在赛场拼搏

手握5个CBA冠军,曾获吉尼斯世界纪录,37岁不退役,仍在赛场拼搏

泠泠说史
2026-03-25 21:46:54
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
A股市场全线收绿,沪指低开低走下跌40点,五日均线再次失守

A股市场全线收绿,沪指低开低走下跌40点,五日均线再次失守

投资观
2026-03-26 14:59:17
韦世豪有牌面,登上FIFA海报!国足vs库拉索首发浮现,打平踢点球

韦世豪有牌面,登上FIFA海报!国足vs库拉索首发浮现,打平踢点球

球场没跑道
2026-03-26 12:12:22
比亚迪官宣,3月29日,新车预售发布

比亚迪官宣,3月29日,新车预售发布

沙雕小琳琳
2026-03-26 14:24:53
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

三公子娱乐丫
2025-05-17 17:59:45
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

奥字侃剧
2026-03-25 08:29:10
中疾控发布提示:我国面临较大疫情输入风险

中疾控发布提示:我国面临较大疫情输入风险

随州派
2026-03-24 11:44:16
14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

以茶带书
2026-03-12 18:13:51
这才是大国重器!中国正式摊牌,目标800万亿宝藏,美欧噩梦成真

这才是大国重器!中国正式摊牌,目标800万亿宝藏,美欧噩梦成真

说宇宙
2026-03-25 14:36:48
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

睡前讲故事
2025-12-12 13:58:11
4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

侃球熊弟
2026-03-26 00:35:10
内塔尼亚胡称“继续全力”空袭伊朗 美媒称以方担心特朗普突然停战

内塔尼亚胡称“继续全力”空袭伊朗 美媒称以方担心特朗普突然停战

环球网资讯
2026-03-26 06:26:07
"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

毒sir财经
2025-12-08 22:57:40
2026-03-26 15:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
游戏
家居
健康
军事航空

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

DOTA2 7.41版本大更新!再见了命石,选择困难症有福了

家居要闻

傍海而居 静观蝴蝶海

转头就晕的耳石症,能开车上班吗?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版