网易首页 > 网易号 > 正文 申请入驻

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

0
分享至

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。

它们生成的轨迹经常陷入局部合理但全局偏航的窘境。

它们太关注眼前的每一步,却忘了最终的目的地。



针对这一痛点,厦门大学和香港科技大学提出一种名为MAGE(魔法师,Multi-scale Autoregressive Generation)的离线强化学习新算法。

MAGE与现有序列生成方法不同,MAGE采用自顶向下的“由粗到细”生成策略,先建模轨迹的宏观规划,再逐步细化微观细节。

MAGE的核心思路非常符合人类的直觉:“自顶向下、由粗到细”

这就好比画一幅素描,你不会一上来就描绘眼睛的睫毛,而是先画出整体的身体轮廓(宏观规划),再逐步细化五官和表情

(微观动作)



△MAGE的思考过程

从一场”迷宫寻宝“揭示AI规划的盲区

为了直观展示现有模型的缺陷,研究团队设计了一个迷宫吃金币小实验。智能体需要从随机起点出发,依靠对环境的长程空间理解,先吃银币,再吃金币,最后抵达终点。



△各个算法在迷宫环境的表现

然而,面对这种需要全局规划的场景,现有的模型纷纷暴露了缺陷。

  • Decision Transformer受限于单向自回归特性带来的全局上下文缺失,它在长程规划中完全迷失方向,最终连终点都未能抵达。
  • Decision Diffuser则由于扩散模型固有的局部生成偏差,生成的轨迹往往只能保证局部合理;虽然智能体抵达了终点,却遗漏了关键的一枚金币,全局连贯性较差。
  • Hierarchical Diffuser虽然尝试通过分层结构建模全局轨迹,但由于其固定的双层结构过于僵硬高低层策略之间缺乏有效协同,生成的轨迹甚至出现了物理违规的“穿墙”现象,全局规划与局部动作严重脱节。

相比之下,MAGE则通过多尺度“从粗到细”的生成架构成功完成了任务。它首先在最粗的时间尺度上勾勒出包含所有关键节点的宏观全局轮廓,随后利用多尺度Transformer在更细的时间尺度上逐层细化,顺利规划出完整的路径。

MAGE的核心思路:从画大纲到扣细节

MAGE采用“自顶向下、由粗到细”的生成方式。MAGE包含两大核心模块,并辅以精确的控制机制:



△MAGE的架构图

MTAE多尺度轨迹自编码器:MAGE将长序列轨迹转化为从粗到细的多尺度离散Token。粗尺度的Token负责掌控全局长程结构,最细尺度的Token则详细建模短期的动态细节

多尺度条件引导自回归生成:模型使用Transformer序列化地生成这些多尺度Token。在生成每层时,都会严格以“目标回报”和“初始状态”作为条件进行约束,确保智能体的每一步都在朝着最终目标前进。

条件引导细化与动作决策:因为把连续世界变成离散Token会丢失信息,普通的生成过程容易让轨迹起点偏离现实。为此,MAGE在解码器中集成了轻量级的适配器(adapter)模块,并引入了条件引导损失函数Lcond,强制解码出的初始状态与真实环境是精确对齐的。最后,通过潜在逆动力学模型决定最终的动作。

实验表现:长序列任务全面超越,推理速度满足实时控制

研究团队在包含Adroit、Franka Kitchen、AntMaze等5个离线RL基准测试中,将MAGE与15种具有代表性的基线算法进行了广泛的评估。

多任务表现出色



在极具挑战的高维连续控制Adroit机械臂任务中,面对极其稀疏的奖励,MAGE实现了显著的性能提升,大幅优于对比方法。在强调子目标执行顺序的Franka Kitchen组合任务中,MAGE凭借捕获全局结构和局部细节的能力,以相当大的优势超越了所有竞争算法。



迷宫导航任务中,MAGE在所有数据集上均取得了最佳性能,证明了其处理长序列导航任务的卓越能力。

极高的推理效率与部署潜力



MAGE在保持高性能的同时,实现了出色的计算效率平衡。实验数据表明,MAGE的运行速度比Hierarchical Diffuser快约50倍,比Decision Diffuser快80倍。其每步推理时间保持在27毫秒,完美满足了真实机器人控制所要求的20 Hz实时运行门槛

结语

MAGE成功地将多尺度轨迹建模与条件引导相结合,通过“从粗到细”的自回归框架生成连贯且可控的高回报轨迹。当有一天,机器人不再需要人类一口一口地“喂”奖励,而是能够自主审视全局,制定长远计划并流畅执行时,也许具身智能的下一个奇点就真正到来了。

论文链接:
https://arxiv.org/abs/2602.23770
开源代码:
https://github.com/xmu-rl-3dv/MAGE
实验室主页:
https://asc.xmu.edu.cn/

作者介绍:
本文第一作者来自厦门大学空间感知与计算实验室(ASC Lab)2024级硕士生林晨兴、2025级硕士生高鑫辉,通讯作者为厦门大学沈思淇副教授,并由张海鹏、李欣然(香港科技大学)、王海涛、梅松竹副研究员、刘伟权副教授(集美大学)、王程教授共同合作完成。研究团队长期聚焦于强化学习,多智能体系统以及大模型智能体。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

鲁中晨报
2026-04-10 09:32:05
医疗圈炸锅了:肿瘤诊疗重大突破

医疗圈炸锅了:肿瘤诊疗重大突破

白宸侃片
2026-04-11 18:40:34
如果不是法媒的披露:我都不敢相信,我国不需再向世界证明什么了

如果不是法媒的披露:我都不敢相信,我国不需再向世界证明什么了

三农雷哥
2026-04-04 16:28:53
陈皮是个宝,春天喝最好,6款搭配气顺湿消人精神

陈皮是个宝,春天喝最好,6款搭配气顺湿消人精神

开心美食白科
2026-04-11 16:29:13
1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

帝哥说史
2026-04-10 06:30:03
日本改口:中日关系变了?

日本改口:中日关系变了?

陆弃
2026-04-11 08:50:03
24小时70架运输机抵达中东! 纽约时报嘲讽: 美国已经沦为世界笑柄

24小时70架运输机抵达中东! 纽约时报嘲讽: 美国已经沦为世界笑柄

素衣读史
2026-04-11 21:45:58
为啥淘宝,拼多多几块钱的东西还能包邮?看完你就明白了!

为啥淘宝,拼多多几块钱的东西还能包邮?看完你就明白了!

呼呼历史论
2026-04-10 21:17:24
Anthropic出手,一批Agent创业公司死去

Anthropic出手,一批Agent创业公司死去

新智元
2026-04-10 17:57:54
同为星二代!对比Jasper,才知道郑熙岳被养得有多糟,刘芸被骂惨

同为星二代!对比Jasper,才知道郑熙岳被养得有多糟,刘芸被骂惨

陈意小可爱
2026-04-11 15:17:00
储量实在惊人,暴力开采200年也挖不完!看似臭水沟蕴藏巨大财富

储量实在惊人,暴力开采200年也挖不完!看似臭水沟蕴藏巨大财富

小小科普员
2026-04-11 17:25:27
这绝对是史上最不礼貌的键盘

这绝对是史上最不礼貌的键盘

放毒
2026-04-11 10:53:19
求复合?马伊琍官宣两大喜讯,前夫文章也传来好消息,这是闹哪出

求复合?马伊琍官宣两大喜讯,前夫文章也传来好消息,这是闹哪出

林雁飞
2026-04-11 19:04:39
亚锦赛出现3匹黑马!国羽争3冠韩国提前定2冠,混双冠军提前揭晓

亚锦赛出现3匹黑马!国羽争3冠韩国提前定2冠,混双冠军提前揭晓

排球黄金眼
2026-04-12 00:05:17
说唱歌手首秀5中0吞蛋!同曦遭广州双杀 徐昕21+11+4帽

说唱歌手首秀5中0吞蛋!同曦遭广州双杀 徐昕21+11+4帽

醉卧浮生
2026-04-11 21:37:39
三星把烧水时间砍了3分钟,燃气灶用户集体破防

三星把烧水时间砍了3分钟,燃气灶用户集体破防

全栈遛狗员
2026-04-11 08:49:23
外媒:摩尔多瓦总统正式批准退出独联体有关协议

外媒:摩尔多瓦总统正式批准退出独联体有关协议

环球网资讯
2026-04-11 16:31:25
资讯很有料|美伊数十年来最高级别直接会谈 历史性接触陷进霍尔木兹海峡漩涡

资讯很有料|美伊数十年来最高级别直接会谈 历史性接触陷进霍尔木兹海峡漩涡

国际在线
2026-04-12 07:59:37
尹力会见中国国民党主席郑丽文

尹力会见中国国民党主席郑丽文

BRTV新闻
2026-04-11 19:03:07
闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

火山詩话
2026-04-11 08:55:49
2026-04-12 09:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12457文章数 176449关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

家居
本地
艺术
房产
公开课

家居要闻

复古风格 自然简约

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

郑丽文缺席丈夫引争议!洪秀柱书法爆红,传统与现代的碰撞!

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版