网易首页 > 网易号 > 正文 申请入驻

模仿学习新范式,Chain-of-Action:轨迹自回归实现动作推理

0
分享至

  • 论文标题:Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation
  • 主页链接:https://chain-of-action.github.io/
  • 文章链接:https://arxiv.org/pdf/2506.09990
  • 代码链接:https://github.com/ByteDance-Seed/Chain-of-Action

模仿学习的困境

具身智能(Embodied AI)作为人工智能领域的前沿方向,旨在赋予机器人或智能体在物理世界中感知、决策和行动的能力。近年来,尽管视觉 - 语言 - 动作模型(Vision Language Action, VLA)已经取得了诸多进展,但具身智能领域尚未迎来 「GPT 时刻」。越来越多的研究人员开始相信,仅仅增加模型规模和数据量似乎不足以创造出通用操作模型,如果我们想要充分释放现有数据的潜力,就需要找到更有效的机器人操作建模方法。

来自字节跳动 Seed & 阿德莱德大学的研究者追根溯源,对模仿学习的基本范式进行了反思,发现现有建模思路或许存在缺陷:经典方法如 ACT、Diffusion Policy(DP)都遵循 「前向预测」(forward-prediction)范式。而然这种方式不可避免地存在较大的复合误差(compounding error)。

在该范式下,策略通常被优化为基于当前观察预测短期的下一步动作,而非确保最终能够成功完成整个任务。虽然引入了动作分块(action chunking)等策略来缓解复合误差,但无法解决其固有的 「短视性」问题。

基于该局限,研究者提出了「动作链」(Chain-of-Action, CoA)—— 一种基于轨迹自回归的机器人操作策略。与经典范式区分,CoA 并不直接由观察映射到执行动作,而是由从最终位置反向自回归的生成轨迹点,推理出可执行的动作。研究团队初步发现,仅仅通过修改建模方式,CoA 在与 ACT 保持相同的基本结构下,空间泛化能力显著提升。这种建模方式为具身操作策略的建模提供了新的思路。

动作链:基于轨迹自回归建模的

机器人操作策略

核心思想:受到思维链(Chain-of-Thought)的启发,CoA 并不直接由观察映射到执行动作,而是在动作层面进行迭代式的推理。具体来说,CoA 逆向的生成针对目标任务的完整轨迹,这个生成过程统一在一个自回归网络下。自回归过程从 「关键帧动作」(keyframe action)开始,迭代地生成一连串完整的动作轨迹,直至当前的机器人夹爪的位置。

全局到局部一致性:这种 「从后往前」 的生成方式,为整个动作序列提供了的 「全局 - 局部」(global-to-local)结构性约束。因为每个后续生成的动作都以代表最终目标的 「关键帧」 为条件,所以最后执行的动作将会被最终目标所 「锚定」,空间泛化能力显著得到增强。

统一的自回归框架:CoA 将关键帧的识别和轨迹的生成统一在单一的自回归模型中,实现了端到端的训练和高效的闭环执行,并保持了可扩展(scalable)的潜力。

关键设计

为了实现轨迹自回归的想法,CoA 引入了四个关键设计:

连续动作表征(Continuous Action Representation):离散化的动作表征会引入量化误差,为保证轨迹的精细度,CoA 采用了连续的动作表征并引入了 「潜在一致性损失」(Latent consistency loss)。

动态停止机制(Dynamic Stopping):在连续动作空间中,没有传统的中止符(EOS token)来指示序列的结束。因此,CoA 设计了一种基于距离的动态停止机制,实现可变长度(variable length)的轨迹预测。

反向时间集成(Reverse Temporal Ensemble):传统的时序集成策略基于前向时间假设,不适用于 CoA 的反向生成模式。CoA 通过反向时序集成,进一步提高预测的稳定性。

多词元预测(Multi-token Prediction, MTP):动作局部依赖关系的建模可作为 「全局 - 局部」 一致性的补充。此设计仅在训练阶段作为正则化手段使用,在推理时移除,保证了效率。

实验验证

模拟环境测试

大幅超越基线:在涵盖 60 个任务的 RLBench 大规模拟基准测试中,CoA 的平均成功率达到了 55.2%,显著优于 ACT(38.9%)和 DP(32.6%)。相较于 ACT,CoA 在 81.7% 的任务中取得了更高的成功率,平均提升了 16.3%。相较于 DP,CoA 在 80.0% 的任务上表现更优,平均提升为 23.2%。

相关性分析:所有方法的成功率都随着物体空间分布方差的增大而下降,但 CoA 的下降趋势更为平缓,且其性能优势在高方差(更困难)的任务中更为明显。

空间泛化能力分析:研究者对泛化性进行了更细致的观察。以按按钮任务为案例,分别测试了 「内插」(in-distribution)和 「外推」(out-of-distribution)情况下各个模型的表现,结果显示,CoA 在外推场景下成功率约为内插情况下的一半,但对于 ACT 和 DP,外推任务几乎不能完成,这一定程度揭示了两种建模范式在空间泛化表现上的根本差异。

真实世界实验

研究者在一台 Fetch 机器人上,围绕 8 项厨房任务进行了部署和测试。观察来自单个 RGB 摄像头,策略以 10Hz 的频率运行,每个任务测试 10 次。实验结果显示 CoA 取得了 61.3% 的平均成功率,ACT 成功率为 46.3%,DP 的成功率 36.3%。这验证了 CoA 建模范式在真实世界中的可用性。

结论与展望

Chain-of-Action 提出了一种新颖的模仿学习范式,其核心是轨迹自回归建模。通过从一个代表任务目标的 「关键帧」开始,逆向生成动作序列,该方法为轨迹施加了一个强大的 「全局 - 局部」 结构约束,从而有效解决累计误差问题,提升机器人操作泛化性。全面的实验结果证明,在没有更多数据和增大模型规模的情况下,其在空间泛化能力相比传统范式取得显著提升。这说明一个合理的建模范式可以有效的释放现有数据的潜力。CoA 有望为未来一代的 VLA 模型提供新的建模思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
推迟比赛,NBA因联邦特工参与致命枪击事件推迟森林狼与勇士比赛

推迟比赛,NBA因联邦特工参与致命枪击事件推迟森林狼与勇士比赛

好火子
2026-01-25 04:11:22
泽连斯基炮轰欧洲石破天惊,德国将从美国运回1000吨黄金

泽连斯基炮轰欧洲石破天惊,德国将从美国运回1000吨黄金

史政先锋
2026-01-23 22:41:06
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
今年,可能是史上最冷清的春节。

今年,可能是史上最冷清的春节。

诗词中国
2026-01-23 19:24:10
刚上架就秒空,99元涨到396元!被戏称为“打工治愈神器”,网友:到底是谁在买……

刚上架就秒空,99元涨到396元!被戏称为“打工治愈神器”,网友:到底是谁在买……

环球网资讯
2026-01-24 08:57:16
李嘉诚再开金口:未来十年,中国近一半家庭,将面临6大难题?

李嘉诚再开金口:未来十年,中国近一半家庭,将面临6大难题?

巢客HOME
2026-01-24 08:15:03
数十万网友涌入,李亚鹏带货登总榜第一,90分钟销售额破5000万元,热度远超与辉同行!他关闭打赏,鞠躬致谢,提醒大家“理性购物”

数十万网友涌入,李亚鹏带货登总榜第一,90分钟销售额破5000万元,热度远超与辉同行!他关闭打赏,鞠躬致谢,提醒大家“理性购物”

每日经济新闻
2026-01-23 23:54:09
“和平委员会”最终成员名单出来了,4国突然变卦反悔!

“和平委员会”最终成员名单出来了,4国突然变卦反悔!

爱吃醋的猫咪
2026-01-23 20:25:06
1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

历史龙元阁
2026-01-20 10:40:11
央视揭秘“夺命红薯”!商家故意投毒,已蔓延全国多地,赶紧扔掉

央视揭秘“夺命红薯”!商家故意投毒,已蔓延全国多地,赶紧扔掉

阅微札记
2026-01-24 12:00:30
俄军攻势开始疲软,欧盟拟用7000亿将乌克兰打造为一流军事强国

俄军攻势开始疲软,欧盟拟用7000亿将乌克兰打造为一流军事强国

史政先锋
2026-01-24 20:40:41
重要亮剑的背后!

重要亮剑的背后!

荷兰豆爱健康
2026-01-25 02:07:34
欧洲议会503票赞成,投票结果一边倒,中方强硬表态

欧洲议会503票赞成,投票结果一边倒,中方强硬表态

军机Talk
2026-01-24 14:07:38
菲律宾出现变天征兆,杜特尔特之孙现身中国,老杜在做什么准备?

菲律宾出现变天征兆,杜特尔特之孙现身中国,老杜在做什么准备?

军机Talk
2026-01-24 14:53:04
王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

奥拜尔
2026-01-24 23:43:02
日本4-0卫冕!看看中国队球员怎么说,输球原因揭晓,徐彬快哭了

日本4-0卫冕!看看中国队球员怎么说,输球原因揭晓,徐彬快哭了

侃球熊弟
2026-01-25 01:18:59
震惊!网传上海一公司招聘13名海归,4男按时提交,9女都未提交…

震惊!网传上海一公司招聘13名海归,4男按时提交,9女都未提交…

火山诗话
2026-01-24 21:37:07
浙江文投总经理蒋国兴被查,曾主导浙报传媒上市

浙江文投总经理蒋国兴被查,曾主导浙报传媒上市

观察者网
2026-01-24 22:08:03
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
太意外!美联储,突爆大消息!

太意外!美联储,突爆大消息!

证券时报
2026-01-24 22:16:02
2026-01-25 05:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

旅游
时尚
本地
房产
家居

旅游要闻

搜索量飙升!巴西免签,引爆中国游客春节出游热情

冬天最佳“显瘦”公式:上短+下长

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

房产要闻

正式官宣!三亚又一所名校要来了!

家居要闻

在家度假 160平南洋混搭宅

无障碍浏览 进入关怀版