网易首页 > 网易号 > 正文 申请入驻

VLA引入本体状态,机器人随时掉链子?人大北航攻克难题ICLR26

0
分享至


新智元报道

编辑:LRST

【新智元导读】人大与北航团队发现:机器人在动作切换时,视觉常被本体感觉「压制」而失效。他们提出GAP算法,动态削弱本体信号的训练权重,让视觉重获学习机会,显著提升机器人精准操作能力。

本体感觉信息能够提供机器人状态的实时反馈,其与视觉信息的协同被普遍认为有助于提升机器人在复杂操纵任务中的性能。

然而,近期研究在视觉–本体感觉策略的泛化能力方面报告了不一致的观察结果:有的策略受益于视觉本体觉的联合,而有的却比纯视觉策略表现更差——视觉-本体操纵策略究竟何时会「掉链子」?

近日,人大高瓴GeWu-Lab与北京航空航天大学联合团队对该问题进行了系统性研究,发现在操纵任务的运动转变阶段,视觉-本体策略中的视觉模态「失效」了!

为此,研究团队提出了基于阶段引导的梯度调整算法(Gradient Adjustment with Phase-guidance,GAP),该研究论文为机器人操纵中视觉-本体感觉策略的设计与发展提供了有价值的见解,并已被ICLR 2026接收。


项目主页:https://gewu-lab.github.io/GAP/

代码仓库:https://github.com/GeWu-Lab/GAP

论文链接:https://arxiv.org/abs/2602.12032

研究背景

随着深度学习的发展,研究者们开始将本体感觉信息(如关节位置、速度等)引入基于视觉的机器人操纵策略。视觉负责「看」,本体觉负责「感」,两者的协同被认为有助于提升策略在复杂环境中的泛化能力,让机器人不仅能在熟悉场景中稳定操作,也能在任务条件变化时灵活应对。

然而,现实却开了个玩笑。多篇研究表明,有时加入了本体信息的策略反而比纯视觉策略表现更差。

这一现象并非个例,而是在不同环境、不同任务中均有出现(图1左)。

这些发现让人困惑:视觉-本体策略究竟何时会失败?是模态融合方式的问题,还是训练过程的失衡?是在所有任务阶段都会失败,还是只在某些关键时刻掉链子?理解这一点,不仅能够解释已有矛盾,更有助于设计真正鲁棒的机器人操纵策略。

问题探究


图1:视觉-本体策略的泛化性

为了探究这些问题,来自人大高瓴GeWu-Lab与北京航空航天大学联合团队的研究者们设计了一个精巧的控制实验。他们让一个纯视觉策略执行装配任务,但在某些特定时段(仅10个时间步长),将当前动作替换为由视觉–本体策略在相同观测下预测的动作。

如图1右侧所示,结果令人惊讶:

  • 在「向前移动」这类稳定运动阶段,这种替换几乎没有影响;

  • 但在「定位底座」、「装配零件」这类运动转变阶段,替换策略后任务成功率明显下降。

这说明在需要视觉发挥作用的运动转变阶段,视觉–本体策略中的视觉模态「失效」了。为什么视觉会被边缘化?研究者进一步从训练优化的角度寻找答案。

他们发现,在运动转变阶段,视觉线索往往非常细小,有时甚至只是像素级的差异,而本体信号则简洁、直接。

在训练过程中,策略会本能地依赖那些能让损失更快下降的本体信号,使得本体模态在优化中占据主导地位。这种主导地位反过来抑制了视觉模态的学习,导致视觉信息在运动转变阶段被严重忽视。

核心技术

针对视觉模态在运动转变阶段被抑制的问题,研究团队提出了如图2所示的基于阶段引导的梯度调整算法(Gradient Adjustment with Phase-guidance, GAP)。核心思路是:先识别出任务中的运动转变阶段,然后在这些关键时刻动态调整本体觉信号的优化强度,为视觉模态「让出学习空间」。


图2:GAP方法架构

为了识别运动转变阶段,研究团队首先利用机械臂末端执行器的位置、朝向和开合程度来定义机器人的运动。

随后采用变化点检测算法,通过计算不同时段运动方向的一致性,将轨迹分割为一系列「运动一致阶段」,如「持续向前移动」、「稳定抓取」等。在这些阶段之间,就是机器人的「运动转变阶段」。

然而,运动的转变是连续且渐变的,简单的离散切分难以刻画该过程的平滑特性。

为此,研究进一步引入时序网络,利用本体觉信号的时序差异,预测每个时刻属于运动转变阶段的概率。

在反向传播时,GAP会根据当前时刻的转变概率,动态降低本体觉特征提取模块的梯度更新幅度。转变概率越高,本体觉的梯度被抑制得越明显,让视觉模态有机会被充分学习。

性能亮点

GAP算法的有效性在大量实验中得到了充分验证。无论是在仿真环境还是真实机器人上,无论是单臂还是双臂任务,GAP加持下的视觉–本体策略都交出了亮眼的成绩单。




可以看到,在操纵任务「移交」中,纯视觉策略难以完成精细的放置操作,而视觉-本体策略在抓取失败后忽视视觉反馈,仍按照本体的经验继续执行动作。应用GAP的视觉-本体策略则得益于两者的协同,顺利地完成了任务。




如表1所示,在多样的任务设置中,GAP不仅帮助了视觉-本体策略超越纯视觉策略,真正利用模态协同的优势,同时还超越了多种现有的基线方法。


表1:对比实验结果

研究团队同时也验证了GAP是否适用于视觉-语言-动作模型(VLA)。如表2所示,在多个任务上,加入本体觉的Octo-VP反而比纯视觉的Octo-V表现更差,而GAP的介入则彻底扭转了这一局面。


表2:VLA实验结果

研究团队同时也验证了GAP对多种常见的模态融合方式的兼容性(表3),并观察了GAP预测的运动转变概率与任务RGB图像和视觉不确定性的关系(图3),以提升方法的可解释性。


表3:模态融合方式实验


图3:运动转变概率可视化

结语

从多篇研究的反直觉现象一步步深入,该研究揭示了运动转变阶段中被抑制的视觉模态学习。

研究团队据此提出了GAP算法,使得两种模态在机器人操纵任务中更好地协同。真正的多模态具身智能,必须建立在对模态之间动态关系的深刻理解之上。

而GAP通过运动转变阶段提供了一种分析框架,为具身智能中的高质量多模态融合与交互提供了全新的视角。

参考资料:

https://arxiv.org/pdf/2602.12032

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗不甘心,又追着美国航母打,4天打了2次,真气人,又没打中!

伊朗不甘心,又追着美国航母打,4天打了2次,真气人,又没打中!

浪子阿邴聊体育
2026-03-07 15:41:16
西甲最新积分战报:巴萨3连胜,马竞3-2绝杀,奥萨苏纳奇迹绝平

西甲最新积分战报:巴萨3连胜,马竞3-2绝杀,奥萨苏纳奇迹绝平

足球狗说
2026-03-08 06:34:35
霍梅尼,伊朗神权统治的奠基者,西方左派曾盲目力捧,掌权后遭其背刺

霍梅尼,伊朗神权统治的奠基者,西方左派曾盲目力捧,掌权后遭其背刺

齐天候
2026-03-04 16:01:44
上海市民送别百岁嫩娘:从艺八十载,最后一次红装谢幕 | 组图

上海市民送别百岁嫩娘:从艺八十载,最后一次红装谢幕 | 组图

纵相新闻
2026-03-08 14:52:38
中超最新积分榜:最先清零的球队-山东泰山!海牛稳坐副班长

中超最新积分榜:最先清零的球队-山东泰山!海牛稳坐副班长

建哥说体育
2026-03-08 08:05:02
王思聪送珠宝高调表白懒懒:老婆我爱你,两人同框照曝光很恩爱

王思聪送珠宝高调表白懒懒:老婆我爱你,两人同框照曝光很恩爱

观察鉴娱
2026-03-08 09:35:31
彻底翻车!卡里·莱克任命被判违宪,百日“大清洗”全作废

彻底翻车!卡里·莱克任命被判违宪,百日“大清洗”全作废

老马拉车莫少装
2026-03-08 16:38:50
股民系好安全带,下一周,股市或将再度重演2020年历史行情?

股民系好安全带,下一周,股市或将再度重演2020年历史行情?

股市皆大事
2026-03-08 11:27:53
我国著名主持人赴瑞士安乐死,儿子讲述其死前惨状:我非常后悔

我国著名主持人赴瑞士安乐死,儿子讲述其死前惨状:我非常后悔

阿讯说天下
2026-02-21 12:35:11
成龙安排好身后事才2个月,翁静晶再曝大瓜,没给他留一丝体面

成龙安排好身后事才2个月,翁静晶再曝大瓜,没给他留一丝体面

星星没有你亮
2026-02-28 20:40:21
全文来了!王毅答中外记者21个提问,涉及中美关系、中日关系、构建人类命运共同体等

全文来了!王毅答中外记者21个提问,涉及中美关系、中日关系、构建人类命运共同体等

环球网资讯
2026-03-08 11:50:44
以色列特种兵深夜突袭惨败,伊朗系成功伏击,远火轰击F-35维修厂

以色列特种兵深夜突袭惨败,伊朗系成功伏击,远火轰击F-35维修厂

军机Talk
2026-03-07 16:42:12
乐道月销量不到3000台,L90怎么也熄火了?

乐道月销量不到3000台,L90怎么也熄火了?

《新车新技术》
2026-03-06 14:02:15
嫩娘追悼会现场曝光杜禄冠康大海等老娘舅好友现身网友排长队送别

嫩娘追悼会现场曝光杜禄冠康大海等老娘舅好友现身网友排长队送别

乐悠悠娱乐
2026-03-08 15:31:05
伊朗反击取得重大成果?千万别信网上的那些专家和爽文

伊朗反击取得重大成果?千万别信网上的那些专家和爽文

壹家言
2026-03-04 19:37:20
淡水悖论:一个令科学家百思不得其解的谜题

淡水悖论:一个令科学家百思不得其解的谜题

魅力科学君
2026-03-04 18:11:29
“穿靴子的一看就是穷养女”,大学女寝视频火了,4号深不可测

“穿靴子的一看就是穷养女”,大学女寝视频火了,4号深不可测

泽泽先生
2026-03-06 21:45:15
准备同归于尽!伊朗或启用“沉睡小组”,在美国本土执行斩首行动

准备同归于尽!伊朗或启用“沉睡小组”,在美国本土执行斩首行动

说历史的老牢
2026-03-07 15:44:35
全网催开门的上海“河南水煎包”开业排起长队,老板提前卖光下班,顾客:排队半小时喝到胡辣汤,最后一锅包子免费送出

全网催开门的上海“河南水煎包”开业排起长队,老板提前卖光下班,顾客:排队半小时喝到胡辣汤,最后一锅包子免费送出

极目新闻
2026-03-08 15:09:11
黎真主党击退以空降部队 黎方26人死亡

黎真主党击退以空降部队 黎方26人死亡

财联社
2026-03-07 19:42:09
2026-03-08 17:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14669文章数 66667关注度
往期回顾 全部

科技要闻

OpenClaw最大的推手是闲鱼和小红书

头条要闻

美军精锐空降师4000余人进入待命 被指或要推地面战

头条要闻

美军精锐空降师4000余人进入待命 被指或要推地面战

体育要闻

大伤后被交易,他说:22岁的我已经死了

娱乐要闻

周迅新恋情曝光,李亚鹏等人已成过去

财经要闻

油价要失控?

汽车要闻

9分钟充饱 全新腾势Z9GT首搭闪充技术26.98万起

态度原创

游戏
旅游
艺术
亲子
公开课

PS乱刷白金现象遭抵制!知名网站剔除劣质游戏数据

旅游要闻

一起去看玉兰花!这些地方开正好~

艺术要闻

“北京意象·活力通州”绘画作品展 | 油画作品选

亲子要闻

宝蓝和叔叔一起玩“抢椅子”游戏,赢得人有礼物,看看谁赢了~

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版