网易首页 > 网易号 > 正文 申请入驻

纯视觉VLA方案从有限数据中学到强大的空间泛化能力

0
分享至



设想一下刚学开车的情况:在训练场上,我们可能会反复练习特定动作:到了某个位置就踩刹车,拐到某个点就打方向盘。久而久之,这些动作会形成 “条件记忆”,一旦环境发生变化,就容易手忙脚乱。最近,千寻智能的研究人员注意到,基于模仿学习的视觉运动策略中也存在类似现象,并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。



  • 论文链接:https://arxiv.org/abs/2509.18644
  • 项目主页:https://statefreepolicy.github.io

文中研究人员提出了一种名为 State-free Policy 的策略,与 State-based Policy 相比,即便在训练数据中桌面高度、机器人位置和目标物体等都被严格固定的情况下,机器人仍能展现出强大的空间泛化能力。例如:

在夹笔任务中,获得桌面高度的泛化能力(标准桌高为 80 cm):





在叠衣服任务中,即使机械臂位置大幅偏离标准位置,机器人仍然能出色完成任务:



在全身机器人从冰箱拿饮料的过程中,即使冰箱位置发生移动,机器人也能够适应:



事实上,在机器人操作领域,基于模仿学习的视觉运动策略已经被广泛应用。不过,为了实现精确而可靠的控制,这类模型通常不仅依赖对任务环境的视觉观察,还会引入所谓的 “状态” 信息 —— 包括末端执行器的位置、关节角度等自身感知数据。这些状态信息能够为策略提供紧凑且精确的机器人姿态描述,但同时也带来一个问题:模型容易通过记忆训练轨迹而产生过拟合,从而严重限制空间泛化能力。尤其在当前环境下,获取大量包含位置泛化的真机数据成本极高,这已经成为制约视觉运动策略发展的关键瓶颈。

State-free Policy 的工作条件

为了应对空间泛化能力差的问题,研究人员提出在视觉运动策略的输入中完全移除状态信息,仅依赖视觉观察,这一策略被称为 “State-free Policy”。该方法基于两个关键条件:一是动作在相对末端执行器空间中表示;二是确保视觉输入能够覆盖任务所需的完整观察范围,即完整的任务观察:

1.相对末端动作空间:在这种动作表示空间下,模型根据输入预测当前末端执行器应该进行的相对移动,例如向 x 方向移动 1 厘米,而不是直接预测末端执行器相对于机器人本体的具体位置。这样的表示方式可以让策略更专注于动作的相对变化,而不是依赖精确的全局位置信息,从而降低对状态输入的依赖,提高在不同环境下的泛化能力。



2.完整的任务观察:在常见的输入状态的做法中,状态输入可以给策略提供大致的任务信息,例如到达某一个状态后模型就知道还需要大致运动多少就能够到达目标位置,而不需要关注图像输入中复杂的环境。为了提高策略的泛化性,State-free Policy 移除了状态输入,因此任务中所有的物体信息必须全部由视觉输入提供,这促使我们为机器人的末端执行器配备更广阔的视野。本文中的相机系统由位于机器人头顶的主摄和腕部相机构成。如上图所示,在常规设定下,末端执行器上方会安装一个常规相机。而在双目广角设定下,研究者在末端执行器上方和下方都安装了一个广角相机,来提供更广泛的视野和末端执行下方的视野。不过需要注意的是,这种设定是为了即使在最复杂的环境下也能获得完整的任务观察,有时在简单的环境中常规的设定也可以满足完整的任务观察需求。

真机实验结果

为了验证 State-free Policy 的空间泛化能力,研究人员进行了广泛的实验,尤其是在真机任务中。这些实验涵盖了不同的任务,包括简单的拾取放置任务、困难的叠衣服任务以及使用全身机器人在冰箱中拿取饮料的任务。这些任务的数据是有着严格的收集标准,即数据中物体的摆放均收到严格控制,例如在夹笔放入笔筒的任务中,桌面高度严格不变,且笔筒的位置也严格不变。这样的设定是保证空间泛化能力来自于模型本身,而不是泛化的数据。此外,研究人员发现除了更好的空间泛化能力之外,State-free Policy 还具备包括更高的数据应用效率以及更快的跨本体泛化的优点。在此基础上,研究人员还有一个有趣的发现,那就是移除顶端的主摄可以进一步提高空间泛化能力:



如上图所示,在简单的拾取放置任务中,相比于有状态输入的策略,State-free Policy 拥有显著更强的空间泛化能力,包括高度和水平泛化能力。例如,在夹笔放入笔筒的任务中,高度泛化的测试成功率从 0 提升到了 0.98,水平泛化的测试成功率从 0 提升到了 0.58;而相比于常规的相机设定,具有完整任务观察的设定使高度泛化的测试成功率从 0.87 提升到了 0.98,水平泛化的测试成功率从 0.27 提升到了 0.58。











与此同时,在一些更困难的任务中,例如叠衣服,以及利用全身机器人从冰箱里取饮料(由于硬件限制,只进行了常规相机下的水平泛化能力测试),State-free Policy 的水平泛化能力明显超过了带有状态输入的模型。以上实验证明了 State-free Policy 具有显著更强的空间泛化能力,能在数据多样性受限的情况下获得强大的空间泛化能力。

State-free Policy 的额外优势



除了更强的空间泛化能力之外,State-free Policy 还展现出更高的数据利用效率。相比之下,基于状态的策略往往需要大量多样化的示范数据来避免过拟合特定轨迹,从而增加了数据收集成本。而 State-free Policy 不易陷入这一问题,即使在数据有限的情况下也能保持良好表现。研究人员在夹笔任务中进一步验证了这一点:在不同规模的数据下(300、200、100、50 条演示数据),随着数据量减少,基于状态的策略迅速过拟合并导致性能下降,而 State-free Policy 则始终保持更高的成功率。



另外,State-free Policy 在跨本体微调中也展现出优势。相比依赖状态输入的策略需要重新对齐状态空间,State-free Policy 只需在相似相机配置下适应轻微的图像偏移,因此能更高效地完成跨平台迁移。在叠衣服任务中,研究人员先在双臂 Arx5 上训练,再将其适配到人形双臂机器人,并用 100 条演示数据进行微调。上表的结果表明,State-free Policy 收敛更快,成功率更高,验证了其更强的跨平台适应能力。

在移除限制空间泛化的状态输入后,研究人员进一步思考是否还存在其他潜在瓶颈,并指出顶置相机可能同样带来问题。由于物体位置变化会导致顶视角下的图像分布发生偏移,在极端情况下(如桌面升至 100 cm)甚至会严重影响性能;而腕部相机则可随末端执行器移动,始终获得与训练时一致的相对视角。鉴于双广角腕部相机已能覆盖完整任务观察,顶置相机不仅多余,甚至可能带来负面影响。为验证这一点,研究人员在夹笔放入笔筒任务中设计了三种更具挑战性的情景:桌面升至 100 cm、笔筒加高一倍,以及笔筒在水平方向移动 20 cm。



上表的结果显示,带有顶置相机的 State-free Policy 在这三种情景下表现均不理想,而仅使用双广角腕部相机的策略则始终保持较高成功率。这一发现提示我们,有必要重新审视传感器设计,未来或许应考虑去除顶置相机。

总结


在本研究中,研究人员提出了 State-free Policy,并基于两个条件加以实现:相对末端执行器动作空间,以及通过足够全面的视觉信息获取完整的任务观察。在不依赖状态输入的情况下,该策略不仅能够保持完美的域内性能,还在空间泛化方面取得了显著提升。同时,State-free Policy 有效降低了对昂贵真实数据的需求,支持更高效的跨平台适应,并为未来的传感器设计提供了新的思路,为构建更具泛化能力的机器人学习系统提供了新的启示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

健康之光
2026-03-20 17:05:06
香港这批终身不婚不育的女星已经老了,她们晚年真的孤独凄惨吗?

香港这批终身不婚不育的女星已经老了,她们晚年真的孤独凄惨吗?

八卦宝宝
2026-03-17 11:08:51
网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

明星私服穿搭daily
2026-03-21 14:25:06
水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

时评人李文君
2026-03-25 19:32:21
重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

萌兰聊个球
2026-03-26 13:02:53
大势已去,53%反对票创纪录,梅洛尼公投惨败,意大利政坛要变

大势已去,53%反对票创纪录,梅洛尼公投惨败,意大利政坛要变

时尚的弄潮
2026-03-26 18:02:15
发生了什么?鲁尼儿子凯夺冠后发社媒:将缺阵本赛季剩余比赛

发生了什么?鲁尼儿子凯夺冠后发社媒:将缺阵本赛季剩余比赛

懂球帝
2026-03-26 21:17:50
全球首次!俄军10倍音速锆石高超音速导弹发射车:最后一刻被摧毁

全球首次!俄军10倍音速锆石高超音速导弹发射车:最后一刻被摧毁

Ck的蜜糖
2026-03-26 12:30:25
2026 期刊分区大变天!中科院分区正式退场,一区毕业神刊被标注审查,新兴国产期刊强势崛起

2026 期刊分区大变天!中科院分区正式退场,一区毕业神刊被标注审查,新兴国产期刊强势崛起

生物学霸
2026-03-26 17:13:44
痛别张雪峰!峰学蔚来接班人确定,事业将继续

痛别张雪峰!峰学蔚来接班人确定,事业将继续

大熊欢乐坊
2026-03-26 19:17:05
油价调整:注意,预计下调120元/吨,油价突破下调红线!

油价调整:注意,预计下调120元/吨,油价突破下调红线!

金投网
2026-03-26 11:16:05
唱衰国安新援!揭经纪公司勾结媒体人黑幕:85万引援动了谁的奶酪

唱衰国安新援!揭经纪公司勾结媒体人黑幕:85万引援动了谁的奶酪

体坛鉴春秋
2026-03-26 18:17:46
多个省级党委组织部部长调整

多个省级党委组织部部长调整

上观新闻
2026-03-26 12:48:05
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
大众中国回应斯柯达退出中国市场

大众中国回应斯柯达退出中国市场

澎湃新闻
2026-03-26 17:33:03
朝鲜权力格局再洗牌!金正恩连任背后

朝鲜权力格局再洗牌!金正恩连任背后

新浪财经
2026-03-26 00:04:55
意大利附加赛半决赛名单:斯卡马卡、坎比亚索、坎比亚吉缺席

意大利附加赛半决赛名单:斯卡马卡、坎比亚索、坎比亚吉缺席

懂球帝
2026-03-26 19:42:06
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
法拉利发布F1日本大奖赛海报,画风帅气但“铃鹿”拼错了

法拉利发布F1日本大奖赛海报,画风帅气但“铃鹿”拼错了

懂球帝
2026-03-26 16:09:08
2026-03-26 23:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
艺术
旅游
家居
军事航空

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

艺术要闻

哪一座桥不是风景?

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

家居要闻

傍海而居 静观蝴蝶海

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版