网易首页 > 网易号 > 正文 申请入驻

机器人大突破,抓动态物体成功率暴涨188%,碾压传统VLA

0
分享至

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。

在机器人操控领域,静态物体的抓取和搬运其实已经做得挺不错的了,但是一说到现实世界里到处乱跑的动态物体,那些传统的模型就掉链子。

最近南洋理工大学S-Lab团队搞出了大动作,专门为机器人动态物体操作开发了一个DynamicVLA模型。

在闭环反应那个测试项目里,DynamicVLA的成功率干到了60.5%,而以前那个最厉害的基线模型才21.0%,整体成功率暴涨了188%,碾压传统的VLA模型。


论文地址:https://arxiv.org/pdf/2601.22153

咱们先来聊聊为啥传统的VLA模型在动态场景里会显得这么力不从心。其实说穿了,核心问题就出在那个感知和执行的时间差上,这就像是你的眼睛看到了东西,但脑子转过神来指挥手去抓的时候,东西早就跑偏了。

以前那些模型往往要先把这一刻观察到的所有信息全都算明白了,才能生成动作去执行。

可就在它在那算来算去的时候,物体还在不停地动呢,这就导致模型辛辛苦苦算出来的动作,跟眼前真实的环境完全是两码事,根本对不上号。

南洋理工这个团队看准了这些难题,决定从模型架构、推理机制和执行策略这三个方面下手,搞出了这个DynamicVLA模型。

硬是让感知、推理和执行这三个环节能高效地配合起来。这就像是把一个反应迟钝的巨人,改造成了一个眼疾手快的武术家。

首先他们在模型架构上玩了个巧的,没去跟风用那种虽然流行但特别吃算力的Transformer视觉编码器,而是选了FastViT这个卷积视觉编码器,造出了一个只有0.43亿参数的紧凑模型


这FastViT就像是个压缩高手,能很高效地把图像里的空间信息压缩好,而且不像Transformer那样,输入的画面一多,计算量就呈指数级爆炸。

在处理语言理解这块,他们选用了SmolLM2-360M这个模型,而且很明智地只保留了前面16层Transformer结构。这一刀切下去,推理速度快了不少,但多模态推理的能力却没怎么丢,这波操作真的是很懂取舍。

为了让视觉、语言和机器人自己的本体感知信息能顺畅地融合在一起,他们还设计了一套轻量化的线性投影模块。

至于动作是怎么生成的,这就要靠那个基于扩散模型的动作专家网络了。这个网络把前面视觉语言骨干网络出来的多模态特征当成条件。

用一个叫条件流匹配Transformer的架构,去预测包含20个连续动作的动作块。每个动作都是一个32维的向量,里面记录了机械臂末端应该去哪、夹爪该张还是该合这些关键信息


解决了模型本身的问题,接下来就是那个一直让人头疼的推理和执行串行化的问题了。DynamicVLA搞了个叫连续推理的机制,直接把推理和执行变成了两路并行的工作流。

以前那种模型,非得等上一个动作块全都做完了,才肯开始想下一步。这就像是开车的时候,每过一个路口都得停下来想半天才敢走,效率低得吓人。

而现在的这个新机制,推理周期的启动完全看上一轮推理什么时候完,根本不管上一个动作块做没做完。而且他们特意把动作序列弄得比推理延迟长一点,这就意味着当前动作还在做的时候,下一个动作块就已经算好了。

这种流水线一样的工作模式,彻底消灭了动作之间的等待时间,让动作流连绵不断,机器人就能对物体的一举一动做出实时的反应。

模型搞出来了,还得有数据喂给它吃。为了填补动态操作数据的空缺,这个团队不光是造模型,还顺手搭了个DOM基准测试集,这是第一个专门针对动态物体操控的大规模基准

这个基准里头有206种日常物品和2824个各种各样的3D场景,构建了一个包含交互、感知、泛化三个大维度的评估体系,专门用来考验模型在动态场景下的真实本事。

在交互这个维度里,他们主要看机器人能不能跟上动态物体的节奏。这里面又细分成闭环反应性,就是看它对不同速度物体的跟踪抓取能力;


还有动态适应性,看它要是物体突然变向或者被撞了一下,能不能反应过来;最后是长时序序列执行,看它能不能在多物体、长时间的任务里保持清醒,按部就班地把事情做完。

说了这么多,大家肯定最关心实际效果。团队在DOM基准上做了全面测试,还拉上了DiffusionPolicy、SmolVLA等一大票主流模型当对照组,用成功率、路径长度、任务完成时间这三个指标打分。

在交互能力测试里,DynamicVLA直接一骑绝尘。闭环反应性、动态适应性、长时序序列执行这三项任务的成功率分别达到60.5%38.5%40.5%,比最好的基线模型高出一大截


真实场景测试更有说服力,像抓取滚动的咖啡罐放进木箱这种任务,传统模型成功率大多低于20%DynamicVLA能稳定在50%以上,最高甚至冲到了78.3%。这就意味着机器人终于能稳稳接住运动中的物体,不会再出现抓空的尴尬情况。

感知能力这块,DynamicVLA也没掉链子。在视觉理解任务里,机器人要从一堆运动的物体里精准识别出目标,比如从网球和匹克球里抓网球,传统模型成功率不到15%,DynamicVLA能达到51.7%。

运动感知任务更考验技术,机器人要区分不同速度的物体,DynamicVLA的表现同样远超其他模型。

团队还做了消融实验,验证每个组件的作用。结果很明显,0.43亿参数是效率和性能的黄金平衡点,参数太少推理能力不够,太多又会拖慢速度

FastViT编码器比传统的Transformer编码器表现更好,能提升18.17%的成功率。

连续推理和隐式感知动作流这两个组合拳,更是直接让成功率提升了16.79%,足以见得这两个创新点的重要性。

想转型AI,不被时代淘汰

CAIE注册人工智能工程师认证

岗位能力 × AI工具 ×转型方向 × 场景落地 = 新AI职业价值

扫码免费领取《AI工程师入门学习指南》

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3-2!胖虎传射建功,谢什科94分钟绝杀,卡圣3连胜,曼联重返前四

3-2!胖虎传射建功,谢什科94分钟绝杀,卡圣3连胜,曼联重返前四

我的护球最独特
2026-02-02 00:14:28
广州一初中生独自背着被褥、蚊帐坐地铁回家,十几斤行李在背上堆成小山!当事人:室友帮助花20多分钟打包,网友:“自己扛”比分数更重要

广州一初中生独自背着被褥、蚊帐坐地铁回家,十几斤行李在背上堆成小山!当事人:室友帮助花20多分钟打包,网友:“自己扛”比分数更重要

极目新闻
2026-02-01 08:47:16
随着一场3-2!曼联绝杀富勒姆,反超切尔西+利物浦!冲到英超第4

随着一场3-2!曼联绝杀富勒姆,反超切尔西+利物浦!冲到英超第4

足球评论qs
2026-02-02 00:06:33
6+3+2+2!河村勇辉首秀!亚洲第一控卫杀回NBA

6+3+2+2!河村勇辉首秀!亚洲第一控卫杀回NBA

篮球实战宝典
2026-02-01 17:41:53
突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

每日经济新闻
2026-02-01 00:54:06
钱再多有什么用?52岁刘强东身家上千亿,儿子却成为他一生的遗憾

钱再多有什么用?52岁刘强东身家上千亿,儿子却成为他一生的遗憾

青橘罐头
2026-01-31 21:39:14
爱泼斯坦鸡腿人照片炸锅!案板火鸡旁疑似人腿,官方辟谣难平众怒

爱泼斯坦鸡腿人照片炸锅!案板火鸡旁疑似人腿,官方辟谣难平众怒

眼光很亮
2026-02-01 17:15:19
四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

潇湘晨报
2026-02-01 16:07:16
舍什科补时绝杀!曼联三连胜重返前四,对手看傻眼,弗格森笑了

舍什科补时绝杀!曼联三连胜重返前四,对手看傻眼,弗格森笑了

奥拜尔
2026-02-02 00:09:16
1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

信网
2026-02-01 15:01:30
国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

和平声浪
2026-02-01 09:30:41
欧媒:欧洲最大电池巨头企业破产,今后再也没有击败中国的希望了

欧媒:欧洲最大电池巨头企业破产,今后再也没有击败中国的希望了

比利
2026-01-31 21:39:19
B费领跑助攻榜,胖虎传射舍什科绝杀,曼联3-2富勒姆重返英超前4

B费领跑助攻榜,胖虎传射舍什科绝杀,曼联3-2富勒姆重返英超前4

钉钉陌上花开
2026-02-01 23:59:17
一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

黄娜老师
2026-02-01 13:45:43
就剩日本了

就剩日本了

新民周刊
2026-02-01 09:09:29
《名侦探柯南》与辱华漫画联动,紧急声明!

《名侦探柯南》与辱华漫画联动,紧急声明!

极目新闻
2026-02-01 10:34:47
缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

小虎新车推荐员
2026-02-01 05:45:13
阿维塔陷销量、亏损双重困局,华为、长安等“三巨头”扶不起来?

阿维塔陷销量、亏损双重困局,华为、长安等“三巨头”扶不起来?

贝多财经
2026-02-01 10:58:03
沙特金元足球终于开始暴雷!!

沙特金元足球终于开始暴雷!!

足球大叔1986
2026-02-01 06:41:21
iPhone 18 Pro新外观曝光,全系12GB运存

iPhone 18 Pro新外观曝光,全系12GB运存

科技堡垒
2026-02-01 12:19:03
2026-02-02 00:27:00
呼呼历史论
呼呼历史论
分享有趣的历史
321文章数 16171关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

房产
数码
健康
艺术
手机

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

数码要闻

极摩客已在海外市场推出新款高端迷你主机NucBox K13

耳石症分类型,症状大不同

艺术要闻

意大利画家尼古拉·辛巴里,色块之美震撼人心!

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

无障碍浏览 进入关怀版