网易首页 > 网易号 > 正文 申请入驻

机器人慢半拍难题:南洋理工解决VLA致命短板,动态世界断层领先

0
分享至



当物体在滚动、滑动、被撞飞,机器人还在执行几百毫秒前的动作预测。
对动态世界而言,这种延迟,往往意味着失败。

在过去几年中,Vision-Language-Action(VLA)模型迅速成为机器人领域的焦点:机器人可以 “看懂” 画面、“理解” 语言指令,并直接输出连续动作,在静态抓取、摆放、桌面操作等任务中取得了显著进展。

但一个长期被忽视的问题是 ——真实世界几乎从来不是静态的。当物体开始移动、加速、碰撞、改变轨迹,当前主流 VLA 模型往往会出现反应迟缓、动作失配、甚至完全失败的情况。

问题不在于模型不聪明,而在于:它们跟不上时间。

近日,来自 NTU S-Lab 的研究团队提出 DynamicVLA,首次系统性地从模型架构、推理机制和数据体系三个层面,重新审视并解决动态物体操控(Dynamic Object Manipulation)这一长期空缺的问题。

想深入了解 DynamicVLA 的技术细节?我们已经为你准备好了完整的论文、项目主页和代码仓库!



  • 论文链接:https://arxiv.org/abs/2601.22153
  • 项目链接:https://haozhexie.com/project/dynamic-vla/
  • GitHub 链接:https://github.com/hzxie/DynamicVLA

为什么 “动态操控” 对 VLA 来说如此困难?



在静态场景中,VLA 模型通常遵循如下流程:

感知 → 推理 → 生成一段动作 → 执行完 → 再次推理

当环境基本不发生变化时,这种方式可以正常工作;但一旦物体开始运动,这一流程便迅速失效。

问题并不在于模型能力不足,而在于时间结构本身不适用于动态世界,主要体现在两个方面:

  1. 感知 — 执行时间错位(Perception–Execution Gap):由于推理存在不可避免的延迟,当模型完成决策时,物体状态早已发生变化,动作天然 “滞后于现实”。
  2. 动作分块等待(Inter-chunk Waiting):多数 VLA 必须等上一段动作完全执行后才能启动下一次推理,使机器人在动态环境中始终处于被动追赶状态。

这两个问题叠加,使得即便在静态任务中表现良好的 VLA,也难以应对真实世界中的动态操控。

DynamicVLA 的核心思路:让机器人 “边想边做”



DynamicVLA 并没有选择通过增大模型来 “预测更远的未来”,而是围绕一个更根本的问题重新设计系统:

在推理延迟无法消除的情况下,如何保证机器人执行的动作仍然与当前世界状态时间对齐?

为此,DynamicVLA 从推理机制、执行策略和模型结构三个层面提出了对应设计。

1. Continuous Inference:让推理与执行不再相互等待

在传统 VLA 中,推理与执行严格串行;

而 Continuous Inference(连续推理)允许模型在上一段动作尚未执行完时,就启动下一轮推理,从而解决的是 Inter-chunk Waiting 带来的反应迟滞问题:

  • 推理与执行形成流水线
  • 不再存在 “动作执行完才能继续思考” 的空窗期
  • 机器人始终保持一个持续更新的动作预测流

2. Latent-aware Action Streaming:修复推理延迟造成的时间错位

即使采用连续推理,推理延迟本身仍然存在。这意味着:模型生成动作时所依据的观察,往往已经落后于真实世界。Latent-aware Action Streaming(LAAS)正是针对这一Perception–Execution Gap设计的执行机制:

  • 显式丢弃因推理延迟而 “过时” 的动作
  • 只执行在时间上仍与当前环境状态对齐的预测
  • 当新预测到来时,优先采用更新、更接近当前状态的动作

3. 为动态而生的轻量化 VLA 架构

上述机制能否成立,还依赖于足够低的推理延迟。因此 DynamicVLA 采用了专为动态操控设计的轻量化架构:

  • 卷积式视觉编码器,避免多帧输入下 token 爆炸
  • 截断语言模型层数,在速度与理解能力之间取得平衡
  • 整体模型规模控制在 0.4B 参数量级

动态操控数据的核心缺口:从仿真到真实世界



当前,无论是仿真还是真实机器人,主流 VLA 数据集几乎都聚焦于静态操作,而对动态物体交互的系统性覆盖仍然缺失。这一数据结构性偏差,直接限制了 VLA 在真实动态环境中的泛化能力。

在仿真侧,DynamicVLA 基于 Isaac Sim 构建了大规模动态操控数据:覆盖 2800+ 场景、206 种物体,通过多样化的物体运动与交互模式,生成丰富且可控的动态仿真数据,为模型提供了系统性的动态训练基础。

相比之下,真实世界的动态数据采集处于 “几乎不可行” 的状态:动态物体运动速度快,人类遥操作反应时间不足,且难以实时获取高质量的 6D 位姿与速度标注,使得规模化、可复现的真实动态操控数据一直缺位。

DynamicVLA 的做法并不是强行遥操作,而是把真实世界 “做成仿真接口”(Real-world Simulator):

  • 多视角 RGB 感知,实时追踪物体运动
  • 在线估计物体 6D 位姿 + 速度
  • 将真实环境抽象为与仿真一致的状态输入
  • 直接复用同一套状态机与控制逻辑

首个动态操控基准:DOM Benchmark



在上述自动化数据体系之上,团队进一步构建了 Dynamic Object Manipulation(DOM)Benchmark,这是首个专为动态物体操控设计的系统性评测基准。

与以往侧重 “是否完成任务” 的静态评测不同,DOM 从动态操控的本质出发,将能力拆解为 3 个核心维度、9 个子维度:

1. 交互能力(Interaction)评估机器人在物体持续运动下的实时控制与决策能力,包括:

  • Closed-loop Reactivity:对不同运动速度的即时响应能力
  • Dynamic Adaptation:在碰撞、变向等突发事件后的快速调整能力
  • Long-horizon Sequencing:在长时间动态交互中保持策略一致性的能力

2. 感知与理解(Perception)评估模型在动态场景中的多模态理解能力,包括:

  • Visual Understanding:区分外观相似物体的能力
  • Spatial Reasoning:理解空间关系与相对位置的能力
  • Motion Perception:感知与判断物体运动状态(速度、方向)的能力

3. 泛化与鲁棒性(Generalization)评估模型在分布外动态条件下的稳定性,包括:

  • Visual Generalization:面对未见物体与新场景的适应能力
  • Motion Generalization:应对新速度范围与运动模式的能力
  • Disturbance Robustness:在外部扰动下维持稳定控制的能力

DOM Benchmark 显示,DynamicVLA 在动态交互相关能力上显著领先,但在感知理解与扰动鲁棒性上仍存在明显不足。这一限制并非偶然,而是源于为保证实时性而选择的小模型架构。如何在响应速度与推理能力之间取得更优平衡,将是动态操控 VLA 的重要方向。

实验结果:动态世界中的断层领先

在仿真与真实机器人实验中,DynamicVLA 在多个维度上显著领先现有方法。

DynamicVLA 的意义:机器人开始真正 “活在时间里”

DynamicVLA 传递了一个清晰信号:

下一代机器人智能的核心,不只是 “看懂世界”,而是在世界变化的过程中持续做出正确反应。

从 Continuous Inference,到 Latent-aware Action Streaming,再到 Real-world simulator,DynamicVLA 为动态操控提供了一套可复现、可扩展、可落地的系统范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025年,19岁的廖某因借宿被拒杀人,行凶后竟淡定吃面条,睡大觉

2025年,19岁的廖某因借宿被拒杀人,行凶后竟淡定吃面条,睡大觉

有书
2026-02-10 00:00:10
历史第一人!中国选手谷爱凌刚创20冠纪录,却0.38分绝杀卫冕失利

历史第一人!中国选手谷爱凌刚创20冠纪录,却0.38分绝杀卫冕失利

林子说事
2026-02-10 08:46:32
罗瑞卿坠楼受伤后,汪东兴前往医院传达中央意见,毛主席当时是怎样的态度?

罗瑞卿坠楼受伤后,汪东兴前往医院传达中央意见,毛主席当时是怎样的态度?

史海孤雁
2026-02-10 16:32:24
首次发现!青藏高原地下可能存在→

首次发现!青藏高原地下可能存在→

环球时报国际
2026-02-07 20:20:18
首次罕见集结!召集34国开防务峰会,美国开始军事号令西半球?

首次罕见集结!召集34国开防务峰会,美国开始军事号令西半球?

上观新闻
2026-02-10 17:59:32
澳网失利后退役传闻甚嚣尘上,德约科维奇给出了最新的回答

澳网失利后退役传闻甚嚣尘上,德约科维奇给出了最新的回答

网球之家
2026-02-09 22:36:34
外资加速撤离韩国、泰国等地股市 科技股成抛售重灾区

外资加速撤离韩国、泰国等地股市 科技股成抛售重灾区

财联社
2026-02-10 16:58:07
苹果加入「互传联盟」?不用装App,安卓要iPhone打成一片

苹果加入「互传联盟」?不用装App,安卓要iPhone打成一片

雷科技
2026-02-10 10:38:11
浙江省委常委会召开会议,坚决拥护党中央对易炼红涉嫌严重违纪违法进行纪律审查和监察调查的决定

浙江省委常委会召开会议,坚决拥护党中央对易炼红涉嫌严重违纪违法进行纪律审查和监察调查的决定

界面新闻
2026-02-10 13:48:06
得不到基本的球权支持,湖人完全没有发挥出后场新援的价值?

得不到基本的球权支持,湖人完全没有发挥出后场新援的价值?

稻谷与小麦
2026-02-10 23:43:32
盖茨慌了?刚卷入爱泼斯坦丑闻,反手卖掉豪宅,网友:他在怕什么

盖茨慌了?刚卷入爱泼斯坦丑闻,反手卖掉豪宅,网友:他在怕什么

墨兰史书
2026-02-10 19:39:38
美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

保德全
2026-02-03 19:30:03
或是最贵车祸!湖北高速半挂车撞1.4亿直升机,全险估计都赔不起

或是最贵车祸!湖北高速半挂车撞1.4亿直升机,全险估计都赔不起

火山詩话
2026-02-10 06:05:38
39岁女老师出轨19岁学生:高颜值照流出,肮脏细节披露,当地回应

39岁女老师出轨19岁学生:高颜值照流出,肮脏细节披露,当地回应

博士观察
2026-02-07 18:16:24
老山战场巡诊,战士患烂裆病不让看,女军医:我是你大姐,怕什么

老山战场巡诊,战士患烂裆病不让看,女军医:我是你大姐,怕什么

云霄纪史观
2026-02-10 13:48:52
著名儿童绘本画家陈巽如辞世

著名儿童绘本画家陈巽如辞世

澎湃新闻
2026-02-10 07:18:32
1973年叶剑英前去拜访朱德,不见警卫直接进门:怎么没人阻拦我

1973年叶剑英前去拜访朱德,不见警卫直接进门:怎么没人阻拦我

浩渺青史
2026-01-23 05:49:38
十足国际范!深圳新鹏城球衣胸前广告亮相,牵手阿联酋航空公司

十足国际范!深圳新鹏城球衣胸前广告亮相,牵手阿联酋航空公司

实事球是
2026-02-10 17:26:08
中国军网点名:日本华裔拜鬼,高市笑到最后,警告军国主义渗透?

中国军网点名:日本华裔拜鬼,高市笑到最后,警告军国主义渗透?

玫瑰与花海
2026-02-09 21:53:48
36岁龙洋辞别央视!新身份曝光,人生彻底转向

36岁龙洋辞别央视!新身份曝光,人生彻底转向

草莓解说体育
2026-02-10 00:27:58
2026-02-11 00:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12283文章数 142565关注度
往期回顾 全部

科技要闻

Seedance刷屏:网友们玩疯 影视圈瑟瑟发抖

头条要闻

28岁小伙年会醉酒 被同事送回宿舍后心脏骤停死亡

头条要闻

28岁小伙年会醉酒 被同事送回宿舍后心脏骤停死亡

体育要闻

NBA上演全武行,超大冲突4人驱逐!

娱乐要闻

章子怡和马丽争影后 金像奖提名太精彩

财经要闻

雀巢中国近千经销商的“追债记”

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

健康
家居
房产
手机
数码

转头就晕的耳石症,能开车上班吗?

家居要闻

宁静港湾 灵动与诗意

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

手机要闻

2026年手机行业剧透:7大信号来袭,要卷出新高度了

数码要闻

AOC爱攻新显示器来袭,1080P 260Hz电竞体验如何?

无障碍浏览 进入关怀版