网易首页 > 网易号 > 正文 申请入驻

换个顺序,VLM「不会了」:EgoTSR让机器人判断任务是否真在推进

0
分享至



让我们想象一个场景:

机械臂夹起桌上的杯子,正准备把它放进盘子。下一秒,抓取失败,杯子重新掉回桌面。

从时间上看,后一幅画面发生得更晚;但从任务目标来看,机器人不仅没有取得进展,反而退回了原点。人类很容易看出这种变化,视觉语言模型却可能给出相反答案。

原因并不难理解。大量机器人视频都按正常时间顺序记录:先接近物体,再抓取,最后完成放置。在这样的数据里,「后面的画面更接近任务完成」往往成立。模型训练得越久,就越可能记住这条省力的捷径。它能认出杯子、盘子和机械臂,也能描述画面中的动作,却未必真正理解:这些动作究竟有没有推动任务向前。

针对这一问题,浙江大学等五所高校的研究团队提出 EgoTSR。研究从第一人称机器人视角出发,希望让 VLM 学会判断任务状态,并把这种能力进一步扩展到长程规划。团队构建了包含 4600 万条样本的 EgoTSR-Data,并设计了三阶段课程学习流程。





  • 论文题目: From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning
  • 研究团队: 浙江大学、天津大学、青岛大学、上海交通大学、新加坡国立大学等
  • 论文地址:https://arxiv.org/pdf/2604.10517
  • 代码链接:https://github.com/Collab-Gen/EgoTSR

时间偏置:后出现的画面,真的更接近任务完成吗?

EgoTSR 关注的并不是传统动作识别,而是一个更具体的问题:给定两张来自同一任务视频的图像,哪一个状态更接近任务目标?

例如:

把绿色杯子从桌上拿起来,放进白色盘子中。

模型不能只判断图中是否出现杯子和盘子,还要看杯子是否被抓住、是否正在移动、是否真正进入目标区域。

如果任务是「打开冰箱门」,门打开的状态更接近完成;如果任务是「关闭冰箱门」,判断恰好相反。同一幅图的任务意义,会随着目标发生变化。

真正可靠的模型还必须处理现实中的动作失败和状态回退:机械臂可能已经抓住物体,却在移动过程中将其掉落;抽屉可能被拉开,随后又因碰撞重新关闭;物体可能短暂到达目标区域,之后再次被移走。

因此,时间更晚并不意味着任务完成度一定更高。

研究团队将模型依赖输入顺序进行判断的现象称为「时间顺序偏差」,即 chronological bias。为了直接暴露这种捷径,EgoTSR 采用了一个简单但有效的办法:把同一对图像分别按照正向和反向顺序交给模型。

假设图像 B 比图像 A 更接近任务完成。

第一次输入为:

图像 A,图像 B。

正确答案是第二张图。

随后交换顺序:

图像 B,图像 A。

正确答案必须随之变成第一张图。

如果模型始终选择第二张图,那么它可能并没有分析物体状态,而是在根据图片位置猜测答案。

实验中,这种现象非常明显。以部分长任务评测为例,InternVL-8B 在正向输入下的准确率接近99%,但交换图像顺序后,准确率降至约2%。表面上接近满分的结果,经过反向测试后,暴露出严重的顺序依赖。

三阶段课程:先解释,再内化,最后规划

EgoTSR 没有把全部数据直接混合训练,而是按能力发展顺序分成三个阶段。

第一阶段使用约 1500 万条 CoT 数据:模型需要先描述两张图中的空间状态,再比较哪张图完成了更多必要动作,最后给出答案。这个阶段的重点,是建立视觉状态、任务目标和最终判断之间的联系。

第二阶段使用约 1600 万条 Tag 数据:详细推理文本被移除,只保留图像、任务和正确标签。模型需要直接判断哪张图更接近完成。作者希望将第一阶段形成的显式推理,逐渐转化为更快速的任务状态判断。

第三阶段加入约 1500 万条 LongTag 数据:把能力从单个动作扩展到长程任务。至此,三类数据合计 4600 万条。





子任务规划器:高层语义任务分解为多个细粒度子任务

「拿起杯子」是一个相对明确的原子任务,但真实机器人通常需要完成更复杂的目标。

例如:

打开冰箱,取出饮料,把饮料放到桌面,并重新关上冰箱门。

如果模型只看到「饮料已经被拿起」,可能会认为任务已经接近结束。但从完整目标来看,机器人还需要把饮料放到桌面,并关闭冰箱门。

为此,EgoTSR 引入了一个 Subtask Planner,也就是子任务规划器。它根据初始场景和高层任务描述,生成一组具有明确顺序的原子子任务。

上面的任务可以被拆解为:

  1. 打开冰箱门;
  2. 找到并抓取饮料;
  3. 将饮料从冰箱中取出;
  4. 把饮料放到桌面;
  5. 关闭冰箱门。

这组子任务构成了整个任务的「逻辑骨架」。

模型看到两张图后,不再只比较局部物体位置,而是进一步判断:每张图分别位于任务链的哪个阶段,已经完成了多少必要步骤,后续还剩下哪些动作。

论文将长任务图像对分为三个层次:同一子任务内部、相邻子任务之间,以及跨越多个子任务的状态比较。随着跨度增加,模型需要利用的就不再只是局部视觉变化,而是整个任务的因果和顺序结构。

值得注意的是,这里的「规划」主要指高层任务分解和任务进度推理。EgoTSR 并不直接输出机械臂的关节角、力矩或运动轨迹,而是为机器人提供「任务进行到哪里」和「后续还需要完成什么」的认知基础。

双层评测:既看是否「看清除」,也看是否「想明白」

研究团队构建了 Dual-Level Evaluation Framework。

第一层是短程原子任务,考察模型能否捕捉细粒度空间变化,例如夹爪是否闭合、按钮是否按下、物体是否进入容器。这一层主要诊断模型是否「看错了」。

第二层是长程任务,要求模型结合子任务序列,判断两张图在完整任务中的相对进度。这一层主要诊断模型是否「想错了」。

两个层级都加入了正向和反向输入测试,用来检查模型是否依赖图像顺序。

最终,EgoTSR 在长程任务上取得 92.4% 的平均准确率,短程任务表现约为 88%。在长程双向评测中,正向准确率约 92.4%,反向约 92.3%,差距仅 0.1 个百分点。

消融实验也说明了训练顺序的重要性。将 CoT、Tag 和 LongTag 混合训练时,长任务准确率只有 69.6%;按「显式推理 — 能力内化 — 长程规划」的顺序训练后,准确率提升到 92.4%。去掉 Subtask Planner 后,准确率则下降到 81.1%。





从任务判断走向任务完成度监测

除了定量评测,研究团队还在人类操作视频、模拟环境和真实机器人平台上进行了案例验证,涉及 LIBERO、SIMPLER、RoboTwin,以及 Franka、Agibot 和 So-100 等机器人平台。

在「把绿色杯子放进白色盘子」的案例中,模型持续处理未经切分的完整视频,并输出一条任务完成度曲线。

当机械臂接近杯子时,曲线缓慢变化;完成抓取和放置等关键子任务时,完成度出现明显上升;中间的搬运过程则保持相对稳定。

这意味着 EgoTSR 不仅可以比较两张静态图,还具备用于长视频任务监测的潜力,例如判断机器人当前处于哪个阶段、是否发生了动作回退,以及任务是否正在按照预期推进。



机器人需要的不只是「看见」


从静态图像识别走向真实机器人,模型面对的问题发生了根本变化。

在图像问答中,识别出杯子、盘子和机械臂可能已经足够;但在具身任务中,模型还需要理解这些物体之间的变化是否服务于当前目标。

机械臂动了,不代表任务取得了进展;视频继续播放,也不代表机器人越来越接近成功。

EgoTSR 的价值,一方面在于提供了一种从显式推理逐步过渡到长程规划的训练路径;另一方面,它通过正向和反向图像对,为具身模型设计了一把更加严格的「尺子」。

当然,这项工作距离完整的通用机器人系统仍有明显距离,但它至少揭示了一个容易被高准确率掩盖的问题:

当一个模型声称自己理解了机器人视频时,它究竟是在分析物体、动作和任务之间的因果关系,还是只是在重复「后一张图通常更接近完成」这一数据规律?

对于希望进入真实世界的具身智能而言,回答这个问题,或许比单纯提高几个百分点的准确率更加重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高度差16厘米!马未都发声公开藏品来历,罗汉造像真相逐渐清晰

高度差16厘米!马未都发声公开藏品来历,罗汉造像真相逐渐清晰

行者聊官
2026-07-04 23:39:01
“梅里雪山惊现佛得角门将”冲上热搜,照片系网友去年7月发布于个人社交账号,因沃齐尼亚爆红被翻出;发布者留言:大自然真就这么神奇

“梅里雪山惊现佛得角门将”冲上热搜,照片系网友去年7月发布于个人社交账号,因沃齐尼亚爆红被翻出;发布者留言:大自然真就这么神奇

极目新闻
2026-07-05 20:21:11
0-3!输球不可怕,可怕的是加拿大主帅赛后这番话,发布会逆转!

0-3!输球不可怕,可怕的是加拿大主帅赛后这番话,发布会逆转!

田先生篮球
2026-07-05 06:59:16
国家一级文物上现广告字样,中国工艺美术馆回应:已反映给青海省博物馆,会有专人处理

国家一级文物上现广告字样,中国工艺美术馆回应:已反映给青海省博物馆,会有专人处理

潇湘晨报
2026-07-05 13:12:18
1-1,成都蓉城经典领先换前锋,韦世豪成浪射王 海牛残阵太顽强了

1-1,成都蓉城经典领先换前锋,韦世豪成浪射王 海牛残阵太顽强了

替补席看球
2026-07-05 21:01:56
法国队主帅德尚不满裁判纵容对手:赛后安排两名强壮球员保护姆巴佩,为防止对手报复伤人

法国队主帅德尚不满裁判纵容对手:赛后安排两名强壮球员保护姆巴佩,为防止对手报复伤人

红星新闻
2026-07-05 09:06:42
马上评|2G、3G退网是趋势,但别忘了等一等老人

马上评|2G、3G退网是趋势,但别忘了等一等老人

澎湃新闻
2026-07-05 15:08:30
9.37吨战略物资偷运日本,这不是走私,是叛国!

9.37吨战略物资偷运日本,这不是走私,是叛国!

华山穹剑
2026-07-04 20:30:02
这一抱捧红了女友!佛得角球员打进世界波后冲向看台与女友相拥,如今她的个人社媒粉丝数已近20万

这一抱捧红了女友!佛得角球员打进世界波后冲向看台与女友相拥,如今她的个人社媒粉丝数已近20万

红星新闻
2026-07-05 13:01:10
姜萍最新消息!已考入常熟一高校,校园为她设“逆袭升本”宣传栏

姜萍最新消息!已考入常熟一高校,校园为她设“逆袭升本”宣传栏

火山詩话
2026-07-05 10:55:18
佛得角究竟强在哪,“中高收入”意味着什么?

佛得角究竟强在哪,“中高收入”意味着什么?

新民周刊
2026-07-05 08:37:26
沃齐尼亚:梅西很好他答应了给我球衣,但很遗憾我因为采访而错过了

沃齐尼亚:梅西很好他答应了给我球衣,但很遗憾我因为采访而错过了

懂球帝
2026-07-05 03:08:12
逆天!阿根廷跟队称赞巴拉圭踢出体面世界杯 姆巴佩不应质疑他们

逆天!阿根廷跟队称赞巴拉圭踢出体面世界杯 姆巴佩不应质疑他们

雪狼侃体育
2026-07-05 16:26:53
终于来了!广东队撤下杜锋主帅位置,新主教练正式曝光!

终于来了!广东队撤下杜锋主帅位置,新主教练正式曝光!

绯雨儿
2026-07-05 15:09:23
许家印算个屁,北京首富才是真首富!没人不服!

许家印算个屁,北京首富才是真首富!没人不服!

遁走的两轮
2026-07-05 08:45:23
一家三口新疆自驾游母子遇山洪失联后续,目击者发声,本地人提醒

一家三口新疆自驾游母子遇山洪失联后续,目击者发声,本地人提醒

叹为观止易
2026-07-05 11:39:01
失联8天,在新疆遭泥石流卷走的苏州母子已被找到,均不幸遇难:母亲的遗体在下游水库中被先行找到;约20分钟后,孩子的遗体也被找到

失联8天,在新疆遭泥石流卷走的苏州母子已被找到,均不幸遇难:母亲的遗体在下游水库中被先行找到;约20分钟后,孩子的遗体也被找到

都市快报橙柿互动
2026-07-05 20:14:17
俄乌冲突持续升级,专家:战场逻辑和重点发生改变

俄乌冲突持续升级,专家:战场逻辑和重点发生改变

极目新闻
2026-07-05 18:34:17
暴雨、台风、强对流天气,中央气象台六预警齐发

暴雨、台风、强对流天气,中央气象台六预警齐发

上游新闻
2026-07-05 20:47:07
特朗普:伊朗举国哀悼哈梅内伊,我很震惊,“我还以为伊朗人不喜欢他”,美国不会在葬礼期间发动攻击

特朗普:伊朗举国哀悼哈梅内伊,我很震惊,“我还以为伊朗人不喜欢他”,美国不会在葬礼期间发动攻击

大风新闻
2026-07-05 14:18:04
2026-07-05 21:39:01
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13442文章数 142688关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

在新疆遭泥石流卷走失联多日的母子被找到 均不幸遇难

头条要闻

在新疆遭泥石流卷走失联多日的母子被找到 均不幸遇难

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
亲子
旅游
手机
公开课

艺术要闻

画布上邂逅一场光影之恋:俄罗斯油画大师的温柔人间

亲子要闻

奉劝大家:超市里这5种食物少给孩子吃,看似有营养,实则没好处

旅游要闻

让更多游客留下来过夜,上海主题乐园打响加时赛

手机要闻

CMOS集体变「方」!不只是手机,所有影像硬件都要变了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版