网易首页 > 网易号 > 正文 申请入驻

机器人具身操作评估新范式来了,从此告别单一成功率指标

0
分享至



作者介绍:刘梦源,北京大学深圳研究生院研究员,研究领域为人类行为理解与机器人技能学习;盛举义,北京大学在读博士研究生,研究方向为机器人操作技能学习方法研究;王梓懿、李培铭,北京大学在读硕士研究生,研究方向为视频理解分析;徐天铭,北京大学在读硕士研究生,研究方向为机器人操作技能学习方法研究;徐天添,中国科学院深圳先进技术研究院集成所研究员,研究领域为磁控微型机器人导航、机器人的协同控制等;刘宏,北京大学深圳研究生院教授,研究领域为计算机视觉与智能机器人、机器学习与智能人机交互。



  • 论文标题:Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods
  • 论文链接:https://arxiv.org/abs/2601.18723
  • 代码链接: https://github.com/LogSSim/TERM-Bench

随着 Vision-Action (VA) 和 Vision-Language-Action (VLA) 模型的爆发,机器人模仿学习取得了长足进步。然而,当前的评估体系却面临着严重的「信任危机」。现有的评估范式主要依赖二元的「成功率(Success Rate)」,这种简单的指标掩盖了两个关键问题:

  • 执行质量的模糊性(Gap 1):同样是「成功」完成任务,模型 A 可能动作僵硬、伴随剧烈抖动(Jerky Success),而模型 B 则行云流水。传统的二元评价无法区分二者,导致潜在的安全隐患被忽视。
  • 来源的模糊性(Gap 2):在一些已有的展示视频中,不仅难以判断动作是否由真正的自主策略生成,甚至难以分辨其是否由人类远程操作(Teleoperation)「冒充」。

为了解决上述评估信任危机,北大与中科院团队提出了一套完整的解决方案:Eval-Actions 评估基准与 AutoEval 自动化评估架构。该方案旨在从「细粒度动作质量」和「来源真实性」两个维度,重塑机器人操作的评估标准。



图 1 (上) 评估危机:现有二元指标掩盖了执行质量(如「抖动成功」与「平滑成功」的区别)和来源真实性(难以区分策略生成与人类遥操作)的模糊性。 (下) 解决方案:Eval-Actions 基准与 AutoEval 架构(绿色部分)相结合,填补了这两大空白,实现了精准的细粒度质量评估与鲁棒的来源验证,显著优于传统的通用 VLM(红色部分)。

填补空白:首个面向评估完整性的 Eval-Actions 基准

表格 1 机器人操作数据集的对比分析。与以模型训练为核心、追求原始轨迹数据量最大化的数据集不同,Eval-Actions 以标注密度最大化为设计目标,独有的优势在于提供故障场景数据、混合轨迹数据源。



为了打破现有数据集仅关注「成功演示」的局限,研究团队构建了 Eval-Actions 基准。与 Open X-Embodiment 等以训练为目的的数据集不同,Eval-Actions 专为诊断性评估而生。

  • 包含失败场景:数据集不仅包含成功的轨迹,还创新性地引入了约 2.8k 条失败数据。这对于模型学习错误恢复和鲁棒的失败检测至关重要 。
  • 混合来源验证:数据集混合了人类遥操作数据与多种策略(VA 及 VLA 模型)生成的轨迹,为验证「来源真实性」提供了数据基础。
  • 多维监督信号:提供了专家评分(Expert Grading)、排序引导(Rank-Guided)以及思维链(Chain-of-Thought, CoT)三种层次的注释,支持从数值评分到逻辑推理的全方位评估。



图 2 Eval-Actions 基准概览。包含从单臂到双臂的 150 + 任务,并提供细粒度的质量雷达图与 CoT 注释。

AutoEval:双引擎驱动的自动化评估专家

为了实现对机器人行为的精准诊断,团队设计了 AutoEval 框架。它并未采用单一模型,而是针对不同的评估维度,创新性地提出了 AutoEval-S 和 AutoEval-P 两种架构,分别解决「看不清细节」和「胡乱推理」的难题。

1. AutoEval-S:精准捕捉动作细节

传统的 VLA 模型往往只能处理稀疏的关键帧,容易遗漏动作执行过程中的抖动或停顿。AutoEval-S(Small)引入了时空聚合策略(Spatio-Temporal Aggregation)。

  • 高频细节压缩:它并没有简单丢弃中间帧,而是将高频的运动细节「压缩」 进视觉 Token 中,最大化了时间信息的密度。
  • 物理信号校准:辅以运动学校准信号(Kinematic Calibration Signal),直接利用速度和加速度方差等物理数据来校准视觉评估,确保评分精准反映动作的平滑度与安全性。

2. AutoEval-P:具备逻辑推理能力的「考官」

当需要模型输出思维链(CoT)进行解释时,传统模型常出现「幻觉」,即推理逻辑与打分不一致(例如嘴上说「动作完美」,实际上物体已经掉了)。AutoEval-P(Plus)引入了组相对策略优化(GRPO)范式。

  • 强制言行一致:通过强化学习,AutoEval-P 被训练在生成评分的同时,必须给出逻辑自洽的物理推理。其混合奖励函数(Hybrid Reward Function)同时约束内容的准确性和格式的规范性,有效消除了大模型的推理幻觉。



图 3 上分支 (AutoEval-S):专为评分与排序设计。采用时空聚合策略将高频运动细节压缩至视觉 Token,并辅以物理校准信号,精准捕捉动作中的细微抖动。下分支 (AutoEval-P):专为思维链(CoT)推理设计。引入 GRPO 强化学习范式,通过混合奖励函数(内容 + 格式)强制模型生成逻辑自洽的物理推理与评分,有效解决大模型的「幻觉」问题 。

实验结果:树立可信评估新标准

在 Eval-Actions Small (EAS) 子集上的广泛实验表明,AutoEval 框架在多项指标上展现出卓越性能,全面超越了 InternVL、QwenVL 等通用大模型 。

1. 极高的来源辨别力:让「造假」无处遁形

AutoEval 能够以 99.6% 的准确率区分视频是来自真实的策略生成还是人类遥操作,有效解决了「来源模糊性」问题,为机器人社区提供了一套权威的防伪工具。

2. 细粒度评分高度对齐人类

在衡量动作平滑度、安全性和效率的综合质量评分上,AutoEval-S 与人类专家的判断高度一致。

  • 在专家评分(EG)协议下,SRCC 达到 0.81 。
  • 在排序引导(RG)协议下,SRCC 高达 0.84,显著优于未微调的 InternVL3.5-4B (SRCC ≈ 0.02) 和 QwenVL3-4B。

表格 2 Eval-Actions 基准上的性能对比 在专家评分(EG)、排序引导(RG)及思维链(CoT)三种协议下,AutoEval 均取得了 SOTA 性能。特别是在 RG 协议下,AutoEval-S 的评分相关性(SRCC)达到 0.84,来源预测准确率高达 99.6%,远超未微调的 InternVL 和 QwenVL 等基线模型。





图 4 细粒度动作质量评估的定性对比

3. 跨构型泛化能力

即使在未见过的 Franka 机器人数据上,AutoEval 依然保持了稳健的评估能力。AutoEval-S 在新形态机器人上仍能达到 0.75 的评分相关性(SRCC)和 90% 的来源预测准确率,展现了强大的跨实体泛化潜力 。

表格 3 AutoEval 在未见构型 Franka 机械臂数据上的泛化实验结果



4. 区分远程操作和策略执行视频









特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
歌手于文文演唱会突然晕倒,被救护车紧急送医!吴克群救场:“她少唱的,我来帮她唱”

歌手于文文演唱会突然晕倒,被救护车紧急送医!吴克群救场:“她少唱的,我来帮她唱”

黄河新闻网吕梁频道
2026-02-02 09:12:32
大S离世一周年!阿雅曝她离世前场景,小S发消息报丧内容曝光

大S离世一周年!阿雅曝她离世前场景,小S发消息报丧内容曝光

娱乐圈圈圆
2026-02-02 12:36:45
今晚6点复仇?U17国足再战乌兹别克斯坦,媒体曝出邝兆镭低迷原因

今晚6点复仇?U17国足再战乌兹别克斯坦,媒体曝出邝兆镭低迷原因

大秦壁虎白话体育
2026-02-02 09:45:31
飙至16℃!河南高温起飞后暴跌10℃!春节期间有雨雪吗?

飙至16℃!河南高温起飞后暴跌10℃!春节期间有雨雪吗?

大象新闻
2026-02-02 06:53:26
曝光了!火箭最新交易目标!你好,44分后卫!

曝光了!火箭最新交易目标!你好,44分后卫!

篮球实战宝典
2026-02-01 22:14:30
陈毅之子陈丹淮求学时遇同学攀比家世,被问及父亲情况,他回应:我父亲只是个处长

陈毅之子陈丹淮求学时遇同学攀比家世,被问及父亲情况,他回应:我父亲只是个处长

文史明鉴
2026-01-26 18:00:13
日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

涵豆说娱
2026-01-31 19:34:33
金价跳水!现货黄金一度失守4410美元

金价跳水!现货黄金一度失守4410美元

新京报
2026-02-02 15:21:44
爱泼斯坦的玩具岛:”球形口塞”玩具曝光,收藏大量特朗普主题照

爱泼斯坦的玩具岛:”球形口塞”玩具曝光,收藏大量特朗普主题照

遁走的两轮
2025-12-16 08:44:38
被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

叹为观止易
2026-01-21 10:21:06
深度 | 一边兵临城下,一边喊话谈判:特朗普到底想怎么搞伊朗?

深度 | 一边兵临城下,一边喊话谈判:特朗普到底想怎么搞伊朗?

上观新闻
2026-02-01 21:19:06
曼联戏剧性补时3-2绝杀!卡里克3连胜通过考验,再做一事前四无忧

曼联戏剧性补时3-2绝杀!卡里克3连胜通过考验,再做一事前四无忧

罗米的曼联博客
2026-02-02 07:29:12
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
央视春晚第三次联排!近十年最强阵容,网友:今年春晚总算有救了

央视春晚第三次联排!近十年最强阵容,网友:今年春晚总算有救了

杨仔述
2026-01-31 18:16:31
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
“后坐力”太大,闫学晶再传噩耗,这下她真该考虑如何留住儿媳了

“后坐力”太大,闫学晶再传噩耗,这下她真该考虑如何留住儿媳了

小熊侃史
2026-01-28 07:10:07
太骚了,阿什利-扬:我们都在讨论卡塞米罗的不看人传球助攻

太骚了,阿什利-扬:我们都在讨论卡塞米罗的不看人传球助攻

懂球帝
2026-02-02 14:55:18
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
22天内父母双亡!10岁女童徒步下山,用饭钱为84岁奶奶买蛋糕

22天内父母双亡!10岁女童徒步下山,用饭钱为84岁奶奶买蛋糕

六目先生
2026-01-31 07:20:03
史诗级转会!曝1亿镑“节拍器”空降曼联!两大“废柴”闪电离队

史诗级转会!曝1亿镑“节拍器”空降曼联!两大“废柴”闪电离队

头狼追球
2026-02-02 10:44:57
2026-02-02 17:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12237文章数 142562关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

媒体:美用一次军事打击摧毁伊朗政权可能性已大幅降低

头条要闻

媒体:美用一次军事打击摧毁伊朗政权可能性已大幅降低

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

商品期货暴跌 全球股市遭遇"黑色星期一"

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

艺术
亲子
房产
健康
军事航空

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

亲子要闻

“史上最严”婴配液态乳新规出炉!贴牌玩家或被直接清退

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

耳石症分类型,症状大不同

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版