网易首页 > 网易号 > 正文 申请入驻

机器人连碗都洗不好?AI2新基准让47%模型现了原形

0
分享至


去年冬天,一位斯坦福研究员在实验室里盯着屏幕,看着自家训练的机器人把脏杯子放进洗碗机——然后反复开关门三次,就是不肯按开始键。问题不是机械故障,而是机器人"看不见":它没意识到洗碗机里已经塞满了盘子,再塞杯子会卡住。

这种尴尬每天都在全球数百个具身智能实验室上演。AI能识别物体、规划路径、抓取物品,却在最简单的"看情况调整"上栽跟头。AI2(艾伦人工智能研究所)最新发布的AsgardBench基准测试,把这个问题量化了:当前主流视觉语言模型在动态调整任务计划上的成功率,最高只有47%

为什么老测试测不出真本事

具身智能的评测一直有个"作弊漏洞"。传统基准把感知、导航、操控打包测试,环境又太听话——杯子永远放在固定位置,水槽永远空着,机器人背下地图就能通关。

这就好比考驾照只考直线加速,不考变道反应。研究者分不清模型是真懂环境,还是靠死记硬背过关。AI2团队想拆穿这层窗户纸:如果机器人发现杯子已经干净了,它会不会换个任务?如果水槽被占用了,它能不能先挪东西?

AsgardBench的设计像一场"突然袭击"。测试基于AI2-THOR仿真环境,但做了关键手脚:机器人开局就站在目标物体旁边,不用找路;动作精简到find(查找)、pickup(拾取)、put(放置)、clean(清洁)、toggle_on/off(开关)五种。导航和操控的复杂度被剥离,只剩一件事——根据看到的东西,实时改计划

每轮交互,机器人要提交完整任务计划,但环境只执行第一步。然后给它新画面和简单反馈:成,或败。它得重新看、重新想、重新报下一步。循环往复,直到任务完成或踩到步数上限。

杯子里的咖啡,计划外的变量


测试场景全是家务琐事,但埋了雷。同一道指令"洗杯子",实际状态可能有四种变体:杯子干净、杯子脏、杯子有咖啡、水槽被占。机器人得在第一步"find"之后,从画面里读出这些差异,再决定是跳过清洁、先倒咖啡、还是清理水槽。

AI2团队举了个典型失败案例。某模型接到"把脏杯子放进洗碗机"的指令,计划写得漂亮:find→pickup→put→toggle_on。它找到杯子,拾取成功,放进洗碗机——然后卡住。因为洗碗机里早有盘子,杯子塞不进去。模型没在执行"put"前重新观察洗碗机内部,而是按原计划硬怼。

更隐蔽的失败是"幻觉式坚持"。有的模型发现杯子已经干净,却坚持执行clean动作,因为训练数据里"杯子+指令=清洁"的关联太强。这就像服务员明明看见客人杯子里还有水,非要续杯,因为"看到杯子就倒"写进了肌肉记忆。

测试还设置了"动作历史"陷阱。机器人能记住自己做过什么,但这份记忆可能变成包袱——它可能基于过时的观察坚持错误计划,也可能被连续失败搞懵,在"再试一次"和"换条路"之间摇摆。

47%背后的模型众生相

AI2测试了多个视觉语言模型,结果形成鲜明对比。表现最好的模型在完整任务链上达到47%成功率,最差的不到15%。差距主要来自两个能力:一是从单帧图像提取状态细节(杯子脏不脏、水槽满不满),二是把观察转化为计划修正。

小模型往往在第一步就崩。它们能识别"这是个杯子",但读不出"杯壁有咖啡渍"或"洗碗机门开着"。大模型的问题更微妙:它们能描述画面,却把这种描述当终点,而不是决策输入。一个模型在内部独白里写"我看到水槽里有盘子",下一步计划依然是"把杯子放进水槽"——观察到了,但没用起来。

团队还发现一个反直觉现象:给模型更多"思考时间"(允许更长的推理链)不一定更好。某些模型在精简模式下反应更快、错误更少,因为复杂推理容易陷入过度解读,从画面里"看出"不存在的问题。


反馈机制的设计也暴露短板。环境只告诉模型"动作成功/失败",不解释为什么。模型得自己猜:是没对准?被挡住了?还是物体状态不对?这种"最小反馈"设定贴近真实机器人部署——家用机器人不会配备故障诊断专家跟在后面喊话。

从仿真到厨房:还有几道坎

AsgardBench目前还是纯仿真测试,但AI2团队的设计选择明显指向真实场景。剥离导航和操控,是因为这些有成熟解决方案;聚焦"看-想-改"循环,是因为这是当前最痛的短板。

一位参与项目的研究员在论文附录里写道:「我们见过太多演示视频,机器人流畅完成整套家务,但仔细看会发现环境是预置的,物体位置是标记好的,失败镜头被剪掉了。」AsgardBench想做那个"不剪辑"的考官。

不过仿真与现实的鸿沟仍在。AI2-THOR的图像渲染再逼真,也没有真实相机的噪点、运动模糊和光照突变。模型在仿真里练出的"看",迁移到真实机器人眼中有多少失真,还需要实体验证。

另一个未解问题是"失败恢复"的深度。当前测试里,计划修正只涉及下一步动作选择。但如果机器人连续三步都错,它是能层层回溯找根源,还是只会原地打转?这关系到更复杂的长期任务——比如做一顿饭,中间某个环节出错后,能否重新规划而非全盘放弃。

AI2把AsgardBench开源了,包括测试环境、任务集和评估脚本。团队说希望这能成为"计划适应性"的标准考场,就像ImageNet之于图像识别。但他们也承认,47%的最高分说明这题还太难,可能需要新的训练范式,而不是更大规模的旧方法。

那个在洗碗机前开关门三次的斯坦福机器人,后来怎么样了?项目组没公开后续。但AsgardBench的 leaderboard 上,新模型的分数每周都在跳动——有人正在教它,下一次开门前先探头看一眼里面。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
550名间谍落网,海军司令遭斩首:伊朗的筛子比我们想的要深

550名间谍落网,海军司令遭斩首:伊朗的筛子比我们想的要深

映象观察
2026-03-27 10:01:23
小鹏汽车宣布更名

小鹏汽车宣布更名

大象新闻
2026-03-27 19:45:02
罗技:“我一降价,你还不是像狗一样跑过来”

罗技:“我一降价,你还不是像狗一样跑过来”

电脑吧评测室
2026-03-26 22:05:58
库拉索怎么进世界杯的?国足并不菜!张玉宁8.5分最高 韦世豪第二

库拉索怎么进世界杯的?国足并不菜!张玉宁8.5分最高 韦世豪第二

刀锋体育
2026-03-27 16:37:11
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
与用户共创价值!新款凡尔赛C5 X 11.37万起,给出了答案

与用户共创价值!新款凡尔赛C5 X 11.37万起,给出了答案

买车大师
2026-03-27 16:04:13
法国发布重磅提醒?美军若强行插手台海,法国军事分析做出推演

法国发布重磅提醒?美军若强行插手台海,法国军事分析做出推演

安安说
2026-03-27 12:18:51
中美俄石油储量对比:俄800亿桶,美国超700亿桶,中国有多少?

中美俄石油储量对比:俄800亿桶,美国超700亿桶,中国有多少?

福建平子
2026-03-27 11:27:57
“黄金大买家”,开始抛售黄金

“黄金大买家”,开始抛售黄金

第一财经资讯
2026-03-27 13:03:09
重磅!证监会调整股市安排,理性应对本周变局

重磅!证监会调整股市安排,理性应对本周变局

慧眼看世界哈哈
2026-03-27 13:28:50
张雪峰女儿张姩菡发文缅怀爸爸,引网友泪目

张雪峰女儿张姩菡发文缅怀爸爸,引网友泪目

环球网资讯
2026-03-27 10:41:04
被美国关了两个多月,马杜罗再次上庭的时候,简直就像变了一个人

被美国关了两个多月,马杜罗再次上庭的时候,简直就像变了一个人

牛锅巴小钒
2026-03-27 17:21:04
张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

离离言几许
2026-03-27 14:42:23
随着喀麦隆0-1,FIFA系列赛澳洲站最新积分榜出炉:中国男足第一

随着喀麦隆0-1,FIFA系列赛澳洲站最新积分榜出炉:中国男足第一

侧身凌空斩
2026-03-27 19:03:34
全线跳水!霍尔木兹,大消息!

全线跳水!霍尔木兹,大消息!

中国基金报
2026-03-27 19:12:20
德国外交部长:美国和伊朗在间接接触,而且有直接会晤的考虑,可能很快在巴基斯坦发生

德国外交部长:美国和伊朗在间接接触,而且有直接会晤的考虑,可能很快在巴基斯坦发生

潇湘晨报
2026-03-27 20:14:03
打虎!郭永航被查

打虎!郭永航被查

新京报政事儿
2026-03-27 18:33:38
周口一油菜花田打卡地被推土机铲平,当地:系拆迁征收用地,居民不能私自种植

周口一油菜花田打卡地被推土机铲平,当地:系拆迁征收用地,居民不能私自种植

极目新闻
2026-03-27 14:54:50
张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

乒乓网国球汇
2026-03-27 00:03:40
重磅!张雪峰家人紧急发声

重磅!张雪峰家人紧急发声

品牌头版
2026-03-27 19:01:17
2026-03-27 21:36:50
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
303文章数 2关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

美为应对中国首次部署"无人舰队" 不料在实战区掉链子

头条要闻

美为应对中国首次部署"无人舰队" 不料在实战区掉链子

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

旅游
本地
时尚
公开课
军事航空

旅游要闻

樱花树下“爆”掉压力!这场高能游园会解锁“爱己”新姿势

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

女友BELLA+封面 | 张哲旭&弭金:寻找与契合

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:已组织超100万人为地面战斗做准备

无障碍浏览 进入关怀版