网易首页 > 网易号 > 正文 申请入驻

机器人学洗碗学了3年,MIT这次把考场换了

0
分享至


2024年,全球具身智能(Embodied AI,即能在真实环境中感知并行动的AI系统)融资额突破47亿美元。但一个尴尬的事实是:多数机器人进了厨房,连杯子洗没洗干净都判断不了。

MIT、艾伦人工智能研究所(AI2)和华盛顿大学的研究团队最近放出一组数据:在现有主流评测中,78%的"成功"任务其实不需要真正理解视觉信息——机器人靠死记硬背环境布局就能蒙混过关。这相当于让考生提前知道考题,然后夸他"学习能力强"。

老评测的漏洞:机器人靠"作弊"拿高分

传统具身智能基准测试(Benchmark)的设计逻辑,是把感知、导航、物理控制打包成一道大题。AI2-THOR、Habitat、Matterport3D这些主流平台,测的是机器人从客厅走到厨房、打开冰箱、取出牛奶的完整流程。

问题出在哪?任务路径太固定了。研究者发现,只要环境布局不变,机器人可以预编一整套动作脚本,闭着眼睛执行。它根本不需要"看"——冰箱门朝哪开、牛奶盒在几号货架,训练时早就记死了。

更麻烦的是反馈机制。多数测试给机器人的信息太丰富了:精确坐标、物体边界框、甚至"最优动作建议"。这不像教小孩洗碗,倒像给GPS导航仪配了个遥控手柄。

「我们想要的不是导航专家,而是能根据眼前情况调整计划的系统。」论文通讯作者、MIT CSAIL的Yoon Kim说。他的团队追踪了2021-2023年顶会论文中的评测数据,发现标注为"视觉推理"的任务里,61%的模型得分波动与环境随机性无关——换句话说,换张图它们根本注意不到。

一个典型场景:机器人接到指令"洗杯子"。训练环境里杯子永远在台面上,它学会了"找杯子→开水龙头→冲水"的固定流程。但测试时杯子已经在水槽里,或者水槽被碗碟占满,机器人继续执行预编脚本,结果要么重复洗同一个杯子,要么把碗碟冲得满地都是。

这种失败被传统评测归类为"执行误差",而非"规划错误"。但Kim团队认为,这正是核心能力缺失:机器人没有建立"我看到什么→我需要怎么改"的反馈闭环。

AsgardBench的设计:把"视力表"换成"动态视力测试"

新基准的名字AsgardBench取自北欧神话,但设计哲学很接地气——像考驾照的科目三,不是背路线,而是看应变能力。

底层仍用AI2-THOR的3D仿真环境,但做了三处关键改造。第一,机器人开局就被传送到目标物体旁边,导航和视角选择直接出局。第二,动作集被压缩到5个:查找(find)、拾取(pickup)、放置(put)、清洁(clean)、开关(toggle_on/off)。第三,也是最关键的:每一步只执行计划中的第一个动作,然后强制重新规划。

这相当于把"写一篇作文"改成"写一句,给老师看一句,再写下一句"。机器人没法一次性编完整个剧本,必须根据执行后的新图像调整下一步。

反馈信号被刻意压缩到极简:动作成功或失败,没有原因说明,没有替代建议。机器人要自己从图像里找线索——杯子是脏是干净?水槽有没有空间?上次开的灯这次还亮着吗?


论文里有个对比案例。指令是"把脏杯子放进洗碗机"。场景A:杯子在台面,干净;场景B:杯子在水槽,脏但堆在碗碟下面;场景C:杯子在台面,脏,但洗碗机已满。三个场景需要完全不同的动作序列,但传统评测里机器人可能用同一套脚本"碰巧"完成其中一两个。

在AsgardBench里,这种碰巧被消灭。因为每一步都要重新提案,机器人必须在当前图像里确认杯子位置、状态、容器可用性,然后生成下一步。计划与感知的绑定被强制化,没有空子可钻。

首批测试结果:大模型的"幻觉"进了物理世界

团队测试了6类模型,包括纯视觉模型、大语言模型(LLM,Large Language Model)、以及两者结合的视觉-语言模型(VLM,Vision-Language Model)。结果呈现出有趣的断层。

纯视觉模型(如CLIP-based规划器)在物体识别上表现稳定,但缺乏任务推理能力。给它"洗杯子"的指令,它能找到杯子,却理解不了"洗"需要先到水槽、再开水龙头、再确认干净。得分卡在23%-31%之间,瓶颈明显。

大语言模型(GPT-4、Claude-3等)反过来:任务分解很流畅,但容易" hallucination(幻觉)"——编造不存在的物体位置。在纯文本模式下,GPT-4假设"杯子通常在台面",生成"去台面找杯子"的计划,但图像里杯子明明在水槽。这种错误在传统评测中被导航能力掩盖,在AsgardBench里直接暴露。

视觉-语言模型被寄予厚望,但表现分化严重。GPT-4V(带视觉能力的GPT-4)在简单场景达到67%成功率,复杂场景骤降至41%。Claude-3 Opus类似,简单场景61%,复杂场景38%。问题集中在两类:一是"视觉锚定失败"——模型描述了图像内容,但没把描述和动作计划挂钩;二是"历史遗忘"——前几步的失败信号没被纳入当前决策。

一个细节很能说明问题。当机器人连续两次"拾取"失败(比如目标物体被遮挡),GPT-4V有34%的概率在第三次尝试同一动作,而不是切换策略(如先"查找"确认位置)。这种固执在人类看来很荒谬,但源于训练数据中的动作频率偏差——"拾取"在成功轨迹中出现最多,模型学会了优先尝试。

表现最好的是专门微调过的模型。团队用AsgardBench的训练集微调了一个7B参数的VLM,复杂场景成功率提升到54%。但论文作者之一、华盛顿大学的Ludwig Schmidt提醒:「这个数字仍然意味着近一半的任务失败。考虑到这是仿真环境,真实世界的噪声会再砍一刀。」

技术细节:怎么防止机器人"刷题"

AsgardBench的防作弊机制值得细说。传统评测的漏洞之一是"可枚举性"——任务空间小到可以用暴力搜索覆盖。新基准通过三招扩容。

第一,物体状态组合爆炸。每个任务涉及3-5个物体,每个物体有位置(6-8个可能点)、状态(干净/脏/装有液体)、容器关联(在哪个柜子/水槽/洗碗机)三个维度。粗略估算,单个任务的有效场景数超过10^4,暴力记忆不现实。

第二,动态干扰项。环境会在执行过程中引入变化:其他物体被移动、灯光开关状态改变、容器被意外占用。这些变化不预设规律,机器人必须实时响应。

第三,动作结果的随机性。"清洁"动作有15%概率失败(模拟水龙头故障),"放置"有10%概率因碰撞检测失败。机器人不能假设动作必然成功,必须在失败后重新评估。


评测指标也被重新设计。除了任务完成率,AsgardBench追踪"计划一致性"——机器人连续多步的计划是否逻辑自洽,以及"感知利用率"——计划变更是否与图像变化相关。一个模型可能靠运气完成任务,但这两项指标会暴露其是否真正在"看"。

数据显示,现有模型的感知利用率平均仅0.37(满分1.0)。这意味着超过60%的计划变更与视觉输入无关,要么在随机尝试,要么在重复固定模式。

行业反应:有人叫好,有人喊难

论文在arXiv发布后,具身智能社区的分歧很快显现。

支持方认为AsgardBench戳破了泡沫。斯坦福大学李飞飞团队的成员在社交媒体评论:「终于有个评测能区分'会导航的脚本'和'真懂规划的智能体'。」谷歌DeepMind的研究员转发了论文,称这是"迈向可靠家庭机器人的必要过滤网"。

质疑声同样尖锐。某头部机器人公司的技术负责人(要求匿名)表示:「极简反馈是学术理想,但真实机器人需要更多信号。我们的机械臂有力矩传感器、触觉反馈、甚至声音识别,故意剥夺这些信息是人为制造困难。」

对此,Yoon Kim回应:「我们不是反对多模态,而是要证明视觉本身足以支撑规划。如果连图像都利用不好,加更多传感器只是掩盖问题。」

商业层面的影响更微妙。AsgardBench的发布恰逢多家公司宣布"家庭机器人量产计划"——Figure AI的Figure 02、特斯拉的Optimus、1X Technologies的NEO。这些产品的演示视频多展示固定场景的流畅操作,与AsgardBench的随机化场景形成对照。

「评测严格了,PR视频就不好拍了。」一位投资人半开玩笑地说。他的基金在2024年投了两家具身智能公司,现在要求被投方提交AsgardBench的测试报告作为尽调材料。

下一步:从仿真到真实,还有几道坎

研究团队已经公开了AsgardBench的代码和数据集,并计划每季度更新场景库。但仿真到真实的迁移(Sim-to-Real)仍是悬而未决的问题。

AI2-THOR的物理引擎基于Unity,物体交互的力学参数与现实有偏差。比如"放置"动作的碰撞检测偏宽松,真实机器人可能需要更精确的姿态调整。团队正在与波士顿动力、Agility Robotics合作,将AsgardBench的测试协议移植到实体平台。

另一个开放问题是学习范式。当前最佳表现依赖监督微调,需要大量标注数据。但AsgardBench的设计初衷是测试"少样本适应"——机器人能否在陌生场景快速调整。强化学习(RL,Reinforcement Learning)和在线学习(Online Learning)的方案还在探索中。

论文最后列出了一组"尚未解决"的场景:多机器人协作、人类介入的动态交互、长周期任务(如"准备一顿晚餐"涉及数十个子任务)。这些被有意排除在当前版本外,因为连单机器人、单任务、短周期的基准都尚未攻克。

「我们给自己挖了个坑,」Ludwig Schmidt在附录里写道,「但之前的评测坑更大,只是被数据填平了。」

AsgardBench的GitHub仓库在发布后72小时内收获1200星标。一条高赞issue问:「如果我的模型得分超过80%,能去你家洗碗吗?」维护者回复:「建议先从仿真器里的虚拟杯子开始。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《蜜语纪》大结局:魏思源为500万,送鲁贞贞入狱,许蜜语赢麻了

《蜜语纪》大结局:魏思源为500万,送鲁贞贞入狱,许蜜语赢麻了

楼兰娱姐
2026-04-30 12:32:39
全球首创!字节跳动首个AI药物曝光,背后37人团队亮相,前信达总裁任顾问!

全球首创!字节跳动首个AI药物曝光,背后37人团队亮相,前信达总裁任顾问!

智药局
2026-04-28 19:01:39
迪马利亚:穆里尼奥在更衣室连C罗都敢喷,他是天才也是“疯子”

迪马利亚:穆里尼奥在更衣室连C罗都敢喷,他是天才也是“疯子”

夏侯看英超
2026-04-29 23:12:46
“老俞绝不亏待自己” 东方甄选主播集体离职后,俞敏洪获价值5000万港元奖励,粉丝心寒掀退费潮

“老俞绝不亏待自己” 东方甄选主播集体离职后,俞敏洪获价值5000万港元奖励,粉丝心寒掀退费潮

新浪财经
2026-04-29 17:07:23
赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

DS北风
2026-04-29 15:00:15
孙艺珍晒儿子全身照,小甜豆穿搭像童模,3岁用筷子比大人还稳

孙艺珍晒儿子全身照,小甜豆穿搭像童模,3岁用筷子比大人还稳

赏心悦目的我
2026-04-29 14:28:53
世锦赛4强落位:吴宜泽vs艾伦,希金斯vs墨菲,以下2人有望进决赛

世锦赛4强落位:吴宜泽vs艾伦,希金斯vs墨菲,以下2人有望进决赛

小火箭爱体育
2026-04-30 07:05:49
最烦是自发免费做“躺平”内容的人

最烦是自发免费做“躺平”内容的人

不主流讲话
2026-04-28 23:10:32
实在没法搞了!美菲军演提前结束,两艘中国815A围着演习转

实在没法搞了!美菲军演提前结束,两艘中国815A围着演习转

创造精彩剧情
2026-04-30 13:06:56
男闺蜜回国当晚妻子彻夜不归,我决心放手,她却红着眼拦住了我

男闺蜜回国当晚妻子彻夜不归,我决心放手,她却红着眼拦住了我

荷兰豆爱健康
2026-04-30 15:21:56
车越造越大,我被卡在停车位出不来了......

车越造越大,我被卡在停车位出不来了......

楼市前线
2026-04-27 21:26:22
你的身边有没有让你三观尽毁的事?看完网友分享简直大开眼界了!

你的身边有没有让你三观尽毁的事?看完网友分享简直大开眼界了!

夜深爱杂谈
2026-04-30 07:20:32
湖南某医院职工举报院长儿子“吃空饷”涉百万奖金,医院纪委查实“重复拿钱”2万元并退款,否认“吃空饷”,举报人要求提级调查

湖南某医院职工举报院长儿子“吃空饷”涉百万奖金,医院纪委查实“重复拿钱”2万元并退款,否认“吃空饷”,举报人要求提级调查

大风新闻
2026-04-29 20:46:09
特斯拉财报崩了,北京车展疯了

特斯拉财报崩了,北京车展疯了

字节漫游指南
2026-04-27 16:55:33
随着中国新星吴宜泽13-8晋级,斯诺克世锦赛4强已经诞生3席

随着中国新星吴宜泽13-8晋级,斯诺克世锦赛4强已经诞生3席

侧身凌空斩
2026-04-30 04:24:21
俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

桂系007
2026-04-29 05:18:10
五一期间,深圳男篮将在北京打热身赛

五一期间,深圳男篮将在北京打热身赛

刺猬篮球
2026-04-30 16:15:51
CPU突然跟GPU一样重要了,英特尔咸鱼翻身股价创新高

CPU突然跟GPU一样重要了,英特尔咸鱼翻身股价创新高

知危
2026-04-29 18:29:27
伊朗足协官方:代表团有签证,但因加拿大警察侮辱行为选择回国

伊朗足协官方:代表团有签证,但因加拿大警察侮辱行为选择回国

懂球帝
2026-04-30 05:27:09
高校丨“大儒”杨念群被举报与十数名女子发生不正当关系,自称“学术布拉德皮特”(简明版)

高校丨“大儒”杨念群被举报与十数名女子发生不正当关系,自称“学术布拉德皮特”(简明版)

忘忧杂话店
2026-04-29 15:25:20
2026-04-30 17:11:00
我是一个粉刷匠2
我是一个粉刷匠2
有态度网友ytd
1985文章数 28关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

中国船员滞留霍尔木兹60天:奖发到位 大部分愿继续干

头条要闻

中国船员滞留霍尔木兹60天:奖发到位 大部分愿继续干

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

医美偷税手法曝光 借免税优惠来避税被封堵

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

房产
游戏
家居
健康
公开课

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

《AC黑旗RE》重磅情报公开!全UI自定义 沉浸拉满

家居要闻

灵动实用 生活艺术场

干细胞治烧烫伤能用了么?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版