机器人学洗碗学了3年，MIT这次把考场换了|视觉|mit|thor|真实世界

机器人学洗碗学了3年，MIT这次把考场换了

分享至

2024年，全球具身智能（Embodied AI，即能在真实环境中感知并行动的AI系统）融资额突破47亿美元。但一个尴尬的事实是：多数机器人进了厨房，连杯子洗没洗干净都判断不了。

MIT、艾伦人工智能研究所（AI2）和华盛顿大学的研究团队最近放出一组数据：在现有主流评测中，78%的"成功"任务其实不需要真正理解视觉信息——机器人靠死记硬背环境布局就能蒙混过关。这相当于让考生提前知道考题，然后夸他"学习能力强"。

老评测的漏洞：机器人靠"作弊"拿高分

传统具身智能基准测试（Benchmark）的设计逻辑，是把感知、导航、物理控制打包成一道大题。AI2-THOR、Habitat、Matterport3D这些主流平台，测的是机器人从客厅走到厨房、打开冰箱、取出牛奶的完整流程。

问题出在哪？任务路径太固定了。研究者发现，只要环境布局不变，机器人可以预编一整套动作脚本，闭着眼睛执行。它根本不需要"看"——冰箱门朝哪开、牛奶盒在几号货架，训练时早就记死了。

更麻烦的是反馈机制。多数测试给机器人的信息太丰富了：精确坐标、物体边界框、甚至"最优动作建议"。这不像教小孩洗碗，倒像给GPS导航仪配了个遥控手柄。

「我们想要的不是导航专家，而是能根据眼前情况调整计划的系统。」论文通讯作者、MIT CSAIL的Yoon Kim说。他的团队追踪了2021-2023年顶会论文中的评测数据，发现标注为"视觉推理"的任务里，61%的模型得分波动与环境随机性无关——换句话说，换张图它们根本注意不到。

一个典型场景：机器人接到指令"洗杯子"。训练环境里杯子永远在台面上，它学会了"找杯子→开水龙头→冲水"的固定流程。但测试时杯子已经在水槽里，或者水槽被碗碟占满，机器人继续执行预编脚本，结果要么重复洗同一个杯子，要么把碗碟冲得满地都是。

这种失败被传统评测归类为"执行误差"，而非"规划错误"。但Kim团队认为，这正是核心能力缺失：机器人没有建立"我看到什么→我需要怎么改"的反馈闭环。

AsgardBench的设计：把"视力表"换成"动态视力测试"

新基准的名字AsgardBench取自北欧神话，但设计哲学很接地气——像考驾照的科目三，不是背路线，而是看应变能力。

底层仍用AI2-THOR的3D仿真环境，但做了三处关键改造。第一，机器人开局就被传送到目标物体旁边，导航和视角选择直接出局。第二，动作集被压缩到5个：查找（find）、拾取（pickup）、放置（put）、清洁（clean）、开关（toggle_on/off）。第三，也是最关键的：每一步只执行计划中的第一个动作，然后强制重新规划。

这相当于把"写一篇作文"改成"写一句，给老师看一句，再写下一句"。机器人没法一次性编完整个剧本，必须根据执行后的新图像调整下一步。

反馈信号被刻意压缩到极简：动作成功或失败，没有原因说明，没有替代建议。机器人要自己从图像里找线索——杯子是脏是干净？水槽有没有空间？上次开的灯这次还亮着吗？

论文里有个对比案例。指令是"把脏杯子放进洗碗机"。场景A：杯子在台面，干净；场景B：杯子在水槽，脏但堆在碗碟下面；场景C：杯子在台面，脏，但洗碗机已满。三个场景需要完全不同的动作序列，但传统评测里机器人可能用同一套脚本"碰巧"完成其中一两个。

在AsgardBench里，这种碰巧被消灭。因为每一步都要重新提案，机器人必须在当前图像里确认杯子位置、状态、容器可用性，然后生成下一步。计划与感知的绑定被强制化，没有空子可钻。

首批测试结果：大模型的"幻觉"进了物理世界

团队测试了6类模型，包括纯视觉模型、大语言模型（LLM，Large Language Model）、以及两者结合的视觉-语言模型（VLM，Vision-Language Model）。结果呈现出有趣的断层。

纯视觉模型（如CLIP-based规划器）在物体识别上表现稳定，但缺乏任务推理能力。给它"洗杯子"的指令，它能找到杯子，却理解不了"洗"需要先到水槽、再开水龙头、再确认干净。得分卡在23%-31%之间，瓶颈明显。

大语言模型（GPT-4、Claude-3等）反过来：任务分解很流畅，但容易" hallucination（幻觉）"——编造不存在的物体位置。在纯文本模式下，GPT-4假设"杯子通常在台面"，生成"去台面找杯子"的计划，但图像里杯子明明在水槽。这种错误在传统评测中被导航能力掩盖，在AsgardBench里直接暴露。

视觉-语言模型被寄予厚望，但表现分化严重。GPT-4V（带视觉能力的GPT-4）在简单场景达到67%成功率，复杂场景骤降至41%。Claude-3 Opus类似，简单场景61%，复杂场景38%。问题集中在两类：一是"视觉锚定失败"——模型描述了图像内容，但没把描述和动作计划挂钩；二是"历史遗忘"——前几步的失败信号没被纳入当前决策。

一个细节很能说明问题。当机器人连续两次"拾取"失败（比如目标物体被遮挡），GPT-4V有34%的概率在第三次尝试同一动作，而不是切换策略（如先"查找"确认位置）。这种固执在人类看来很荒谬，但源于训练数据中的动作频率偏差——"拾取"在成功轨迹中出现最多，模型学会了优先尝试。

表现最好的是专门微调过的模型。团队用AsgardBench的训练集微调了一个7B参数的VLM，复杂场景成功率提升到54%。但论文作者之一、华盛顿大学的Ludwig Schmidt提醒：「这个数字仍然意味着近一半的任务失败。考虑到这是仿真环境，真实世界的噪声会再砍一刀。」

技术细节：怎么防止机器人"刷题"

AsgardBench的防作弊机制值得细说。传统评测的漏洞之一是"可枚举性"——任务空间小到可以用暴力搜索覆盖。新基准通过三招扩容。

第一，物体状态组合爆炸。每个任务涉及3-5个物体，每个物体有位置（6-8个可能点）、状态（干净/脏/装有液体）、容器关联（在哪个柜子/水槽/洗碗机）三个维度。粗略估算，单个任务的有效场景数超过10^4，暴力记忆不现实。

第二，动态干扰项。环境会在执行过程中引入变化：其他物体被移动、灯光开关状态改变、容器被意外占用。这些变化不预设规律，机器人必须实时响应。

第三，动作结果的随机性。"清洁"动作有15%概率失败（模拟水龙头故障），"放置"有10%概率因碰撞检测失败。机器人不能假设动作必然成功，必须在失败后重新评估。

评测指标也被重新设计。除了任务完成率，AsgardBench追踪"计划一致性"——机器人连续多步的计划是否逻辑自洽，以及"感知利用率"——计划变更是否与图像变化相关。一个模型可能靠运气完成任务，但这两项指标会暴露其是否真正在"看"。

数据显示，现有模型的感知利用率平均仅0.37（满分1.0）。这意味着超过60%的计划变更与视觉输入无关，要么在随机尝试，要么在重复固定模式。

行业反应：有人叫好，有人喊难

论文在arXiv发布后，具身智能社区的分歧很快显现。

支持方认为AsgardBench戳破了泡沫。斯坦福大学李飞飞团队的成员在社交媒体评论：「终于有个评测能区分'会导航的脚本'和'真懂规划的智能体'。」谷歌DeepMind的研究员转发了论文，称这是"迈向可靠家庭机器人的必要过滤网"。

质疑声同样尖锐。某头部机器人公司的技术负责人（要求匿名）表示：「极简反馈是学术理想，但真实机器人需要更多信号。我们的机械臂有力矩传感器、触觉反馈、甚至声音识别，故意剥夺这些信息是人为制造困难。」

对此，Yoon Kim回应：「我们不是反对多模态，而是要证明视觉本身足以支撑规划。如果连图像都利用不好，加更多传感器只是掩盖问题。」

商业层面的影响更微妙。AsgardBench的发布恰逢多家公司宣布"家庭机器人量产计划"——Figure AI的Figure 02、特斯拉的Optimus、1X Technologies的NEO。这些产品的演示视频多展示固定场景的流畅操作，与AsgardBench的随机化场景形成对照。

「评测严格了，PR视频就不好拍了。」一位投资人半开玩笑地说。他的基金在2024年投了两家具身智能公司，现在要求被投方提交AsgardBench的测试报告作为尽调材料。

下一步：从仿真到真实，还有几道坎

研究团队已经公开了AsgardBench的代码和数据集，并计划每季度更新场景库。但仿真到真实的迁移（Sim-to-Real）仍是悬而未决的问题。

AI2-THOR的物理引擎基于Unity，物体交互的力学参数与现实有偏差。比如"放置"动作的碰撞检测偏宽松，真实机器人可能需要更精确的姿态调整。团队正在与波士顿动力、Agility Robotics合作，将AsgardBench的测试协议移植到实体平台。

另一个开放问题是学习范式。当前最佳表现依赖监督微调，需要大量标注数据。但AsgardBench的设计初衷是测试"少样本适应"——机器人能否在陌生场景快速调整。强化学习（RL，Reinforcement Learning）和在线学习（Online Learning）的方案还在探索中。

论文最后列出了一组"尚未解决"的场景：多机器人协作、人类介入的动态交互、长周期任务（如"准备一顿晚餐"涉及数十个子任务）。这些被有意排除在当前版本外，因为连单机器人、单任务、短周期的基准都尚未攻克。

「我们给自己挖了个坑，」Ludwig Schmidt在附录里写道，「但之前的评测坑更大，只是被数据填平了。」

AsgardBench的GitHub仓库在发布后72小时内收获1200星标。一条高赞issue问：「如果我的模型得分超过80%，能去你家洗碗吗？」维护者回复：「建议先从仿真器里的虚拟杯子开始。」

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.