机器人终于懂家务了！伯克利MomaGraph让机器人像人一样做家务|柜子|水壶|momagraph

机器人终于懂家务了！伯克利MomaGraph让机器人像人一样做家务

2026-01-19 17:30:35　来源: 机器之心Pro

河北举报

分享至

想象这样一个日常画面：你吩咐家用机器人「烧壶开水」，它却当场卡壳——水壶在哪？该接自来水还是过滤水？先插电还是先按开关？水开了又该如何判断？这些对人类而言像呼吸一样自然的家务，对过去的机器人却是大大的难题：要么忘了插电，要么找不到水壶，甚至会把柜门把手错当成开关一通乱按。

最近，加州伯克利和马里兰大学联手推出的MomaGraph 技术，就是要让机器人彻底告别这种「做家务的人工智障」时刻。这套算法不仅能让机器人真正理解「做事的先后顺序」，更在星动纪元星动 Q5 上成功完成了开柜子、开微波炉、开电视、关灯等真实家务。

论文名称：MOMAGRAPH: STATE-AWARE UNIFIED SCENE GRAPHS WITH VISION–LANGUAGE MODEL FOR EMBODIED TASK PLANNING
论文地址：https://arxiv.org/pdf/2512.16909

一、研究背景：

家用机器人做不好家务的「三大卡点」

家用移动操作机器人（比如帮你开窗户、热牛奶的机器人）需要同时「看路」（导航）和「动手」（操作），但过去的技术一直存在三个关键问题卡点，导致机器人「做不好家务」：

卡点 1：只知「在哪」，不知「咋用」

比如机器人要开窗户，传统技术可能只知道「窗户在书桌右边」（空间关系），但不知道「窗户把手能控制开关」（功能关系）——就像你知道手机在口袋里，却不知道按电源键能开机，自然用不了手机。

卡点 2：只认「图片」，不认「变化」

传统模型会把场景当成静态图片，比如机器人转了窗户把手后，模型还以为「窗户没动」，不知道状态已经从「锁着」变成「待打开」；就像你关了灯，却还以为灯是亮的，后续行动规划肯定会出错。

卡点 3：只想「步骤」，不想「前提」

过去的 AI（比如 GPT-5）会直接从图片里「想步骤」，比如让它「烧开水」，可能会说「装水 → 加热」，却漏掉「插电源」这个关键前提；而人做这件事时，一定会先确认「水壶能通电」，再规划步骤。

二、突破思路：

给机器人画一张「任务说明书」

研究团队的核心想法很简单：让机器人先画一张「任务导向的场景图」，再按图规划任务执行步骤，这就是「Graph-then-Plan」（先图后规划）思路，而这张图就是「MomaGraph」。

这张图到底特殊在哪？举个「开窗户」的例子：

统一空间 + 功能：图里会同时写「把手在窗户右侧」（空间）和「把手能控制窗户开关」（功能）；
动态更新状态：机器人转了把手后，图会从「把手未旋转 → 窗户锁着」更新为「把手已旋转 → 窗户待打开」；
紧扣任务需求：只保留和「开窗户」相关的信息（比如忽略窗户上的贴纸），不做无用功。

简单说，传统模型是「看到图片直接猜步骤」，而 MomaGraph 是「先搞清楚『有什么、怎么用、状态如何』，再一步步规划」——就像你做饭前会先看「冰箱有鸡蛋、锅能加热」，再想「打鸡蛋 → 开火 → 煎蛋」，而不是直接拿锅就烧。

三、研究方法：

从「数据」到「机器人」的全链条方案

要让 MomaGraph 落地，研究团队搭建了「数据集 - 模型 - 基准 - 真实机器人」的完整体系，其中星动纪元轮式人形机器人星动 Q5 成为了「把技术从实验室变实用」的核心硬件。

第一步：建「训练素材库」——MomaGraph-Scenes 数据集

要教机器人「懂家务」，得先给它看足够多的「家务样本」。团队收集了：

6278 张多视角家庭照片（比如从正面、侧面拍柜子、微波炉）；
1050 个「任务场景图」（比如「开微波炉」的图里，标注了「微波炉把手在正面」「把手能开门」）；
覆盖 350+ 家庭场景、93 种任务（开窗户、烧开水、开电视等）。

这些数据就像机器人的「家务课本」，让它知道不同场景下「物体该怎么用」。

第二步：训「聪明大脑」——MomaGraph-R1 模型

团队用 70 亿参数的视觉语言模型（VL 模型，基于 Qwen-2.5-VL-7B），通过强化学习训练出 MomaGraph-R1：

训练逻辑：模型生成场景图后，系统会按「三个标准」打分（奖励）：步骤对不对？有没有漏物体？空间/功能关系准不准？比如生成「水壶插电才能加热」就加分，漏了「插电」就扣分；
核心能力：能根据任务生成「精简有用」的场景图，比如「找遥控器开电视」时，会重点标注「遥控器在沙发上」「遥控器能控制电视」，忽略沙发颜色这类无关信息。

第三步：测「能力高低」——MomaGraph-Bench 基准

为了判断机器人「学没学会」，团队设计了 6 种能力测试（比如「步骤对不对」「能不能找对物体」「知不知道操作后会发生什么」），覆盖从简单（开柜子）到复杂（烧开水）4 个难度等级，确保测试结果真实可信。

关键一步：真实机器人落地——星动纪元 Q5 的硬件优势

再好的「大脑」也需要「手脚」来执行，研究团队选择星动纪元星动 Q5 轮式人形机器人做真实场景测试，这款硬件的优势直接帮 MomaGraph 发挥出最佳效果：

双臂 + 移动底座：能「走」到不同房间（比如从客厅到厨房），还能「动手」精准操作——开柜子时，双臂能稳定抓住把手并拉动；开微波炉时，能控制力度避免损坏；
多视角相机（Intel RealSense D455）：能拍物体的多个角度（比如从上方看水壶、从侧面看插座），帮模型获取准确的空间信息，避免「认错位置」（比如不会把柜子把手当成开关）；
适应家庭场景：硬件尺寸适合家庭环境（不会撞坏家具），双臂力度可控（不会捏碎杯子），完美匹配「家务任务」的需求。

比如测试「开柜子」时，星动 Q5 的相机先拍柜子和把手的多视角图，MomaGraph-R1 根据图片生成「把手在柜子正面、能开柜子」的场景图，再规划「靠近柜子 → 抓把手 → 拉柜子」的步骤，Q5 的双臂精准执行，成功率远超传统机器人。

四、研究结论：

机器人「做家务」的能力大幅提升

从基准测试到真实机器人实验，MomaGraph 交出了亮眼的成绩，核心结论可以总结为三点：

「先画图再规划」远胜「直接猜步骤」

在 MomaGraph-Bench 基准测试中，MomaGraph-R1 的准确率达到 71.6%，比目前最好的开源模型（比如 LLaVA-OneVision）高 11.4%；而像 GPT-5 这样的闭源大模型，常会漏关键步骤（比如烧开水没提「插电源」），MomaGraph-R1 却能 100% 覆盖前提步骤——因为它先画了「水壶需要插电」的场景图，再规划步骤。

「空间 + 功能」一起看，比单独看更准

实验对比了「只看空间关系」、「只看功能关系」、「两者都看」的效果：MomaGraph-R1（统一版）在复杂任务（Tier 4）的准确率是 68.1%，而「只看功能」的版本只有 59.0%，「只看空间」的版本更低只有 45.4%。这说明：机器人既要知道「东西在哪」，也要知道「东西怎么用」，才能做好家务等任务的执行。

在真实机器人上能落地，还能处理复杂任务

团队用星动纪元星动 Q5 测试了 4 个常见任务：开柜子、开微波炉、开电视、关灯，全部成功；更难的「长任务」（「开灯 → 找遥控器 → 开显示器」），10 次测试成功 7 次——而这个任务需要机器人「先解决照明（状态影响可见性），再找遥控器（空间定位），最后开显示器（功能控制）」，传统机器人根本做不到。

此外，MomaGraph-R1 在视觉对应任务上也表现突出，在 BLINK 基准和 MomaGraph-Bench 的对应任务中，比最好的开源模型分别高出 3.8% 和 4.8%。

五、行业意义：

家用服务机器人离「进家门」又近了一步

MomaGraph 的价值，本质是解决了「机器人理解家庭场景」的核心难题：它让机器人从「只会按固定程序做事」（比如只会重复「推窗户」），变成「能根据场景灵活调整」（比如先看有没有把手，再决定转还是推）。

而星动纪元星动 Q5 这类执行硬件的参与，更证明了这项技术不仅仅适用于实验室——仿人双臂、移动底座、精准相机的组合，让 MomaGraph 的「聪明大脑」有了可靠的「手脚」。未来，随着技术优化，我们可能会看到：机器人能帮老人烧开水、整理柜子，甚至帮上班族准备早餐——家用服务机器人从「概念」走向「实用」，终于有了清晰的技术路径。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.