![]()
想象这样一个日常画面:你吩咐家用机器人「烧壶开水」,它却当场卡壳——水壶在哪?该接自来水还是过滤水?先插电还是先按开关?水开了又该如何判断?这些对人类而言像呼吸一样自然的家务,对过去的机器人却是大大的难题:要么忘了插电,要么找不到水壶,甚至会把柜门把手错当成开关一通乱按。
最近,加州伯克利和马里兰大学联手推出的MomaGraph 技术,就是要让机器人彻底告别这种「做家务的人工智障」时刻。这套算法不仅能让机器人真正理解「做事的先后顺序」,更在星动纪元星动 Q5 上成功完成了开柜子、开微波炉、开电视、关灯等真实家务。
![]()
- 论文名称:MOMAGRAPH: STATE-AWARE UNIFIED SCENE GRAPHS WITH VISION–LANGUAGE MODEL FOR EMBODIED TASK PLANNING
- 论文地址:https://arxiv.org/pdf/2512.16909
一、研究背景:
家用机器人做不好家务的「三大卡点」
家用移动操作机器人(比如帮你开窗户、热牛奶的机器人)需要同时「看路」(导航)和「动手」(操作),但过去的技术一直存在三个关键问题卡点,导致机器人「做不好家务」:
卡点 1:只知「在哪」,不知「咋用」
比如机器人要开窗户,传统技术可能只知道「窗户在书桌右边」(空间关系),但不知道「窗户把手能控制开关」(功能关系)——就像你知道手机在口袋里,却不知道按电源键能开机,自然用不了手机。
卡点 2:只认「图片」,不认「变化」
传统模型会把场景当成静态图片,比如机器人转了窗户把手后,模型还以为「窗户没动」,不知道状态已经从「锁着」变成「待打开」;就像你关了灯,却还以为灯是亮的,后续行动规划肯定会出错。
卡点 3:只想「步骤」,不想「前提」
过去的 AI(比如 GPT-5)会直接从图片里「想步骤」,比如让它「烧开水」,可能会说「装水 → 加热」,却漏掉「插电源」这个关键前提;而人做这件事时,一定会先确认「水壶能通电」,再规划步骤。
![]()
二、突破思路:
给机器人画一张「任务说明书」
研究团队的核心想法很简单:让机器人先画一张「任务导向的场景图」,再按图规划任务执行步骤,这就是「Graph-then-Plan」(先图后规划)思路,而这张图就是「MomaGraph」。
这张图到底特殊在哪?举个「开窗户」的例子:
- 统一空间 + 功能:图里会同时写「把手在窗户右侧」(空间)和「把手能控制窗户开关」(功能);
- 动态更新状态:机器人转了把手后,图会从「把手未旋转 → 窗户锁着」更新为「把手已旋转 → 窗户待打开」;
- 紧扣任务需求:只保留和「开窗户」相关的信息(比如忽略窗户上的贴纸),不做无用功。
简单说,传统模型是「看到图片直接猜步骤」,而 MomaGraph 是「先搞清楚『有什么、怎么用、状态如何』,再一步步规划」——就像你做饭前会先看「冰箱有鸡蛋、锅能加热」,再想「打鸡蛋 → 开火 → 煎蛋」,而不是直接拿锅就烧。
三、研究方法:
从「数据」到「机器人」的全链条方案
要让 MomaGraph 落地,研究团队搭建了「数据集 - 模型 - 基准 - 真实机器人」的完整体系,其中星动纪元轮式人形机器人星动 Q5 成为了「把技术从实验室变实用」的核心硬件。
第一步:建「训练素材库」——MomaGraph-Scenes 数据集
要教机器人「懂家务」,得先给它看足够多的「家务样本」。团队收集了:
- 6278 张多视角家庭照片(比如从正面、侧面拍柜子、微波炉);
- 1050 个「任务场景图」(比如「开微波炉」的图里,标注了「微波炉把手在正面」「把手能开门」);
- 覆盖 350+ 家庭场景、93 种任务(开窗户、烧开水、开电视等)。
这些数据就像机器人的「家务课本」,让它知道不同场景下「物体该怎么用」。
![]()
第二步:训「聪明大脑」——MomaGraph-R1 模型
团队用 70 亿参数的视觉语言模型(VL 模型,基于 Qwen-2.5-VL-7B),通过强化学习训练出 MomaGraph-R1:
- 训练逻辑:模型生成场景图后,系统会按「三个标准」打分(奖励):步骤对不对?有没有漏物体?空间/功能关系准不准?比如生成「水壶插电才能加热」就加分,漏了「插电」就扣分;
- 核心能力:能根据任务生成「精简有用」的场景图,比如「找遥控器开电视」时,会重点标注「遥控器在沙发上」「遥控器能控制电视」,忽略沙发颜色这类无关信息。
![]()
第三步:测「能力高低」——MomaGraph-Bench 基准
为了判断机器人「学没学会」,团队设计了 6 种能力测试(比如「步骤对不对」「能不能找对物体」「知不知道操作后会发生什么」),覆盖从简单(开柜子)到复杂(烧开水)4 个难度等级,确保测试结果真实可信。
![]()
关键一步:真实机器人落地——星动纪元 Q5 的硬件优势
再好的「大脑」也需要「手脚」来执行,研究团队选择星动纪元星动 Q5 轮式人形机器人做真实场景测试,这款硬件的优势直接帮 MomaGraph 发挥出最佳效果:
![]()
- 双臂 + 移动底座:能「走」到不同房间(比如从客厅到厨房),还能「动手」精准操作——开柜子时,双臂能稳定抓住把手并拉动;开微波炉时,能控制力度避免损坏;
- 多视角相机(Intel RealSense D455):能拍物体的多个角度(比如从上方看水壶、从侧面看插座),帮模型获取准确的空间信息,避免「认错位置」(比如不会把柜子把手当成开关);
- 适应家庭场景:硬件尺寸适合家庭环境(不会撞坏家具),双臂力度可控(不会捏碎杯子),完美匹配「家务任务」的需求。
比如测试「开柜子」时,星动 Q5 的相机先拍柜子和把手的多视角图,MomaGraph-R1 根据图片生成「把手在柜子正面、能开柜子」的场景图,再规划「靠近柜子 → 抓把手 → 拉柜子」的步骤,Q5 的双臂精准执行,成功率远超传统机器人。
四、研究结论:
机器人「做家务」的能力大幅提升
从基准测试到真实机器人实验,MomaGraph 交出了亮眼的成绩,核心结论可以总结为三点:
「先画图再规划」远胜「直接猜步骤」
在 MomaGraph-Bench 基准测试中,MomaGraph-R1 的准确率达到 71.6%,比目前最好的开源模型(比如 LLaVA-OneVision)高 11.4%;而像 GPT-5 这样的闭源大模型,常会漏关键步骤(比如烧开水没提「插电源」),MomaGraph-R1 却能 100% 覆盖前提步骤——因为它先画了「水壶需要插电」的场景图,再规划步骤。
![]()
「空间 + 功能」一起看,比单独看更准
实验对比了「只看空间关系」、「只看功能关系」、「两者都看」的效果:MomaGraph-R1(统一版)在复杂任务(Tier 4)的准确率是 68.1%,而「只看功能」的版本只有 59.0%,「只看空间」的版本更低只有 45.4%。这说明:机器人既要知道「东西在哪」,也要知道「东西怎么用」,才能做好家务等任务的执行。
![]()
在真实机器人上能落地,还能处理复杂任务
团队用星动纪元星动 Q5 测试了 4 个常见任务:开柜子、开微波炉、开电视、关灯,全部成功;更难的「长任务」(「开灯 → 找遥控器 → 开显示器」),10 次测试成功 7 次——而这个任务需要机器人「先解决照明(状态影响可见性),再找遥控器(空间定位),最后开显示器(功能控制)」,传统机器人根本做不到。
![]()
此外,MomaGraph-R1 在视觉对应任务上也表现突出,在 BLINK 基准和 MomaGraph-Bench 的对应任务中,比最好的开源模型分别高出 3.8% 和 4.8%。
![]()
五、行业意义:
家用服务机器人离「进家门」又近了一步
MomaGraph 的价值,本质是解决了「机器人理解家庭场景」的核心难题:它让机器人从「只会按固定程序做事」(比如只会重复「推窗户」),变成「能根据场景灵活调整」(比如先看有没有把手,再决定转还是推)。
而星动纪元星动 Q5 这类执行硬件的参与,更证明了这项技术不仅仅适用于实验室——仿人双臂、移动底座、精准相机的组合,让 MomaGraph 的「聪明大脑」有了可靠的「手脚」。未来,随着技术优化,我们可能会看到:机器人能帮老人烧开水、整理柜子,甚至帮上班族准备早餐——家用服务机器人从「概念」走向「实用」,终于有了清晰的技术路径。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.