网易首页 > 网易号 > 正文 申请入驻

机器人终于懂家务了!伯克利MomaGraph让机器人像人一样做家务

0
分享至



想象这样一个日常画面:你吩咐家用机器人「烧壶开水」,它却当场卡壳——水壶在哪?该接自来水还是过滤水?先插电还是先按开关?水开了又该如何判断?这些对人类而言像呼吸一样自然的家务,对过去的机器人却是大大的难题:要么忘了插电,要么找不到水壶,甚至会把柜门把手错当成开关一通乱按。

最近,加州伯克利和马里兰大学联手推出的MomaGraph 技术,就是要让机器人彻底告别这种「做家务的人工智障」时刻。这套算法不仅能让机器人真正理解「做事的先后顺序」,更在星动纪元星动 Q5 上成功完成了开柜子、开微波炉、开电视、关灯等真实家务。



  • 论文名称:MOMAGRAPH: STATE-AWARE UNIFIED SCENE GRAPHS WITH VISION–LANGUAGE MODEL FOR EMBODIED TASK PLANNING
  • 论文地址:https://arxiv.org/pdf/2512.16909

一、研究背景:

家用机器人做不好家务的「三大卡点」

家用移动操作机器人(比如帮你开窗户、热牛奶的机器人)需要同时「看路」(导航)和「动手」(操作),但过去的技术一直存在三个关键问题卡点,导致机器人「做不好家务」:

卡点 1:只知「在哪」,不知「咋用」

比如机器人要开窗户,传统技术可能只知道「窗户在书桌右边」(空间关系),但不知道「窗户把手能控制开关」(功能关系)——就像你知道手机在口袋里,却不知道按电源键能开机,自然用不了手机。

卡点 2:只认「图片」,不认「变化」

传统模型会把场景当成静态图片,比如机器人转了窗户把手后,模型还以为「窗户没动」,不知道状态已经从「锁着」变成「待打开」;就像你关了灯,却还以为灯是亮的,后续行动规划肯定会出错。

卡点 3:只想「步骤」,不想「前提」

过去的 AI(比如 GPT-5)会直接从图片里「想步骤」,比如让它「烧开水」,可能会说「装水 → 加热」,却漏掉「插电源」这个关键前提;而人做这件事时,一定会先确认「水壶能通电」,再规划步骤。



二、突破思路:

给机器人画一张「任务说明书」

研究团队的核心想法很简单:让机器人先画一张「任务导向的场景图」,再按图规划任务执行步骤,这就是「Graph-then-Plan」(先图后规划)思路,而这张图就是「MomaGraph」。

这张图到底特殊在哪?举个「开窗户」的例子:

  • 统一空间 + 功能:图里会同时写「把手在窗户右侧」(空间)和「把手能控制窗户开关」(功能);
  • 动态更新状态:机器人转了把手后,图会从「把手未旋转 → 窗户锁着」更新为「把手已旋转 → 窗户待打开」;
  • 紧扣任务需求:只保留和「开窗户」相关的信息(比如忽略窗户上的贴纸),不做无用功。

简单说,传统模型是「看到图片直接猜步骤」,而 MomaGraph 是「先搞清楚『有什么、怎么用、状态如何』,再一步步规划」——就像你做饭前会先看「冰箱有鸡蛋、锅能加热」,再想「打鸡蛋 → 开火 → 煎蛋」,而不是直接拿锅就烧。

三、研究方法:

从「数据」到「机器人」的全链条方案

要让 MomaGraph 落地,研究团队搭建了「数据集 - 模型 - 基准 - 真实机器人」的完整体系,其中星动纪元轮式人形机器人星动 Q5 成为了「把技术从实验室变实用」的核心硬件。

第一步:建「训练素材库」——MomaGraph-Scenes 数据集

要教机器人「懂家务」,得先给它看足够多的「家务样本」。团队收集了:

  • 6278 张多视角家庭照片(比如从正面、侧面拍柜子、微波炉);
  • 1050 个「任务场景图」(比如「开微波炉」的图里,标注了「微波炉把手在正面」「把手能开门」);
  • 覆盖 350+ 家庭场景、93 种任务(开窗户、烧开水、开电视等)。

这些数据就像机器人的「家务课本」,让它知道不同场景下「物体该怎么用」。



第二步:训「聪明大脑」——MomaGraph-R1 模型

团队用 70 亿参数的视觉语言模型(VL 模型,基于 Qwen-2.5-VL-7B),通过强化学习训练出 MomaGraph-R1:

  • 训练逻辑:模型生成场景图后,系统会按「三个标准」打分(奖励):步骤对不对?有没有漏物体?空间/功能关系准不准?比如生成「水壶插电才能加热」就加分,漏了「插电」就扣分;
  • 核心能力:能根据任务生成「精简有用」的场景图,比如「找遥控器开电视」时,会重点标注「遥控器在沙发上」「遥控器能控制电视」,忽略沙发颜色这类无关信息。



第三步:测「能力高低」——MomaGraph-Bench 基准

为了判断机器人「学没学会」,团队设计了 6 种能力测试(比如「步骤对不对」「能不能找对物体」「知不知道操作后会发生什么」),覆盖从简单(开柜子)到复杂(烧开水)4 个难度等级,确保测试结果真实可信。



关键一步:真实机器人落地——星动纪元 Q5 的硬件优势

再好的「大脑」也需要「手脚」来执行,研究团队选择星动纪元星动 Q5 轮式人形机器人做真实场景测试,这款硬件的优势直接帮 MomaGraph 发挥出最佳效果:



  • 双臂 + 移动底座:能「走」到不同房间(比如从客厅到厨房),还能「动手」精准操作——开柜子时,双臂能稳定抓住把手并拉动;开微波炉时,能控制力度避免损坏;
  • 多视角相机(Intel RealSense D455):能拍物体的多个角度(比如从上方看水壶、从侧面看插座),帮模型获取准确的空间信息,避免「认错位置」(比如不会把柜子把手当成开关);
  • 适应家庭场景:硬件尺寸适合家庭环境(不会撞坏家具),双臂力度可控(不会捏碎杯子),完美匹配「家务任务」的需求。

比如测试「开柜子」时,星动 Q5 的相机先拍柜子和把手的多视角图,MomaGraph-R1 根据图片生成「把手在柜子正面、能开柜子」的场景图,再规划「靠近柜子 → 抓把手 → 拉柜子」的步骤,Q5 的双臂精准执行,成功率远超传统机器人。

四、研究结论:

机器人「做家务」的能力大幅提升

从基准测试到真实机器人实验,MomaGraph 交出了亮眼的成绩,核心结论可以总结为三点:

「先画图再规划」远胜「直接猜步骤」

在 MomaGraph-Bench 基准测试中,MomaGraph-R1 的准确率达到 71.6%,比目前最好的开源模型(比如 LLaVA-OneVision)高 11.4%;而像 GPT-5 这样的闭源大模型,常会漏关键步骤(比如烧开水没提「插电源」),MomaGraph-R1 却能 100% 覆盖前提步骤——因为它先画了「水壶需要插电」的场景图,再规划步骤。



「空间 + 功能」一起看,比单独看更准

实验对比了「只看空间关系」、「只看功能关系」、「两者都看」的效果:MomaGraph-R1(统一版)在复杂任务(Tier 4)的准确率是 68.1%,而「只看功能」的版本只有 59.0%,「只看空间」的版本更低只有 45.4%。这说明:机器人既要知道「东西在哪」,也要知道「东西怎么用」,才能做好家务等任务的执行。



在真实机器人上能落地,还能处理复杂任务

团队用星动纪元星动 Q5 测试了 4 个常见任务:开柜子、开微波炉、开电视、关灯,全部成功;更难的「长任务」(「开灯 → 找遥控器 → 开显示器」),10 次测试成功 7 次——而这个任务需要机器人「先解决照明(状态影响可见性),再找遥控器(空间定位),最后开显示器(功能控制)」,传统机器人根本做不到。



此外,MomaGraph-R1 在视觉对应任务上也表现突出,在 BLINK 基准和 MomaGraph-Bench 的对应任务中,比最好的开源模型分别高出 3.8% 和 4.8%。



五、行业意义:

家用服务机器人离「进家门」又近了一步

MomaGraph 的价值,本质是解决了「机器人理解家庭场景」的核心难题:它让机器人从「只会按固定程序做事」(比如只会重复「推窗户」),变成「能根据场景灵活调整」(比如先看有没有把手,再决定转还是推)。

而星动纪元星动 Q5 这类执行硬件的参与,更证明了这项技术不仅仅适用于实验室——仿人双臂、移动底座、精准相机的组合,让 MomaGraph 的「聪明大脑」有了可靠的「手脚」。未来,随着技术优化,我们可能会看到:机器人能帮老人烧开水、整理柜子,甚至帮上班族准备早餐——家用服务机器人从「概念」走向「实用」,终于有了清晰的技术路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
车主注意了!6月起高速无杆通行试点,车主终于能一脚油门通过?

车主注意了!6月起高速无杆通行试点,车主终于能一脚油门通过?

老特有话说
2026-03-06 16:12:20
被上海大叔的“卫衣叠穿”惊艳了,回头率高还很时尚,特帅气减龄

被上海大叔的“卫衣叠穿”惊艳了,回头率高还很时尚,特帅气减龄

春日在捕月
2026-03-07 14:19:40
“港独”影帝黄秋生:从千万豪宅到台湾诈骗,如今塑料袋打包家当

“港独”影帝黄秋生:从千万豪宅到台湾诈骗,如今塑料袋打包家当

呀古铜
2026-02-26 10:30:33
“大学生连切鸡都不会”,家长晒烤鸡半身照,直言:无法正常交流

“大学生连切鸡都不会”,家长晒烤鸡半身照,直言:无法正常交流

妍妍教育日记
2026-02-28 18:27:54
西贝的情况已经挺危险了

西贝的情况已经挺危险了

蔚然未来消费
2026-03-07 08:32:52
谋新篇开新局|开局之年,这么干!

谋新篇开新局|开局之年,这么干!

新华社
2026-03-06 15:33:19
人到中年才明白:女人一生最危险的抉择,不是穷,而是“错付”

人到中年才明白:女人一生最危险的抉择,不是穷,而是“错付”

木言观
2026-03-07 22:07:57
CBA全明星欢乐多!广东四将重聚,徐杰怒吼张镇麟 胡明轩模仿杜锋

CBA全明星欢乐多!广东四将重聚,徐杰怒吼张镇麟 胡明轩模仿杜锋

篮球看比赛
2026-03-07 15:57:23
A股:下周一稳了!央行放出“王炸”,这两个板块将直接起飞!

A股:下周一稳了!央行放出“王炸”,这两个板块将直接起飞!

夜深爱杂谈
2026-03-07 18:59:55
油价最新调整通知

油价最新调整通知

三亚发布
2026-03-07 17:39:47
伊朗地震!

伊朗地震!

琅琊新闻网
2026-03-07 15:03:43
龙虎斗!津门虎VS铜梁龙首发:吴兴涵、谢蒂内先发,向余望、李镇全中超首秀

龙虎斗!津门虎VS铜梁龙首发:吴兴涵、谢蒂内先发,向余望、李镇全中超首秀

足球报
2026-03-07 14:34:40
国家敲定2026年养老金上涨,涨多少?一个没想到,还有一个好消息

国家敲定2026年养老金上涨,涨多少?一个没想到,还有一个好消息

大鱼简科
2026-03-07 17:00:52
战争盘点:中国四大能源通道,三个落入敌手剩下运河岌岌可危

战争盘点:中国四大能源通道,三个落入敌手剩下运河岌岌可危

道术意义
2026-03-05 08:35:10
中国95%的房子,其实已经没有任何投资价值

中国95%的房子,其实已经没有任何投资价值

流苏晚晴
2026-03-01 16:56:00
拜仁距离德甲单赛季进球纪录仅差10球,而联赛还剩9轮

拜仁距离德甲单赛季进球纪录仅差10球,而联赛还剩9轮

懂球帝
2026-03-07 15:25:10
摄像探头拍到了!虎跳峡坠江准新郎遗体被金沙江吸力死死吸在水底

摄像探头拍到了!虎跳峡坠江准新郎遗体被金沙江吸力死死吸在水底

社会日日鲜
2026-03-07 11:24:39
瞒不住了,白宫发言人说漏嘴,以色列情报曝光,特朗普连陷困局

瞒不住了,白宫发言人说漏嘴,以色列情报曝光,特朗普连陷困局

书纪文谭
2026-03-06 18:16:14
盖伊+拉唐太吓人了!英博两大新援不错 球迷:两队门将是战犯级别

盖伊+拉唐太吓人了!英博两大新援不错 球迷:两队门将是战犯级别

刀锋体育
2026-03-07 20:14:50
今明两天追剧别错过!央视八套、东方卫视各上一部王炸剧

今明两天追剧别错过!央视八套、东方卫视各上一部王炸剧

喜欢历史的阿繁
2026-03-07 19:11:09
2026-03-07 22:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12431文章数 142578关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

日本求美国给个准话 美方避而不谈

头条要闻

日本求美国给个准话 美方避而不谈

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

健康
数码
手机
教育
游戏

转头就晕的耳石症,能开车上班吗?

数码要闻

解锁“她力量”专属存储方案,为每一份热爱精彩定格

手机要闻

内存价格疯涨致安卓阵营集体调价!华为和苹果成了最大赢家

教育要闻

老师一半时间做杂务?别让教书成副业!代表建议增设班级助理

《杀戮尖塔2》破44万在线!辉煌神作再创新高

无障碍浏览 进入关怀版