网易首页 > 网易号 > 正文 申请入驻

让家电「在仿真中运转起来」,北大正式发布RealAppliance!

0
分享至



家用电器是家庭服务机器人最难啃的一类任务对象。与桌面物体操作相比,家电操作不仅涉及按钮、旋钮、门体等多种异构部件,还受到模式切换、状态约束和程序逻辑的共同支配。真正完成一次家电任务,机器人往往既要「看得见」,也要「读得懂」,还要「按说明书做对」。

因此,基于说明书的家电操作规划,正在成为具身智能走向真实家庭场景必须补上的关键能力。

但恰恰是这类能力,最难在真实环境中被系统评测。微波炉、烤箱、搅拌机等设备一旦发生误操作,轻则损坏设备,重则带来现实安全风险;与此同时,真实家电价格高、品类多、维护复杂,也很难支撑大规模、标准化和可重复的实验。

更关键的是,说明书驱动的操作规划评测,不只要求模型读懂文档,还要求测试对象在外形、部件功能和程序逻辑上尽可能贴近真实设备,而这正是现有仿真资源最缺失的一环。

针对这一瓶颈,高玉正、龙宇星在北京大学长聘副教授和上纬启元首席科学家董豪指导下,提出了RealAppliance 数据集与 RealAppliance-Bench 评测基准。此前,董豪团队已在 CVPR 2025 Highlight 工作 CheckManual 中首次提出基于说明书的家电操作研究方向;而在本工作中,团队进一步把评测对象从「手册理解」推进到「说明书、设备外形、交互功能与程序状态」共同构成的完整操作系统。

RealAppliance 收录 100 个精细建模的家电资产,覆盖 14 类常见电器,并在真实说明书、外观结构、交互机制和程序逻辑四个层面与真实产品系统对齐;基于此构建的 RealAppliance-Bench 则围绕手册检索、开环规划、部件定位、闭环调整和全过程推理五个任务,系统评估模型在基于说明书的家电操作规划中的关键能力。

实验表明,即便是当前主流多模态大模型和具身规划模型,在这一更接近真实世界的评测设定下仍面临显著挑战。



  • 论文地址:https://arxiv.org/abs/2512.00287
  • 项目主页:https://realappliance.github.io/
  • 数据集地址:https://github.com/gaoyz1235/RealAppliance



Figure 1: RealAppliance 数据集概览。该数据集包含 100 个高保真家电资产,覆盖 14 个类别,并为每个资产配套真实说明书。

RealAppliance 数据集覆盖 14 类常见家用电器,手册语言涵盖中文、俄语、法语、德语等多种语言。每个资产均配套真实说明书,并在外观尺寸、关键部件功能和程序状态转移上与真实家电保持一致,从而为基于说明书的操作规划评测提供可重复、可扩展的仿真实验对象。

与仅提供可动结构的传统资产集合不同,RealAppliance 更强调「说明书 - 资产 - 程序逻辑」的系统对应关系。正因如此,它不仅能够复现设备外形,还能够支持对操作顺序、状态约束和反馈修正过程的评测,这也是基于说明书的家电操作研究走向标准化评估的关键基础。



Figure 2: RealAppliance 与现有数据集的对比:传统数据集普遍缺乏手册对齐与程序逻辑,而 RealAppliance 实现了说明书、资产与交互逻辑的系统对齐。

RealAppliance 资产构建与方法框架

如图 3 所示,RealAppliance 的构建遵循「数据采集、资产建模、机制配置、程序设计」四个阶段,目标是在外观、结构、交互和状态逻辑四个层面同时逼近真实电器。



Figure 3: RealAppliance 资产构建流程:收集手册与照片、完成高保真建模、配置交互机制,并依据说明书设计程序逻辑。

1.收集说明书与真实照片

研究团队从多个国家和地区系统收集家用电器及其对应的用户手册和实物照片。为保证资产既适用于仿真建模,也适用于机器人操作研究,样本筛选遵循四项标准:

  • 可操作性:按钮、旋钮等部件尺寸适合机械臂操作;
  • 篇幅适中:手册长度符合当前多模态大模型的上下文处理能力;
  • 描述清晰:部件名称和操作步骤有明确说明;
  • 信息完整:包含准确的尺寸数据和高分辨率产品照片。

上述标准确保了资产来源真实、信息充分、结构清晰,也为后续部件命名、机制设计和任务标注提供了统一依据。

2.电器数字资产建模

电器数字资产建模的难点,不仅在于复刻真实外观,更在于如何在保持真实感的同时,将关键操作部件拆解为可计算、可交互、可控制的结构单元。

电器建模:基于手册、照片和实测尺寸,研究团队在 Autodesk 3ds Max 中对每个电器进行精细建模。所有功能部件均作为独立组件处理,并通过 TurboSmooth 增加多边形密度以提升视觉质量。随后,团队使用 Unfold3D 展开 UV 贴图,并在 Adobe Photoshop 中基于 UV 布局绘制彩色纹理,以较高精度还原表面颜色、图标、Logo 等关键细节。

资产设置:研究团队将组装完成的模型与纹理导入 NVIDIA Isaac Sim,生成 USD 格式数字资产。所有资产统一采用右手坐标系,并以几何中心为原点;部件命名严格遵循说明书术语,以便后续检索、标注与任务定义;同时通过材质参数调节,准确呈现玻璃、塑料、金属等不同表面效果。

关节设计:在 Isaac Sim 中,团队为不同部件配置与其交互方式相对应的关节参数。旋转关节用于旋钮、铰链门和翻盖等转动部件;棱柱关节用于机械按钮、滑块和推拉门等线性运动部件;固定关节则分配给触摸按钮、屏幕等不可动界面。

3.配置电器机制

为使仿真资产具备与真实电器一致的交互响应,该工作构建了一套模块化机制体系。

各项机制均被封装为独立类并遵循统一接口规范,可根据不同电器的工作方式进行灵活组合。

物理机制(5 种):

  • 内部弹簧:模拟压缩或拉伸弹簧的力,使部件自动复位或辅助运动(如烤面包机杠杆);
  • 磁吸:利用磁力实现部件间的吸附或紧密闭合(如洗衣机门);
  • 机械触发:通过因果逻辑实现部件间的联动(如微波炉开门按钮弹出门);
  • 旋钮倒计驱动:通过旋钮机械旋转实现倒计时功能(如空气炸锅定时旋钮);
  • 安全锁:锁定状态下阻止物理操作(如搅拌机机头锁)。

电子机制(5 种):

  • 屏幕显示:实时更新屏幕区域纹理,显示当前状态(如烤箱温度显示);
  • 触摸感应:绑定虚拟接触传感器,检测触摸操作并触发相应动作;
  • 照明:根据状态变化控制内部照明(如微波炉工作灯);
  • 指示灯:同步更新面板指示灯,传达工作状态(如洗衣机完成提示);
  • 旋转马达:驱动部件关节模拟电机运转(如微波炉转盘)。

这一机制体系使电器资产不再只是「可见」的三维模型,而成为具备可操作反馈与状态变化能力的仿真实体。

4.设计电器程序逻辑

基于上述机制,研究团队进一步为每个电器编写了与真实说明书一致的程序脚本。脚本首先定义电源、温度、时间、模式等核心状态变量及其取值范围,再为各功能部件绑定相应机制,最后依据说明书中的操作顺序、条件约束和状态转移关系设计整体程序逻辑。由此,资产在参数变化后能够触发屏幕显示、电机启停、照明变化等联动效果,从而较完整地复现真实电器的工作流程。

RealAppliance-Bench 评测基准

如图 4 所示,RealAppliance-Bench 围绕机器人完成一次完整电器操作所需的核心链路,设计了五个递进任务。

这些任务覆盖从文档理解到执行纠错的关键环节,用于系统评估模型在电器操作规划各阶段的能力:



Figure 4: RealAppliance-Bench 的五个任务:手册检索、开环规划、部件定位、闭环调整与全过程推理。

  • Task 1:手册页面检索

电器手册通常包含部件说明、操作步骤、安全须知等多类信息,其中部件说明与操作步骤对任务规划尤为关键。

本任务要求模型根据给定手册及目标页面类别(如「操作步骤」),从完整文档中准确检索出相关页面,以验证其文档理解与信息筛选能力。

  • Task 2:开环操作规划

给定任务指令(如「制作爆米花」)、电器手册和初始观测图像后,模型需要规划出一系列原子动作序列。该基准基于真实电器操作需求定义了 9 种电器操作动作(如按下、旋转、打开等)和 4 种物体操作动作(如拾取、放置等),要求模型从候选动作中选择正确类型并补全相应参数。

  • Task 3:电器部件定位

在开环规划阶段,模型可能只输出目标部件名称,但真实机器人执行仍需要该部件的精确空间位置。

因此,本任务要求模型结合手册内容与目标部件名称,在当前观测图像中预测对应边界框,以评估其跨模态部件对齐能力。

  • Task 4:闭环规划调整

真实执行过程中往往会出现门体被意外打开、旋钮被外部扰动等情况,模型需要依据实时视觉反馈及时修正后续动作。该基准预设了固定的扰动类型和位置,要求模型在给定历史执行记录、初始计划和实时观测后,预测下一个正确的原子动作。

  • Task 5:全过程推理

在全过程推理任务中,模型需依次完成手册检索、开环规划、部件定位,并在执行过程中应对外部干扰。

任一步骤失败(如部件定位 IoU < 0.5 或动作预测错误)都将导致整体任务判定失败,因此该任务能够直接反映模型的端到端鲁棒性。



Figure 5: RealAppliance-Bench 的统计信息

模型性能评估

基于 RealAppliance-Bench,该工作对多类主流模型进行了系统评测,包括专有多模态模型(GPT-5/GPT-5 Mini、Gemini 2.5 Pro/Flash)、开源多模态模型(Qwen3-VL 系列、GLM 系列)以及具身规划模型(Robobrain 2.0、ManualPlan、ApBot)。

结果显示,尽管不同模型在局部任务上各有优势,但面对真实说明书驱动、且与真实家电程序逻辑对齐的操作规划链路时,整体表现仍与可靠应用水平存在明显距离。



Figure 6: 模型在 RealAppliance-Bench 上的表现概览

手册页面检索:专有模型整体表现最优,开源模型次之,具身规划模型相对较弱。

这说明具身模型在当前训练范式下尚未形成稳定的文档理解能力,相关能力甚至可能在任务特化过程中被削弱。

开环任务规划:所有模型均未表现出令人满意的稳定性,常见错误包括动作类型误用、目标部件选择错误和关键步骤缺失。

这表明模型尚未真正掌握说明书驱动的操作逻辑,尤其缺乏对条件依赖与步骤顺序的深层理解。

部件定位:模型预测的边界框 IoU 普遍偏低,多数结果仅在 0 到 0.05 之间。

其根本难点在于,模型需要将手册中的示意图或符号化部件描述,与真实观测图像中的跨视角视觉线索进行对齐,这对空间理解与视觉指向能力都提出了更高要求。

闭环调整:模型普遍难以根据状态变化及时修正计划。

其中,参数预测错误(如旋转角度不准确)是仅次于动作类型错误的第二大失败来源,这说明模型既欠缺对细粒度视觉变化的稳定感知,也缺乏将感知结果转化为后续决策的能力。

全过程推理:几乎所有模型的端到端成功率均为 0。误差在多任务链路上的级联放大,凸显出当前系统在真实电器操作场景中仍然缺乏足够的鲁棒性与闭环执行能力。

详细评测数据请参见论文表 2。

总结与展望

总体来看,RealAppliance 首次在家用电器场景中实现了「真实说明书、高保真资产与操作逻辑」的系统对齐,并将基于说明书的家电操作规划评测推进到更接近真实世界的设定中。

基于该数据集构建的 RealAppliance-Bench,为研究者提供了一条从文档理解、动作规划到闭环修正的完整测试链路,也更清晰地揭示了当前模型在关键环节上的能力边界。

展望未来,RealAppliance 不仅可继续作为说明书驱动家电操作评测的标准化平台,也有潜力支持低层家电操作策略与高层家电操作模型的后续研究。随着这类高保真资产与评测体系不断完善,家庭服务机器人在复杂家电场景中的可靠部署将获得更加坚实的基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
收网已结束,特朗普空军一号抵华前,中方宣布:中美取得重大战果

收网已结束,特朗普空军一号抵华前,中方宣布:中美取得重大战果

影孖看世界
2026-05-12 16:12:43
为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

夜深爱杂谈
2026-04-27 22:11:39
“李亚鹏复婚”登上热搜,前妻海哈金喜回应

“李亚鹏复婚”登上热搜,前妻海哈金喜回应

黎兜兜
2026-05-13 15:08:32
曝东契奇要求湖人留下里夫斯!詹姆斯去留棘手:骑勇很可能招揽他

曝东契奇要求湖人留下里夫斯!詹姆斯去留棘手:骑勇很可能招揽他

罗说NBA
2026-05-12 21:43:19
离专业单反又近了一步!iOS 27将迎重磅更新:iPhone相机支持高度自定义设置

离专业单反又近了一步!iOS 27将迎重磅更新:iPhone相机支持高度自定义设置

快科技
2026-05-13 15:22:33
日军"小钢炮"秘密被我军发现后,在投降书上写下:勿将用于日本!

日军"小钢炮"秘密被我军发现后,在投降书上写下:勿将用于日本!

鉴史录
2026-05-12 17:56:38
重庆这一天,方媛精致土,袁咏仪拎25万包,一身朴素的周涛太吸睛

重庆这一天,方媛精致土,袁咏仪拎25万包,一身朴素的周涛太吸睛

趣文说娱
2026-05-12 21:10:58
希腊防长:确信此前装有爆炸装置的无人艇来自乌克兰

希腊防长:确信此前装有爆炸装置的无人艇来自乌克兰

环球网资讯
2026-05-13 15:47:54
突发特讯!外交部通告:强烈谴责巴方有关行径,引发全球广泛关注

突发特讯!外交部通告:强烈谴责巴方有关行径,引发全球广泛关注

独坐山巅前
2026-05-13 14:57:49
梁靖崑世乒赛回来父母接机,老婆孩子也在,老丈人之前也接机!

梁靖崑世乒赛回来父母接机,老婆孩子也在,老丈人之前也接机!

观察鉴娱
2026-05-13 10:46:13
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

磊子讲史
2025-07-02 13:45:23
英伟达扫货!鸿海全光CPO交换机“一机不剩” 出货预期同步上调

英伟达扫货!鸿海全光CPO交换机“一机不剩” 出货预期同步上调

财联社
2026-05-13 12:18:10
骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

蜉蝣说
2026-04-14 17:00:37
NBA突发噩耗!灰熊29岁前锋克拉克意外离世,屋内查出吸毒工具,生涯轨迹太唏嘘

NBA突发噩耗!灰熊29岁前锋克拉克意外离世,屋内查出吸毒工具,生涯轨迹太唏嘘

TVB的四小花
2026-05-13 17:30:36
名记:东契奇将在夏天再次开启瘦身计划,去年瘦了14公斤

名记:东契奇将在夏天再次开启瘦身计划,去年瘦了14公斤

懂球帝
2026-05-13 10:01:41
夺冠仅48小时!王励勤出手,为王楚钦出了口“恶气”,误会太深

夺冠仅48小时!王励勤出手,为王楚钦出了口“恶气”,误会太深

王觪晓
2026-05-13 16:17:24
大意外!706亿电池合同要撤回

大意外!706亿电池合同要撤回

新浪财经
2026-05-11 06:40:12
破案了!FIFA在官网取消中文模式?世界杯版权有反转,央视不让步

破案了!FIFA在官网取消中文模式?世界杯版权有反转,央视不让步

体育大学僧
2026-05-12 19:46:38
地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

阿器谈史
2026-05-11 15:43:13
2026-05-13 18:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12983文章数 142648关注度
往期回顾 全部

数码要闻

华硕天选TX75三模磁轴键盘今晚发售,到手价764.15元

头条要闻

4月汽车销量发布 前十名仅剩一款燃油车

头条要闻

4月汽车销量发布 前十名仅剩一款燃油车

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

盘中最高4041.99点!创业板创历史新高

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

亲子
艺术
数码
家居
房产

亲子要闻

利拉鲁肽使12岁以下肥胖儿童的BMI降低7.4%

艺术要闻

乾隆 “翻车” 名画刷屏!

数码要闻

前行者带来MUSE M80三模机械键盘:软革后缘,999元

家居要闻

内在自叙,无域有方

房产要闻

卷疯了!最低杀到7字头!手握30万,海口楼市横着走!

无障碍浏览 进入关怀版