来源:市场资讯
(来源:CAAI认知系统与信息处理专委会)
第七期DeepTouch学术交流会由周昊天博士后主持,龙宇星博士作为分享嘉宾,围绕机器人家电长程操作相关研究展开分享。
![]()
分享内容包括:
1、CheckMenu评测基准(CVPR2025 Highlight):针对2024年前后家电操作研究缺乏评测基准、可靠数字资产和规划模型的问题,构建了首个家电操作评测数据集与基准。该数据集包含369个家电、2000+部件、1400+操作任务,覆盖11类常见厨余/家用家电,包含3个评测赛道:①厂商提供CAD模型+说明书的规划任务;②CAD模型未与观测对齐,需先做6D位姿估计再规划;③仅提供说明书、无CAD模型的最贴近真实场景的规划任务。目前基线模型准确率仅20%左右,提升空间大,相关资产、说明书、基线模型均已开源。
![]()
2、RealAppliance高保真家电数字资产(CVPR2026 Highlight提名):针对PartNet Mobility等现有资产尺寸、纹理、物理机制与真实家电差距大,且无配套说明书的问题,构建了首套与真实家电在功能、视觉层面完全对齐的USD格式家电数字资产,共100个各类家电,包含5种物理机制(安全锁、旋钮倒计时、磁吸、内部弹簧、机械触发)和5种电子机制(触控按钮、旋转马达、显示屏、内部光照、Logo指示),可在Isaac Sim仿真器中真实运行,同时配套了侧重操作能力的评测Benchmark,覆盖说明书页面检索、开环任务规划、闭环规划调整等5个子任务。
![]()
3、AppliancePlan端到端家电操作规划模型(投稿MM,获全正分):针对家电操作规划数据缺失的问题,设计了低成本数据合成管线:通过VLM筛选高质量家电说明书、自动标注页面类型、人工标注部件边界框、结合模板与LLM生成海量规划数据,最终基于2000+份说明书生成9万+部件边界框数据、5万+操作任务数据、3万+闭环操作步骤数据。训练的端到端模型支持部件定位、开环操作规划、闭环调整三类核心任务,性能显著优于GPT-4、千问等通用MLLM及现有规划模型,已在微波炉、空气炸锅、榨汁杯等家电上完成真机实验,可应对人为干扰的状态恢复。
![]()
之后大家在线上进行了热烈的交流:参会者就家电操作评测与空间理解任务结合、仿真数据与真实数据的应用场景、2D说明书与3D CAD模型的跨模态对齐、视触觉在家电操作中的作用、模型的尺寸泛化能力等话题提问,龙宇星逐一进行解答,最后主持人周昊天宣布分享会结束。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.