想让机器人像人一样擦桌、递工具、清理垃圾,光靠预先编程根本走不远,模仿学习才是王道。但是,高质量的遥操作数据一直是个瓶颈——眼下大多数移动操作平台,手是手、脚是脚,操控分离、协同困难,面对“把杯子放回托盘再推到桌角”这种多步骤长任务,直接就卡壳了。
江南大学机械工程学院宋智功教授团队带来了全新解法:RoboMatch。这套统一移动操作遥操作平台,一个人就能通过VR头显、主从机械臂加上脚踏板,同时控制机器人的双臂和移动底盘,真正实现了“眼手脚一体”的沉浸式操控。更狠的是,他们还搭了一套自动匹配网络架构,让机器人面对长时程任务时,能像人一样先想清楚再动手,任务成功率直接拉高约40%。这成果已被机器人学顶会ICRA 2026接收,第一作者是2024级硕士刘涵裕。
![]()
传统遥操为什么难用?一是移动底盘和机械臂各控各的,根本没法做精细的全身协调动作;二是操作员看到的视角单一,手眼不一致,采出来的数据质量很差。RoboMatch从硬件到算法都进行了彻底重构:7自由度从臂ViperX-300、差分驱动底盘、末端IMU和主臂WidowX-250,组合成高拟人化操控系统。加上多视角视觉反馈和运动映射,操作员就像钻进了机器人身体里,做什么动作都自然直观。
光有好硬件还不够,数据怎么处理才是关键。团队设计了一个空间-频域视觉融合模块FE-EMA,用离散小波变换把视觉特征拆成多尺度信息,再和末端IMU采集的四元数姿态、关节角度等本体感知数据融合,让机器人对“手在哪里”“怎么使劲”有了更精细的感知。这样一来,在物体插拔、桌面清洁这类操作中,成功率直接提升了20%-30%。
长时程任务更考验推理能力。RoboMatch的策略是“分而治之”——先用视觉-语言模型GLM-4.1V进行链式思考推理,把“清理垃圾”拆解成“走到垃圾桶、打开盖子、抓取垃圾、放入、关闭盖子”等逻辑子任务序列,然后每个子任务自动匹配一个预训练的轻量化策略网络来执行。这种动态匹配机制,既避免了单个大模型误差累积,又让整个流程能灵活应对变化。在递工具、多物品归位等任务上,成功率比基线方法高出约40%。
为了验证效果,团队在MuJoCo仿真和真实机器人上都做了系统测试:在3000-4000步的长程任务中,AMN架构稳得住;模拟和真实精细操作任务里,PVE-DP表现抢眼;数据采集效率这边,RoboMatch比传统的分离式平台提升了超过20%。操作精度、任务成功率、长时程推理稳定性,全都拉到了新高度。
这份研究2026年1月31日被IEEE机器人与自动化协会主办的ICRA 2026正式接收,论文标题《RoboMatch: A Unified Mobile-Manipulation Teleoperation Platform with Auto-Matching Network Architecture for Long-Horizon Tasks》。ICRA是机器人领域规模最大、影响力最强的旗舰会议,能在这里亮相,足以说明这项突破的分量。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.