网易首页 > 网易号 > 正文 申请入驻

IROS 2021 | 基于无监督学习环境模型的机器人运动控制

0
分享至

AI科技评论报道

导读:本文是机器人领域顶级会议 IROS 2021入选论文《基于无监督学习环境模型的机器人运动控制(DMotion: Robotic Visuomotor Control with Unsupervised Forward Model Learned from Videos)》的解读。该论文由北京大学前沿计算研究中心董豪课题组主导完成。

项目主页:https://hyperplane-lab.github.io/dmotion/

论文地址:https://arxiv.org/abs/2103.04301

1

研究背景

在机器人控制、基于模型的强化学习领域,学习环境的模型是重要的问题。现有方法学习环境模型通常需要大量从环境中采集的带标签的数据,如智能体动作、物体位置、运动的真实标注,在许多现实场景的应用中有局限性。

而认知科学的研究认为,人类婴儿能够仅通过视觉观察,建立物理世界的模型、进行预测。 无监督地建立物理模型能够帮助人类与环境交互、操控工具来完成各种任务。 如图1的例子所示:玩家 B 通过观察玩家 A 操作,学习如何玩一个游戏。为学会玩游戏,玩家 B 需要建立游戏的模型,知道键盘上的操作(动作标注)与画面中主角动作的对应关系、采取某个动作会如何影响游戏的状态。现实中,玩家 B 大部分时间都会只关注游戏画面,而不去观察玩家 A 操作键盘的每一个动作。对游戏模型的理解,例如哪个是主角、主角和游戏环境是怎么互动的,大多是通过观看游戏画面完成的;观察键盘的操作仅仅是为了知道如何去控制主角的每个动作。

图1. 学习玩游戏的例子

受此启发,我们研究如何利用缺少动作标注的视频数据学会环境模型,来实现基于模型的机器人运动控制。 如下图所示,我们提出的方法(DMotion)首先从无监督的视频中解耦智能体的运动、学习物体之间的交互规律;最后通过少量的带有动作标注的数据,DMotion 建立动作标注到智能体运动的映射,学会环境模型。

图2. DMotion学习“机器人推物体”环境的过程

2

方法简介

图3. DMotion的训练框架,由Object Extractor和Interaction Learner组合,进行端到端的学习

问题定义:环境是马尔可夫决策过程 ,假设只有一个智能体,动作 控制智能体的位移,观测空间是 RGB 图像 。提供环境中采集的视频数据 和少量带动做标注的数据 作为训练数据,任务的目标是得到环境的模型 。

物体解耦模块(Object Extractor):图像编码器(Image Encoder)将输入图像 分解为一组特征图 ,来表示不同物体的空间位置信息。运动编码器(Motion Encoder)输入连续几帧图像 ,输出一组空间变换矩阵 ,来表示每个物体从时刻 到 发生的位置变换。 是2*3矩阵,由2*2旋转矩阵和 方向的平移组成。空间变换器(Spatial Transformer)对特征图进行仿射变换 ,以得到 时刻的特征图,再通过解码器(Image Decoder)对图像 进行重构。

交互学习模块(Interaction Learner):此模块输入历史观测 和第一张变换后的特征图 ,输出对 的预测。为准确预测 时刻所有物体的位置,输入 中必须含有智能体的动作信息 。而仅当 是智能体的特征图时,此模块的输入才含有充分的动作信息。

Object Extractor 和 Interaction Learner 在视频数据集上端到端地训练,优化目标是:

直观地,最小化前一项能够激励图像编码器解耦不同的物体、运动编码器分解不同物体的位移,最小化后一项能够激励第一张特征图表示智能体的空间位置信息、交互学习模块学习用 代替 的环境模型。

动作映射(Action-Transformation Mapping):为将交互学习模块转化为输入真实动作 的环境模型,我们利用少量的带动作标注的数据学习映射 。环境模型做预测的流程如下:输入历史观测 和智能体动作 ,通过动作映射将 转换为矩阵 ,通过图像编码器提取 ,用空间变换器得到 ,最后通过交互学习模块输出下一时刻的观测 。

图4. DMotion应用于机器人运动控制的框架

机器人运动控制:DMotion 应用于机器人运动控制的框架如图4所示。给定一个目标图像,规划算法利用学习的环境模型(Forward Model),搜索出最优的决策动作 ,从而控制环境中的机械臂推动物体,达到目标图像的物体摆放位置。

3

实验结果

视频预测:我们以图像均方误差(MSE)和物体位置的平均误差(Pos err.)为指标,在 Grid World、Robot Pushing 环境中测试视频预测的准确性。表1显示了我们方法的表现比所有使用10%标注数据的有监督方法更好。在多数指标上,我们方法的准确性超过了使用全部标注数据的监督学习方法。

表1. 视频预测的定量结果,数字越小表示越准确

机器人运动控制:我们在 Robot Pushing 环境中测试基于模型的机器人运动控制。图6显示,只有用我们的方法作为环境模型时,能够有效地完成任务,使环境中物体位置与目标位置的距离显著下降。图7对此进行了解释:可视化不同模型做多步预测的过程,只有我们的方法保证了机械臂始终是清晰的,其他方法在多步预测后机械臂的部分均出现模糊,导致规划算法不能有效执行。我们认为,我们的方法对智能体的空间位置和运动进行显式地表示,有利于模型输出智能体不模糊的图像。

图5. DMotion在机器人运动控制中的部分效果

图6. 机器人运动控制的定量结果,纵轴表示与目标的差距,横轴表示运行步数

图7. 机器人运动控制的规划过程中,不同环境模型的预测

特征图可视化:在对图像编码器输出的第一张特征图 进行可视化后,我们看到特征图显示了智能体的 mask,丢弃了其他物体的空间位置信息,与我们方法的假设相一致。

图8. DMotion首张特征图可视化的结果

4

总结

本文提出了一种无监督地用视频数据学习环境模型的新方法,在视频预测、机器人运动控制的任务中表现了相比监督学习的优越性。未来的研究可以将该方法推广到连续动作空间、多智能体、多关节智能体的场景,以适应更复杂的任务需要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看见女邻居出轨,她上门找我求保密,我说:可以,但有一个条件

看见女邻居出轨,她上门找我求保密,我说:可以,但有一个条件

千秋文化
2026-05-10 19:41:24
NBA巨星又要当爹!妻子第四次怀孕,前三胎全是男孩,期待小公主

NBA巨星又要当爹!妻子第四次怀孕,前三胎全是男孩,期待小公主

科学发掘
2026-06-02 19:00:30
男人无论年纪,和心爱女人突破亲密界限这件事,从来都绕不开

男人无论年纪,和心爱女人突破亲密界限这件事,从来都绕不开

加油丁小文
2026-04-05 09:30:08
亚马尔带女友度假,颜值身材无可挑剔,18岁身家过亿,已是超巨

亚马尔带女友度假,颜值身材无可挑剔,18岁身家过亿,已是超巨

可乐谈情感
2026-06-01 13:12:28
北京时间6月2日下午,国乒传来王楚钦、梁靖崑、樊振东的重要消息

北京时间6月2日下午,国乒传来王楚钦、梁靖崑、樊振东的重要消息

法老不说教
2026-06-02 20:21:04
101万亿债务压顶!全民化债浪潮袭来,收入受影响普通人该咋办?

101万亿债务压顶!全民化债浪潮袭来,收入受影响普通人该咋办?

今朝牛马
2026-06-02 21:24:29
山东烟台一男子报警称自己强奸了女友,警方:该男子酒后与女友因琐事争执,为发泄个人情绪谎报警情,被行政拘留5天

山东烟台一男子报警称自己强奸了女友,警方:该男子酒后与女友因琐事争执,为发泄个人情绪谎报警情,被行政拘留5天

环球网资讯
2026-06-02 21:03:56
里克·阿德尔曼离世,79岁名人堂教练留下1042胜

里克·阿德尔曼离世,79岁名人堂教练留下1042胜

元气满分吖
2026-06-03 01:44:40
为防关键议员被捕,菲参院强改规则允许远程投票遭抵制!开后门?

为防关键议员被捕,菲参院强改规则允许远程投票遭抵制!开后门?

顾史
2026-06-03 02:05:12
你的低成本爱好是什么?这届网友居然就这样水灵灵的省下这么多钱

你的低成本爱好是什么?这届网友居然就这样水灵灵的省下这么多钱

夜深爱杂谈
2026-06-02 10:49:13
罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

林子说事
2026-06-03 00:42:49
糯米立大功!医生发现:坚持吃糯米一段时间,身体或迎来5个变化

糯米立大功!医生发现:坚持吃糯米一段时间,身体或迎来5个变化

橘子约定
2026-05-13 21:25:24
太尴尬了!9个姐妹聚餐,临时倡议各邀请一男生,竟然无一人到场

太尴尬了!9个姐妹聚餐,临时倡议各邀请一男生,竟然无一人到场

火山詩话
2026-04-19 08:06:38
豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

TechWeb
2026-06-02 09:19:35
长安启源再回应“司机激活智驾40秒后撞上货车致3人身亡”

长安启源再回应“司机激活智驾40秒后撞上货车致3人身亡”

闪电新闻
2026-06-02 19:48:23
明明有着大好前途,却为了名利甘作情妇,最终事情败露前途尽毁

明明有着大好前途,却为了名利甘作情妇,最终事情败露前途尽毁

三农老历
2026-06-02 17:01:18
没想到,被中国授予最高荣誉仅1天,武契奇因一句话实现口碑暴涨

没想到,被中国授予最高荣誉仅1天,武契奇因一句话实现口碑暴涨

流史岁月
2026-06-01 14:10:57
关于文章被处理的通知

关于文章被处理的通知

言立方
2026-04-15 18:22:17
百度最强视觉识别模型来了!仅0.9B,文档解析能力超越Gemini、GPT

百度最强视觉识别模型来了!仅0.9B,文档解析能力超越Gemini、GPT

智东西
2026-06-02 19:27:57
不少婴儿孕妇中招,央视再曝新毒物!长期用会致癌,已流窜至全国

不少婴儿孕妇中招,央视再曝新毒物!长期用会致癌,已流窜至全国

潋滟晴方DAY
2026-06-03 02:10:24
2026-06-03 05:11:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7327文章数 20755关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

亲子
数码
本地
公开课
军事航空

亲子要闻

幼小衔接指南——幼小直面交流 清晰剖析阶段差异

数码要闻

HPB散热加持!三星HBM5预计2028年实现量产

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版