网易首页 > 网易号 > 正文 申请入驻

ICCV 2021 | REM: 用于视觉语义导航的随机环境混合

0
分享至

视觉语言导航(Vision Language Navigation)是一个机器学习的新兴任务。它的目的是让一个智能体能够在真实的3D环境中根据自然语言指令导航至正确的地点。其中一个关键的研究课题是提高智能体在所有环境(已知房间和未知房间)中的导航能力,即减少智能体在不同环境中的泛化误差

论文链接:

https://arxiv.org/abs/2106.07876

Code地址:

https://github.com/LCFractal/VLNREM

一、引言

视觉语言导航(Vision Language Navigation)是一个机器学习的新兴任务。它的目的是让一个智能体能够在真实的3D环境中根据自然语言指令导航至正确的地点。其中一个关键的研究课题是提高智能体在所有环境(已知房间和未知房间)中的导航能力,即减少智能体在不同环境中的泛化误差

影响智能体泛化误差的主要原因是小规模数据和大导航空间之间的数据偏差。因此减少泛化误差的一个主要手段是数据增强,以往的工作提出了两种数据增强方法:场景内增强(Intra-scene Augmentation, ISA),Speaker-Follower[1]在已有场景中构建新的路径和指令;近场景增强(Near-scene Augmentation , NSA),EnvDrop[2]通过在场景中加入高斯噪声,在一定程度上突破了场景的局限性,但只是将场景扩展到了邻域。

相比于原始训练集,三种数据增强方法对泛化误差影响的示意图。比起ISA和NSA,REM产生的增强数据更加偏离原有数据分布具有更强的降低泛化误差的能力。

为了解决这个问题,我们提出了一种场景间数据增强方法:随机环境混合(Random Environmental Mixup, REM)。REM 方法混合两个场景,在两个场景之间构建一个交叉连接的场景。与其他方法相比,它超越了场景本身的限制,在更广泛的数据分布下构建了增强数据。我们的实验表明,REM 产生的增强数据能将智能体导航的性能提高2个百分点以上。

二、随机环境混合(REM)

如图所示,REM方法的思路很简单,通过混合两个场景来生成交叉场景下的数据三元组(环境、路径、指令)。REM随机对两个场景进行划分并重新组合来构建一个新的交叉连接场景,并重构相应的路径和指令。进行场景混合时,我们遇到了以下三个问题:

1)如何选择场景中的关键顶点进行混合?

2)如何混合两个场景来获得交叉连接的场景?

3)如何在交叉连接的场景中构建新的路径和指令?

下面给出这些问题的解决方案,进而来构建大量交叉连接场景,这些场景相对于原始训练集是不可见的。

选择关键顶点

关键顶点对于场景之间的混合至关重要。它们的特点可以概括如下:1)连接两个房间的入口或走廊;2)顶点有很多路径通过它。为了匹配上述特征,可以通过图的中介中心性来选择关键顶点:

公式分别定义了顶点和边的中介中心性,我们选择中介中心性的前10的顶点和边来分别构造关键顶点子图和关键边子图,对两个子图求交集得到的关键子图。为了确保后续生成更多路径,我们从中选择包含最多监督路径的边及其对应的顶点。从图中可以观察到,房间或走廊的入口和出口往往具有最高的中介中心性。

图中展示了通过中介中心性选择关键顶点的一个例子。绿色边通常是房间或走廊的出入口,我们选择绿色边中包含最多路径的两个顶点作为关键顶点。

构建增强数据

  • 构建交叉连接场景、路径和指令

我们在训练集中随机选择两个场景(Scene1和 Scene2)。如图所示,REM分三个阶段构建和的交叉连接场景。阶段1:为和选择关键顶点和。阶段 2:将和混合成图,断开两关键边,并重新连接顶点 和 ,我们就得到了一个交叉连接的场景。阶段3:对齐的方向,通过调整中的顶点位置来保证交叉路径和指令的匹配。同时,路径的指令是细粒度的,不同颜色的子路径与对应颜色的子指令相匹配。随着场景的混合,路径和指令也被分解和重建。构建的场景、路径和指令组合成三元组,作为 VLN 任务的增强数据。

  • 构建交叉视点

在VLN任务中,描述了房间中各个视点的连接关系,为了在视觉观察上混合两个场景我们在的基础上构建了交叉视点。构建新的交叉视点的过程如图所示。以场景 1+2 中的为例,每个视点全景图在水平方向上分为12个视图(用数字0-11表示)。通过混合View 1和View 2的视图,我们可以获得View 1+2的全景图。更具体地说,视图基于下一个视点的方向。我们用View 1替换View 2原角度周围的三个视图,来获得交叉连接视图(View 1 中的红色 0-3 7-11,View 1 中的蓝色 2-4)。最后与上节第三阶段同步进行方向对齐,达到智能体的行为、场景连接方向和指令描述都一致的目的。

REM用于增强VLN任务

通过以上步骤,我们已经构建了用于训练的增强数据三元组:(环境、路径、指令)。我们的方法能够将任意两个场景混合成一个新的交叉连接场景。我们可以相应地生成大量的新场景及其对应的路径和指令。对于 VLN 任务,我们需要导出交叉连接的场景进行训练,包括视点、连接关系和顶点位置。增强数据的三元组将直接与原始训练集合并用于训练。交叉视点不同方向的观察特征来源于不同的场景。

一个交叉视点和对应指令的示意图。通过交叉视点将两个场景融合起来,对应的指定和路径也得到融合,进而产生了全新的环境和训练数据。

三、实验结果

Figure 7: 我们的方法应用于多种模型均能取得显著的提升,VLNBert[3]在REM的加持下在标准视觉语言导航数据集(R2R[4])上取得了第一名的成绩。

Leaderboard的地址:

https://evalai.cloudcv.org/web/challenges/challenge-page/97/leaderboard/270

Figure 8: 此外我们在R4R[5]数据集上应用REM方法也进行了相应的测试,各个模型均获得了同样的提升。

Figure 9: 消融分析实验分别验证了方向对齐操作的必要性以及交叉视点替换视图数量对结果的影响。

最后我们测试了不同增强数据量训练的智能体导航成功率。图中相同的数据比例表示使用相同的数据量。当数据比率为1时,红点和蓝点的设置相同,红点达到性能的顶峰。红蓝线与橙绿线之间的差异表明,当样本数相同时,场景间数据增强明显优于场景内数据增强。

References:

[1] Daniel Fried, Ronghang Hu, Volkan Cirik, AnnaRohrbach, Jacob Andreas, Louis-Philippe Morency, Taylor Berg- Kirkpatrick, KateSaenko, Dan Klein, and Trevor Darrell. Speaker-follower models forvision-and-language navigation. In NeurIPS, 2018.

[2] Hao Tan, Licheng Yu, and Mohit Bansal. Learning tonavigate unseen environments: Back translation with environmental dropout. InACL, 2019.

[3] Yicong Hong, Qi Wu, Yuankai Qi, Cristian Rodriguez-Opazo, and Stephen Gould. A recurrent vision-and-language bert for navigation.In CVPR, 2021.

[4] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, MarkJohnson, Niko S¨underhauf, Ian Reid, Stephen Gould, and Anton Van Den Hengel.Vision-and-language navigation: Interpreting visually-grounded navigationinstructions in real environments. In CVPR, 2018.

[5] Vihan Jain, Gabriel Magalhaes, Alexander Ku, AshishVaswani, Eugene Ie, and Jason Baldridge. Stay on the path: Instruction fidelityin vision-and-language navigation. In Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics, pages 1862–1872, 2019.

Illustrastion by Lazarus_al from Icons8

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励。

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

>>> 投稿请添加工作人员微信!

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家卫健委主任雷海潮:1600多万医务人员辛苦付出,应得到社会尊重和理解!

国家卫健委主任雷海潮:1600多万医务人员辛苦付出,应得到社会尊重和理解!

梅斯医学
2026-03-11 07:53:44
3年仅拿2150万!火箭新援便宜又耐用,远胜亚当斯!2技能联盟顶级

3年仅拿2150万!火箭新援便宜又耐用,远胜亚当斯!2技能联盟顶级

熊哥爱篮球
2026-03-11 12:10:31
沙特、阿联酋、伊拉克和科威特据悉削减至多670万桶/天的原油产量

沙特、阿联酋、伊拉克和科威特据悉削减至多670万桶/天的原油产量

财联社
2026-03-10 15:37:17
轰83+9+3!阿德巴约联盟第一,火记谈哈登摊牌,他想刷早拿81分了

轰83+9+3!阿德巴约联盟第一,火记谈哈登摊牌,他想刷早拿81分了

巴叔GO聊体育
2026-03-11 12:25:14
1979年,张国焘冻死在养老院,许世友:除了主席,没人是他的对手

1979年,张国焘冻死在养老院,许世友:除了主席,没人是他的对手

文史季季红
2026-03-05 13:35:03
又数钱了!官方:东契奇向裁判做不当且不职业手势 被罚5万美元

又数钱了!官方:东契奇向裁判做不当且不职业手势 被罚5万美元

罗说NBA
2026-03-11 05:57:48
CBA焦点战今晚开打!首钢欲翻身仗,CCTV5不直播

CBA焦点战今晚开打!首钢欲翻身仗,CCTV5不直播

凡人说体育
2026-03-11 10:49:38
焊死在历史上!欧冠10大最难破的神迹:C罗梅西垄断

焊死在历史上!欧冠10大最难破的神迹:C罗梅西垄断

格斗社
2026-03-11 08:00:03
小厂电脑被曝CPU造假,根源却是巨头的贪婪

小厂电脑被曝CPU造假,根源却是巨头的贪婪

三易生活
2026-03-09 19:47:38
白忙活一场!退位的贾国龙撕下仅剩的体面,罗永浩沉默了

白忙活一场!退位的贾国龙撕下仅剩的体面,罗永浩沉默了

奇思妙想生活家
2026-03-10 18:38:48
手臂绑着医疗仪器,39连胜突然终结!王曼昱身上到底发生了什么?

手臂绑着医疗仪器,39连胜突然终结!王曼昱身上到底发生了什么?

曹老师评球
2026-03-10 15:59:35
利物浦耻辱夜!天价巨星全场梦游,球迷怒喷:最烂引援没有之一

利物浦耻辱夜!天价巨星全场梦游,球迷怒喷:最烂引援没有之一

澜归序
2026-03-11 05:05:19
以色列拦截伊朗导弹 新华社记者直击散落碎片破坏力

以色列拦截伊朗导弹 新华社记者直击散落碎片破坏力

新华社
2026-03-10 17:21:00
为什么很多人质疑人参的功效?网友:年纪不大的千万不要喝

为什么很多人质疑人参的功效?网友:年纪不大的千万不要喝

夜深爱杂谈
2026-03-06 20:17:14
笑麻!终于知道为什么广西没有霸总了,网友:放个碗都噼里啪啦

笑麻!终于知道为什么广西没有霸总了,网友:放个碗都噼里啪啦

夜深爱杂谈
2026-03-10 23:00:17
精准突袭!以军捣毁伊朗特警体育中心,核心战力遭全歼

精准突袭!以军捣毁伊朗特警体育中心,核心战力遭全歼

老马拉车莫少装
2026-03-10 00:11:57
油价,历史性暴跌!

油价,历史性暴跌!

江南晚报
2026-03-11 10:37:11
中国为何突然掌握航发密码?一片叶片落地,全球格局开始改写

中国为何突然掌握航发密码?一片叶片落地,全球格局开始改写

铜臭的历史味
2026-03-10 23:51:50
小伙问轮椅男子借100元,男子:我只有20,小伙转身塞给男子40000

小伙问轮椅男子借100元,男子:我只有20,小伙转身塞给男子40000

匹夫来搞笑
2026-03-11 08:21:01
朝鲜女足输球原因揭晓!李成镐赛后点评精准到位

朝鲜女足输球原因揭晓!李成镐赛后点评精准到位

究竟谁主沉浮
2026-03-10 21:21:22
2026-03-11 13:20:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2307文章数 596关注度
往期回顾 全部

科技要闻

腾讯急了急了,微信绝密AI智能体首度曝光

头条要闻

阿德巴约单场83分"刷"新纪录引质疑 本人发声致敬科比

头条要闻

阿德巴约单场83分"刷"新纪录引质疑 本人发声致敬科比

体育要闻

执教过李铁的英国老头,77岁又出山了

娱乐要闻

杨幂连续五年为刘诗诗庆生,刘诗诗回应

财经要闻

油价大转头?一天,从末日到曙光!

汽车要闻

丰田向左,本田向右

态度原创

手机
旅游
时尚
亲子
本地

手机要闻

华为Vision智慧屏6 SE发布:Super Mini LED,3899元起

旅游要闻

贵安樱花园最新航拍视频

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

亲子要闻

哈密瓜自带李斯特菌,孕妇绝对不能吃?

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

无障碍浏览 进入关怀版