网易首页 > 网易号 > 正文 申请入驻

深度循环优化器DRO:从视频流估计深度和相机轨迹

0
分享至

阿里云人工智能实验室提出了一个基于神经网络的端对端深度循环优化器,能够实时从视频中计算出视频流中每张图的深度和对应的相机轨迹,效果超越了之前所有的深度SFM方法,也使一些无法计算梯度的优化问题的求解成为可能。


论文链接: https://arxiv.org/abs/2103.13201 代码链接: https://github.com/aliyun/dro-sfm DRO KITTI demo: https://www.zhihu.com/zvideo/1376571242087002113

一、Motivation

解决一个优化问题,常见的优化器比如梯度下降法, 牛顿法等, 一般会先计算梯度------>再求出参数下一步更新的方向和步长。

我们提出zero-order的循环神经网络优化器(DRO), 不需要求解梯度, 直接利用神经网络来预测下次更新的方向和步长。将优化目标cost,放入到神经网络中,每次迭代都会参考之前尝试的历史信息,从而给出更加精准的预测。也就是说,如果错误的预测值,就会使得cost变大,正确的预测值会使得cost变小,在不断尝试中,神经网络学习到了如何使得cost变小。

我们将DRO应用到了Structure from Motion(SFM)这个问题中。目前利用深度学习求解SFM,效果较好的有两种路线,第一种是基于梯度的优化方法,比如BANet,设计出深度网络版本的LM算法,每次迭代中只有步长由深度网络预测。在SFM中,需要求解depth和pose,其中depth参数量较大,会导致计算出的梯度会带有noise,影响最终的效果。我们的DRO不用计算梯度,简化问题,同时能提升效果。第二种是基于cost-volume的方法,比如DeepSFM,将depth和pose的解空间,进行离散化,构建cost-volume,再利用3d卷积做正则化进行预测。相比我们基于优化的方法,它在空间域上进行了大量的采样,占用显存较大,性能较低,我们的方法相当于从时间域上出发,利用时间域里的信息,来进行问题的求解。

实验结果证明我们DRO,在室外KITTI和室内Scannet数据集上,都取得了超越以往所有算法的结果,同时计算消耗大大降低, 也使一些无法计算梯度的优化问题的求解成为可能。

二、简介

Structure from Motion (SfM) 是一个经典的计算机三维视觉问题,有着广泛的应用。它的任务是从一系列不同位置拍摄的图片,估计出每张图片的深度信息和对应的摄像机位姿,恢复出一个场景的三维模型。

近年来,基于深度学习的稠密SfM方法兴起,相比于传统的基于优化的SfM方法展现了很多优势。早期的基于学习的方法是使用一个神经网络直接回归每张图片的深度和摄像机位姿,简单暴力,取得了一些成果,但是这类方法最明显的问题就是忽略了任务中的有用信息,如多视角几何约束。所以现在越来越多的方法开始尝试将神经网络与传统优化理论结合起来,利用几何约束构建优化目标函数cost,然后结合优化理论、利用神经网络来优化这个cost。

我们的方法就是后面一种——利用神经网络求解优化问题。之前的这类方法主要有两个问题,第一个是,很多方法需要显式地计算梯度,然后利用 Levenberg-Marquardt或者Gauss-Newton法来最小化目标函数。这样就需要面对很多任务中梯度计算很困难、甚至根本无法计算梯度的问题,就算可以近似求解出梯度,在高维优化问题中也可能会有很多噪声,近似梯度的下降方向并不一定能将变量优化到全局最小值。第二个问题是很多方法都需要构建cost volume,cost volume可以在所有变量的邻域内评估cost,能够充分地考虑所有空间维度上的信息,已经被证明是很有效的手段。但是与它的有效性对应的,是它高昂的计算开销和空间占用。

为了解决这两个问题,我们提出了一个新的架构,一个不需要计算梯度也不需要构建cost volume的优化器——deep zeroth-order recurrent optimizer。我们认为,之前的方法之所以受困于以上两个问题,是因为它们只在空间域上求解,忽略了很重要的时间域信息。所以我们尝试在不使用梯度和cost volume的情况下,引入循环神经网络GRU,利用时间维度上的信息、历史优化轨迹来迭代、交替优化深度图和摄像机位姿。实验结果证明,我们的方法是非常有效的,仅仅利用一个feature-metric cost,我们的空域+时域优化器,在室内室外多个数据集上、在有监督和无监督两种设置下都取得了超越之前算法的结果。

三、深度循环优化器算法

深度循环优化器整体框架

整体来看,我们的框架以当前帧图像和相邻帧图像做为输入,经过特征提取网络提取到图像特征 ,然后接depth head和pose head得到初始深度图和摄像机位姿。基于当前估计的深度图和摄像机位姿我们可以计算一个feature-metric error作为我们的cost。之后GRU启动,每次基于当前变量值当前cost和图像特征,不断循环迭代优化深度图和摄像机位姿,优化到最优值。

1. 特征提取和目标函数构建

我们基于ResNet-18来提取图像特征,然后基于图像特征和当前估计的深度和摄像机位姿构建一个feature-metric cost map:

公式中的 是3D点到图像平面的投影,所以有了像素点 x 的深度 ,反投影 就将 x 反投成3D点,然后坐标转换矩阵 将这个3D点从 的相机空间转换到 的相机空间,最后投影 将3D点投射到图像 上。这样就找到了图像 和 间像素点的位置对应关系,在对应位置的特征图上作差即得到我们的cost map。

当有多张相邻帧图片时,我们会计算一个平均cost作为depth的cost:

而post的cost使用的就是

2. 迭代优化

与传统优化理论类似,我们也是迭代优化cost的,在每一步优化中,优化器都会输出更新增量,基于这增量我们不断更新当前值,这样一点一点地优化估计的深度图和摄像机位姿,直到最优值。

循环优化器我们采用了GRU结构,如图所示:

循环迭代优化器结构

在每一步优化中,我们交替优化depth和pose,这样可以减少两个变量之间的相互影响,降低优化难度,提高优化稳定性。整个优化分为m个阶段,在每个优化阶段中我们首先固定住pose更新depth,迭代更新n次,然后固定住depth更新pose,同样迭代更新n次,这样depth和pose总共都是交替更新了m*n次。在所有的实验中,如果不加特殊说明,m设为3,n设为4。

为了看一下整个优化过程中优化器到底做了什么,我们可视化了随着迭代次数增加,cost的变化和depth、pose的估计结果:

Depth cost和Post cost曲线

随着迭代次数增加的变化: (1) Cost热力图 (2) 深度图 (3) 利用估计的深度和摄像机位姿将相邻帧投影到当前帧的重叠图

从这几张图像可以看出,随着迭代次数增多,cost不断下降,depth和pose的估计越来越准。

3. 训练设置

无论是有监督学习,还是无监督学习,我们的优化器都可以应对。

a. 有监督

对于有监督训练,我们使用L1 loss来计算depth loss:

b. 无监督

对于无监督训练,我们使用相邻帧之间的几何约束来构建监督信号,也是无监督算法中通常采用的photometric loss,主要是参考monodepthv2设计的loss。

四、实验

我们在室外数据集KITTI和室内数据集ScanNet上都进行了实验,在有监督和无监督两种设置下,我们都取得了最好的结果:

针对框架中的每个模块的ablation study也证明了每个模块的作用:

Ablation Study实验

可以看出,虽然我们的优化器在训练过程中一直是更新12次的,但是在实际使用中可以更新任意多次,通过调节迭代次数,可以取得想要的效率和精度之间的平衡。迭代次数越多,精度越高,但是时间消耗越多;迭代次数越少,速度越快,精度会有一定程度的下降。

为了展示我们的算法相对于之前最好算法DeepV2D(使用了cost volume)的效率提升,我们测试了不同迭代次数下的时间开销和显存占用情况:

效率实验

可以看到还是有明显优势的。

KITTI数据集结果

ScanNet数据集结果

Illustration by Ivan Haidutski from Icons8

- The End -

本周上新!扫码观看~

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒙古请求中国借道运稀土给日本,助力蒙日合作

蒙古请求中国借道运稀土给日本,助力蒙日合作

斜烟风起雨未
2026-06-21 23:48:15
李若彤参观驻港部队,换上军装端起枪,这身板绝了

李若彤参观驻港部队,换上军装端起枪,这身板绝了

落雪听梅a
2026-06-21 14:21:41
父母最大的远见,就是在离开人世前,能给孩子留这两样

父母最大的远见,就是在离开人世前,能给孩子留这两样

心理观察局
2026-06-22 07:28:04
大冷门!世界杯首支出局强队,三大天才成笑柄,世界名帅头号罪人

大冷门!世界杯首支出局强队,三大天才成笑柄,世界名帅头号罪人

潋滟晴方DAY
2026-06-21 22:24:58
演员李现为世界杯开球!开场30分钟不到,西班牙3-0沙特

演员李现为世界杯开球!开场30分钟不到,西班牙3-0沙特

大象新闻
2026-06-22 07:05:03
雷军回应被小学生吐槽,评论区风评变了

雷军回应被小学生吐槽,评论区风评变了

历史总在押韵
2026-06-21 22:00:03
美加墨世界杯西班牙与沙特小组赛开打,全网都在找“开球嘉宾”李现在哪,网友的视频来了

美加墨世界杯西班牙与沙特小组赛开打,全网都在找“开球嘉宾”李现在哪,网友的视频来了

极目新闻
2026-06-22 00:49:37
怪不得地主恶霸非要霸占白毛女,这是原型罗昌秀救出时的四张照片

怪不得地主恶霸非要霸占白毛女,这是原型罗昌秀救出时的四张照片

云霄纪史观
2026-06-22 02:02:10
辽宁省930万退休人员养老金将迎2026年调整,看一看三年来的变化

辽宁省930万退休人员养老金将迎2026年调整,看一看三年来的变化

虎哥闲聊
2026-06-21 18:41:46
救命!刘涛的海边回眸杀,直接把高级感焊在了身上!

救命!刘涛的海边回眸杀,直接把高级感焊在了身上!

乡野小珥
2026-06-22 00:44:52
世界杯冠军说弃就弃!维拉砸钱抢新门神, 大马丁 6 年功勋或让位

世界杯冠军说弃就弃!维拉砸钱抢新门神, 大马丁 6 年功勋或让位

澜归序
2026-06-22 07:25:42
乌克兰三位前总统宣布退还波兰白鹰勋章

乌克兰三位前总统宣布退还波兰白鹰勋章

参考消息
2026-06-21 20:56:05
80后的离婚率真的太吓人了!

80后的离婚率真的太吓人了!

微微热评
2026-06-22 05:58:58
全球狂押500亿赌世界杯!92%胜率踢出0比0,有人百万身家秒归零

全球狂押500亿赌世界杯!92%胜率踢出0比0,有人百万身家秒归零

刘哥谈体育
2026-06-22 05:31:34
发现朋友的孩子是唐氏儿,我该开口吗?网友的回答吸引上万共鸣!

发现朋友的孩子是唐氏儿,我该开口吗?网友的回答吸引上万共鸣!

夜深爱杂谈
2026-06-19 21:54:50
贾玲“胖回来了”?本人回应:反弹后更放松自在,健康比体重重要

贾玲“胖回来了”?本人回应:反弹后更放松自在,健康比体重重要

马拉松跑步健身
2026-06-19 21:58:27
虎扑网友深夜自曝:约到大长腿,仅2条评论

虎扑网友深夜自曝:约到大长腿,仅2条评论

赴一场山海啊
2026-06-22 01:08:41
少有人知道解放战争时,我军有四个师曾被敌人策反,但很快被歼灭

少有人知道解放战争时,我军有四个师曾被敌人策反,但很快被歼灭

杜榈手工制作
2026-06-18 21:13:53
梅洛尼、高市早苗与特朗普吵起来了

梅洛尼、高市早苗与特朗普吵起来了

新民周刊
2026-06-21 10:06:51
2-2!4-0!日本提前晋级+刷新世界杯28年纪录,大家真错怪国足了

2-2!4-0!日本提前晋级+刷新世界杯28年纪录,大家真错怪国足了

篮球圈里的那些事
2026-06-21 15:20:00
2026-06-22 11:47:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2410文章数 596关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

伊朗挥一挥衣袖愤然离席 看直播的记者皱眉神情紧张

头条要闻

伊朗挥一挥衣袖愤然离席 看直播的记者皱眉神情紧张

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

韩红帮冯小刚宣传,结果翻车了…

财经要闻

“床垫界的特斯拉”破产了

汽车要闻

全面提升 全新理想L8 livis将家用舒适再进化

态度原创

艺术
旅游
教育
家居
公开课

艺术要闻

310米!欧盟第一高楼,坐落于波兰

旅游要闻

端午假期,超120万人次打卡“爽爽贵阳·新十景”

教育要闻

长方形ABCD的面积为24,三角形AEF的面积是多少?

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版