网易首页 > 网易号 > 正文 申请入驻

ECCV 2022 | STDANet:基于可变形注意力的视频去模糊

0
分享至

视频去模糊的关键在于利用连续视频帧的清晰像素恢复中间帧的模糊像素。因此,主流方法通过融合多帧像素恢复模糊的中间帧。然而,这些方法没有考虑视频帧中像素的模糊程度,其实不是所有的像素都是对恢复有利的,引入视频段中模糊的像素将导致其去模糊效果不够理想。

为了解决这个问题,我们提出了STDANet,我们通过考虑视频帧中像素的模糊程度,提取视频段中清晰的像素信息,从而获得更好的去模糊结果。

论文链接: https://arxiv.org/abs/2207.10852 代码链接: https://github.com/huicongzhang/STDAN 项目主页: https://vilab.hit.edu.cn/projects/stdan
一、引言

视频去模糊方法的关键在于使用多帧的像素信息恢复中间模糊帧。早期的视频去模糊方法[1-2]直接使用CNN网络融合多帧像素信息,因为其非对齐的相邻帧,他们并没有充分利用相邻帧的像素信息。近期的视频去模糊方法[3-4]使用光流对相邻帧进行对齐,然后使用CNN网络对对齐的视频帧进行融合并恢复中间帧。然而,他们忽略了视频帧之间的像素模糊程度的差异,不是所有的像素都是对重建有利的,引入模糊像素将导致去模糊效果下降。

为了解决这个问题,我们提出了STDANet,通过考虑视频帧中像素的模糊程度,提取视频段中清晰的像素信息,从而更好地恢复模糊的中间帧。 另外为了对相邻帧进行运动补偿,我们设计了一个轻量化的运动估计分支用于估计粗糙的光流。


二、解决方案

图1 STDANet的总体框架图

所提出的STDANet的总体框架如图1所示。给定三帧连续视频帧 作为输入,所提出的STDANet的目的是恢复中间帧 。首先连续视频帧输入到特征提取器,得到连续视频帧的特征。然后运动估计分支根据所提取特征,估计连续帧之间的粗糙光流。接着我们所提出的STDA模块通过估计得到的粗糙光流的引导,提取多帧特征的清晰像素信息,得到重建特征 ,最后重建网络将 恢复到RGB图像空间,完成重建。


运动估计分支

此前的视频去模糊方法大多使用光流对齐相邻帧与中间帧,这需要较为大型的光流估计网络如PWC-Net[5]以估计准确的光流。而在我们的STDANet中光流不直接用于相邻帧与中间帧之间的对齐,而是用于引导STDA模块采样视频段中的清晰像素,这种光流引导的思路对于不准确的光流更加鲁棒,因此我们可以用更加轻量化的运动估计分支来估计粗糙光流,从而减少计算量,此外由于没有去模糊数据集的真实光流,我们在重建损失函数 之外采用对齐损失函数 给予运动估计分支训练信号,运动估计分支与主网络一起进行训练。给定连续视频帧 作为输入,运动估计分支估计其前后向的光流 其中 代表第m帧到第n帧的光流。


时空可变形注意力模块

为了获取视频帧之间的清晰像素信息,我们提出时空可变形注意力模块。遵循“粗到细”的策略,时空可变形注意力模块包含两层注意力层,分别为多对多注意力层,多对一注意力层。其网络结构如下图:

图2 时空可变形注意力模块框架图

如图2左图多对多注意力示意图所示,给定 帧输入帧特征 ,我们使用光流把相邻帧对齐到中间帧 ,得到对齐后的特征 ,接着我们把特征 与 拼接在一起送入多层卷积层得到注意力图 以及采样点偏移 ,其中 ,M、T、K分别代表注意力头数量、帧数以及采样点的数量。 采用 进行归一化。然后 经过两层卷积层后,我们可以得到展开后的特征 。接着,我们通过可变形注意力操作[6]得到融合特征 。

其中 分别为可变形注意力操作、光流相加操作以及前后向光流。最后, 重新reshape为4维,再经过一层卷积后得到最后的融合特征 。

如图2右图多对一注意力层示意图,多对一注意力层以初步融合的特征 作为输入,得到中间帧的融合特征 。与多对多注意力层不同的是,多对一注意力层是把连续视频帧的清晰像素信息融合于一帧而不是多帧。因此在多对一注意力层中,融合特征 可通过如下公式得到:

其中, , 以及 分别为注意力图、采样点偏移以及展开的特征。同样 reshape 到3维后经过一层卷积,得到最后的融合特征 。

经过从多对多到多对一注意力层的提取,我们得到包含多帧清晰像素信息的特征 。我们可视化了多对一注意力层的注意力图,更好得展示其提取清晰像素的能力。

图3 多对一注意力层注意力图可视化

从图3中的例子可以看出,越清晰的区域将获得越高的注意力权重。例如在 帧中,骑自行车的人(红框标出位置)是模糊的,因此其相关区域注意力权重也比较低。相反在 红框区域比较清晰,其对应区域的注意力权重也较高。总而言之,时空可变形注意力模块能通过赋予视频段中清晰区域更高的权重,从而有效地提取视频段中清晰的像素信息。

三、实验结果

我们把STDANet与其他SOTA方法在GoPro、DVD以及BSD三个数据集上进行了比较。其结果如表1-3所示,STDANet超过了以往的SOTA方法。特别地, 代表STDANet-Stack,STDANet-Stack采用与TSP[3]以及ARVo[4]一样的级联渐进式结构(cascaded progressive structure)。

以下的视频展示了我们的方法和近期方法在BSD以及DVD数据集的对比结果。

四、总结

我们提出STDANet用于视频去模糊。这项工作的主要动机是,视频帧中并非所有的像素都是清晰和对去模糊有利的。因此,我们提出的STDANet通过考虑视频帧像素级的模糊程度来提取视频段中清晰像素的信息,从而更好的恢复出模糊中间帧。同时与主流的视频去模糊方法需要大型的光流网络进行运动估计不同,我们通过采用光流引导的方式进行帧间的运动补偿,因此我们可以使用一个非常轻量化的运动估计分支来进行粗略的光流估计,减小了计算量。在3个数据集的实验表明,我们的方法比起当前的sota方法,取得了更好的定量以及定性结果。

参考文献

[1] Online video deblurring via dynamic temporal blending network. In: ICCV (2017)

[2] Deep video deblurring for hand-held cameras. In: CVPR (2017)

[3] Cascaded deep video deblurring using temporal sharpness prior. In: CVPR (2020)

[4] Arvo: Learning all-range volumetric correspondence for video deblurring. In: CVPR (2021)

[5] Pwc-net: Cnns for optical flow using pyramid, warping, and cost volume. In: CVPR (2018)

[6] Deformable DETR: deformable transformers for end-to-end object detection. In: ICLR (2021)

作者:张慧琮

Illustration b y Icons 8 from icon s8

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>> 投稿请添加工作人员微信!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“日本民航将不能过境中国”?谁在给日本民粹右翼递弹药

“日本民航将不能过境中国”?谁在给日本民粹右翼递弹药

观察者网
2026-05-21 16:49:06
朱新远已任上海教育行政部门主要负责人

朱新远已任上海教育行政部门主要负责人

上观新闻
2026-05-22 17:59:07
炸了!周也恋情曝光,对象身份不简单

炸了!周也恋情曝光,对象身份不简单

黎兜兜
2026-05-22 12:29:13
奔驰碾杀猫男社死!嚣张连累公司,更多恶行被扒,势力大也得坐牢

奔驰碾杀猫男社死!嚣张连累公司,更多恶行被扒,势力大也得坐牢

奇思妙想草叶君
2026-05-22 01:59:21
小学老师被扎眼球:同事曝更多隐情,眼睛毁了,工作也可能不保

小学老师被扎眼球:同事曝更多隐情,眼睛毁了,工作也可能不保

削桐作琴
2026-05-21 20:58:08
美国暂停一项对台军售案,外交部回应

美国暂停一项对台军售案,外交部回应

澎湃新闻
2026-05-22 15:28:26
炸穿内娱!景甜被曝签海外代孕协议,3000万转账+5000万坐地起价

炸穿内娱!景甜被曝签海外代孕协议,3000万转账+5000万坐地起价

草莓解说体育
2026-05-22 14:58:18
日本2025世博会电动大巴报废,当时宣称日本制造,如今改口称中国制造

日本2025世博会电动大巴报废,当时宣称日本制造,如今改口称中国制造

可达鸭面面观
2026-05-22 09:28:08
80后地产女王自杀,倒在楼市黎明前

80后地产女王自杀,倒在楼市黎明前

南风窗
2026-05-22 17:14:35
美国副防长访华被中方推迟 特朗普手握"筹码"进退两难

美国副防长访华被中方推迟 特朗普手握"筹码"进退两难

健身狂人
2026-05-22 15:00:09
英格兰世界杯26人名单出炉!凯恩赖斯领衔,福登马奎尔遗憾落选

英格兰世界杯26人名单出炉!凯恩赖斯领衔,福登马奎尔遗憾落选

奥拜尔
2026-05-22 17:06:14
形势有多严峻?网传中学生都感到极其压抑了,评论区炸锅…

形势有多严峻?网传中学生都感到极其压抑了,评论区炸锅…

慧翔百科
2026-05-22 11:33:16
小因扎吉:我们是本赛季全世界唯一不败球队,很遗憾无缘冠军

小因扎吉:我们是本赛季全世界唯一不败球队,很遗憾无缘冠军

懂球帝
2026-05-22 06:56:16
四川一国企退休职工帮同事维权与董事长争执后猝死,董事长建议去起诉

四川一国企退休职工帮同事维权与董事长争执后猝死,董事长建议去起诉

澎湃新闻
2026-05-22 14:58:28
乌克兰无人机“团灭”俄联邦安全局赫尔松总部,俄方损失约100人

乌克兰无人机“团灭”俄联邦安全局赫尔松总部,俄方损失约100人

山河路口
2026-05-22 12:25:52
贪官末日来了!中央反腐新规5月落地,无论在职退休一律终身追责

贪官末日来了!中央反腐新规5月落地,无论在职退休一律终身追责

细说职场
2026-05-22 14:30:31
交大樊同学和协和董小姐,其实是一类人

交大樊同学和协和董小姐,其实是一类人

互联网思维
2026-05-21 23:34:37
公牛起诉小米:一个插线板的十年恩仇录,远不止插线板

公牛起诉小米:一个插线板的十年恩仇录,远不止插线板

品牌纪要
2026-05-22 11:34:54
美俄刚走,荷兰就“憋不住”,光刻机巨头,公开给中国递了句软话

美俄刚走,荷兰就“憋不住”,光刻机巨头,公开给中国递了句软话

清沐执笔
2026-05-22 16:14:17
骑士球迷意难平!不止因为93-109再负尼克斯,更多在于以下五点!

骑士球迷意难平!不止因为93-109再负尼克斯,更多在于以下五点!

田先生篮球
2026-05-22 13:03:49
2026-05-22 18:23:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2385文章数 596关注度
往期回顾 全部

科技要闻

雷军:输给特斯拉不丢人

头条要闻

80后地产女王自杀倒在楼市黎明前 曾称或面临刑事责任

头条要闻

80后地产女王自杀倒在楼市黎明前 曾称或面临刑事责任

体育要闻

最糟糕裁判?他想要退役当市长

娱乐要闻

周也恋情曝光!对象身份不简单

财经要闻

证监会拟对老虎、富途、长桥依法严厉处罚

汽车要闻

舒适智能配置满 昊铂S600开着没那么运动也挺好

态度原创

家居
亲子
教育
旅游
公开课

家居要闻

低调传承 温润沉静

亲子要闻

多家国际奶粉召回事件频发,国内奶粉市场影响几何

教育要闻

全国示范校名单公示!北京这8所学校上榜

旅游要闻

终于定啦‼赖店镇往坂头村路口红绿灯旁(天宇楼)广场大型光影瀑布美食.娱乐.游园会5月29日盛大开幕!全场免门票

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版