网易首页 > 网易号 > 正文 申请入驻

ICCV2019 | 锁定视频中的目标:港大提出运动注意力检测方法

0
分享至

机器之心发布

作者:李灏峰

显著物体检测常作为计算机视觉与图形学应用的预处理步骤。 但目前只有面向图像的显著物体检测方法研究比较成熟,而面向视频的方法还有很大的研究空间。
为此,香港大学联合中山大学和深睿医疗人工智能实验室发布论文《Motion Guided Attention for Video Salient Object Detection》,提出了基于运动注意力的视频显著物体检测方法(MGA),比之前最好的算法在 DAVIS 和 FBMS 上分别提升了 4 个和 8 个百分点,该论文已被 ICCV2019 接收。


论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Li_Motion_Guided_Attention_for_Video_Salient_Object_Detection_ICCV_2019_paper.pdf

研究背景
显著物体检测问题要求对于每张图片或视频帧,预测一个二类别的像素级分割结果,用以表征图片中的显著或前景物体。 该问题常作为计算机视觉与图形学应用的预处理步骤。 随着深度学习技术的发展,面向图片的显著物体检测方法被广泛研究,而面向视频的显著物体检测有待进一步探索。

为了解决视频的显著物体检测,该论文作者有以下观察:

  • 其一,视频物体的显著性由其外观和运动共同决定,显著物体的运动往往也是显著的,显著运动的区域很可能是显著物体;


  • 其二,物体的运动蕴含空间连贯性信息,运动状态相似的相邻区域很可能同属于一个物体或者背景;


  • 其三,利用运动信息的空间连贯性,有助于分离物体和背景。背景外观可包含纹理不同的多个区域,而物体可包含内部边缘及不同外观的部件,这造成了分割的困难。而表征运动的光流图片相对「干净」(如图 1b),可更好地捕捉部分物体边界,成为分割显著物体的契机。

目前现有方法主要通过循环神经网络聚合多个视频帧的卷积特征,或者利用光流和变形来对齐不同帧的特征,而没有通过端到端学习来捕捉和利用光流中的显著运动。 作者提出一系列运动注意力模块,来建模显著运动如何结合外观信息来影响物体显著性。 作者还提出了一个双分支网络,用以放置上述注意力模块,来实现视频显著物体检测。

图 1。
运动引导的注意力机制
为了建模显著运动如何结合外观信息来影响物体显著性的,作者将外观信息抽象为三维的外观特征张量(可为某个 ReLU 隐层的输出),将显著运动抽象为二维的运动显著图(如某个 sigmoid 隐层的输出)或者三维的运动特征张量。 首先考虑最简单的情况,如何用一张二维的运动显著图来「关注」三维外观特征的重要位置。 一个直观的朴素模型是将运动显著图与外观特征逐位相乘,来加强外观特征中运动显著的区域的响应。 但这个朴素模型的缺点在于,运动显著图中的零元素会「抑制」外观特征中运动不显著或者静止的区域,从而导致物体分割不完整的情况出现。

为了解决朴素模型的缺点,作者提出模型一: 采用残差结构,将被加权后的外观特征与最初的外观特征逐位相加,补充回错误抑制的外观信息,使后续的神经网络层有机会勾勒出完整物体。 下面考虑如何利用三维运动特征来关注外观特征。 一个简单方案是模仿模型一,与外观特征逐位相乘相加,区别在于要先采用一个 1x1 卷积来对齐运动特征和外观特征的形状,这样得到模型二。
模型二可以看作是用一个三维权重同时实现空间和通道注意力的机制。 但由于运动特征来源于信息量较「稀疏」的光流图片,缺乏纹理信息和复杂语义,基于这样的特征对外观特征进行通道注意力,可能引入额外噪声或导致过拟合。 一个备选方案是运动特征仅用于空间注意力,即先用一个 1x1 卷积和 sigmoid 从运动特征预测出运动显著图,在进行类似模型一的操作,这样得到模型三。

图 2。
最后,基于模型二和三,考虑如何实现合理的通道注意力,作者提出了模型四。 模型四先用运动特征对外观特征进行空间注意力,「空间注意」后的外观特征经由全局平均池化得到一个一维向量,该向量可表征显著运动区域的外观特征。 由于物体的运动和静止部分有较一致的外观属性(如色彩、纹理、语义),那么基于上述运动区域的外观特征向量预测出的一维的通道注意力权重,可有效提高物体静止部分相应属性或通道的响应,从而有助于分割出完整物体。 模型四的末端保留残差结构,以避免零元素「抑制」的问题。

运动引导注意力网络(MGAnet)

图 3。
接下来,作者提出一个运动引导注意力网络(MGAnet),一方面用来提取前述外观特征、运动特征以及运动显著图,另一方面用来结合前面提出的一系列运动注意力模块,从而形成完整的视频显著物体检测方法。 MGAnet 是一个基于 DeepLab-V3+的双分支网络。 目前不少视频分割方法也采取双分支结构,但主要在各分支末端进行融合,而 MGAnet 采用多层次的、密集的方式连接两个分支。 MGAnet 包含一个以 RGB 图像为输入的外观分支,一个以光流可视化图片为输入的运动分支,以及连接两分支的 6 个注意力模块 MGA-{0-5}。 外观分支的编码器可为 ResNet-101 或 ResNet-50,运动分支的编码器可为 ResNet-34 或 ResNet-18,不同组合均可达到 SOTA 的性能。 MGA-{0-5} 可看作部署注意力模块的「槽」,其中 MGA-5 仅可采用模型一(运动信息是二维显著图),MGA-0 至 MGA-4 可采取模型二三四中的某一种,一般采用同一种。

实验结果
下文报告几个主要的实验。 第一个实验将 MGA 与现有的视频及图片的显著物体检测方法在三个数据集 DAVIS、FBMS 和 ViSal 上比较。 其中,ViSal 中并没有划分出训练集供模型训练,能较好地反映模型的泛化能力。 与 6 个视频模型和 11 个图片模型相比,MGA 在三个数据集上均表现最优,分别获得 4 个、8 个、1 个百分点的 MaxF 的领先。

表 1。
第二个实验验证网络结构的有效性。 作者尝试单独地训练、测试单个分支,其中独立的外观分支等价于语义分割中的 SOTA 模型 DeepLab-V3+; 作者还尝试仅保留编码器部分(MGA-E)或者解码器部分(MGA-D)的注意力模块。 实验结果显示,双分支结构有效利用了运动信息,优于任一单分支网络。 注意力模块部署在编码器端或解码器端,均能起到效果,同时部署在编码器和解码器端可获得最佳性能。
第三个实验验证四个运动注意力模块的有效性。 三种朴素的特征融合方法,包括逐位相乘、逐位相加和沿通道拼接(concatenate),被作为基线方法。 表 3 中,「E-」表示部署在编码器端,「D-」表示部署在解码器端。 实验结果显示,四种注意力模块均优于基线方法。 其中,较复杂的模型四(MGA-tmc)略优于模型二(MGA-t)和模型三(MGA-tm)。

表 2。

表 3。
总的来说,作者利用运动的空间连贯性,采用注意力机制来建模运动对物体显著性的影响,提出了一个简单但准确率高的双分支网络。 与基于循环神经网络的方法不同,该方法利用一个极小时间窗内的时序上下文(即与相邻帧的光流),取得了 SOTA 的性能。 本文是对原文主要方法和实验的解读,更多细节请参见原文。

文为机器之心发布,转载请联系本公众号获得授权
------------------------------------------------加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com投稿或寻求报道:content@jiqizhixin.combd@jiqizhixin.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1993年,杭州一老人自称是毛主席儿子毛岸龙,还出书自证身世

1993年,杭州一老人自称是毛主席儿子毛岸龙,还出书自证身世

大运河时空
2026-04-28 16:30:03
格力集团原董事长周乐伟主动投案,涉嫌严重违纪违法被查

格力集团原董事长周乐伟主动投案,涉嫌严重违纪违法被查

界面新闻
2026-04-29 12:55:05
官方:山东泰山U20主教练崔鹏因试图冲击主裁判被禁赛6场

官方:山东泰山U20主教练崔鹏因试图冲击主裁判被禁赛6场

懂球帝
2026-04-29 19:33:37
河南老师侮辱学生后续!惊动央视,教体局约谈校长,网友为其叫屈

河南老师侮辱学生后续!惊动央视,教体局约谈校长,网友为其叫屈

奇思妙想草叶君
2026-04-29 18:49:46
【锂电+高端 PCB】铜箔,市场核心 10 大公司

【锂电+高端 PCB】铜箔,市场核心 10 大公司

飞跑的鹿
2026-04-27 20:09:25
斯诺克世锦赛最新战报:赵心童吴宜泽大爆发,8-8,4-4丁俊晖开心

斯诺克世锦赛最新战报:赵心童吴宜泽大爆发,8-8,4-4丁俊晖开心

曹说体育
2026-04-29 09:31:40
潜逃前吴敬中送余则成一根金条,8年后切开才发现里面有胶卷

潜逃前吴敬中送余则成一根金条,8年后切开才发现里面有胶卷

卡西莫多的故事
2026-03-31 09:59:18
世界上最穷的国家布隆迪:一辈子没见过肉,自行车是豪车

世界上最穷的国家布隆迪:一辈子没见过肉,自行车是豪车

李砍柴
2026-04-29 15:51:54
山西大同“订婚强奸案”男子将于5月4日出狱,母亲:为儿子买了新衣,计划亲自去接,带他回归正常生活

山西大同“订婚强奸案”男子将于5月4日出狱,母亲:为儿子买了新衣,计划亲自去接,带他回归正常生活

大风新闻
2026-04-28 17:18:06
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
美司令狂言:中国武统将遭500倍打击!殊不知中国手握王牌

美司令狂言:中国武统将遭500倍打击!殊不知中国手握王牌

隔壁董小姐
2026-04-28 18:10:53
李在明没下狠手,听到判决结果,尹锡悦老婆金建希面如土色

李在明没下狠手,听到判决结果,尹锡悦老婆金建希面如土色

石江月
2026-04-29 17:09:36
目无法纪,贪婪无度!任上落马的原正部级蓝天立被公诉,三天三“虎”被处理

目无法纪,贪婪无度!任上落马的原正部级蓝天立被公诉,三天三“虎”被处理

上观新闻
2026-04-29 12:31:05
特朗普:伊朗刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:已绝对控制霍尔木兹,通过须缴费、用波斯语通讯

特朗普:伊朗刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:已绝对控制霍尔木兹,通过须缴费、用波斯语通讯

每日经济新闻
2026-04-28 22:58:06
伊斯兰革命后,伊朗为实现国家全面伊斯兰化,手段究竟有多激进?

伊斯兰革命后,伊朗为实现国家全面伊斯兰化,手段究竟有多激进?

近史谈
2026-04-27 09:05:49
越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

正观历史
2026-04-29 14:04:21
开拓者留不住!28岁内线再度打出身价,杨瀚森有望迎“上位”机会

开拓者留不住!28岁内线再度打出身价,杨瀚森有望迎“上位”机会

兵哥篮球故事
2026-04-29 17:20:20
车还在,厂没了,40 万哪吒车主的尴尬

车还在,厂没了,40 万哪吒车主的尴尬

科技狐
2026-04-26 22:54:06
老人从81岁到91岁还清2077万的债,96岁“诚信奶奶”陈金英回应:不过是守住了做人的底线

老人从81岁到91岁还清2077万的债,96岁“诚信奶奶”陈金英回应:不过是守住了做人的底线

九州新闻
2026-04-28 12:44:14
建议中老年人除了吃鸡蛋,还要常吃这5样,腿脚有劲,抵抗力强

建议中老年人除了吃鸡蛋,还要常吃这5样,腿脚有劲,抵抗力强

徐医生健康讲坛
2026-04-26 08:55:09
2026-04-29 21:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12891文章数 142640关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

游戏
教育
手机
时尚
军事航空

前巫师3总监新作 时限是剧情节点,之后仍可玩到通关

教育要闻

还得是青羊区啊!两年官宣6所新高中,个个来头不小

手机要闻

Google Pixel 11 系列曝光 Tensor G6 芯片规格首次泄露

除了“薄底鞋”,今年最流行这5双鞋,怎么搭都好看!

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版