网易首页 > 网易号 > 正文 申请入驻

ICCV2019 | 锁定视频中的目标:港大提出运动注意力检测方法

0
分享至

机器之心发布

作者:李灏峰

显著物体检测常作为计算机视觉与图形学应用的预处理步骤。 但目前只有面向图像的显著物体检测方法研究比较成熟,而面向视频的方法还有很大的研究空间。
为此,香港大学联合中山大学和深睿医疗人工智能实验室发布论文《Motion Guided Attention for Video Salient Object Detection》,提出了基于运动注意力的视频显著物体检测方法(MGA),比之前最好的算法在 DAVIS 和 FBMS 上分别提升了 4 个和 8 个百分点,该论文已被 ICCV2019 接收。


论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Li_Motion_Guided_Attention_for_Video_Salient_Object_Detection_ICCV_2019_paper.pdf

研究背景
显著物体检测问题要求对于每张图片或视频帧,预测一个二类别的像素级分割结果,用以表征图片中的显著或前景物体。 该问题常作为计算机视觉与图形学应用的预处理步骤。 随着深度学习技术的发展,面向图片的显著物体检测方法被广泛研究,而面向视频的显著物体检测有待进一步探索。

为了解决视频的显著物体检测,该论文作者有以下观察:

  • 其一,视频物体的显著性由其外观和运动共同决定,显著物体的运动往往也是显著的,显著运动的区域很可能是显著物体;


  • 其二,物体的运动蕴含空间连贯性信息,运动状态相似的相邻区域很可能同属于一个物体或者背景;


  • 其三,利用运动信息的空间连贯性,有助于分离物体和背景。背景外观可包含纹理不同的多个区域,而物体可包含内部边缘及不同外观的部件,这造成了分割的困难。而表征运动的光流图片相对「干净」(如图 1b),可更好地捕捉部分物体边界,成为分割显著物体的契机。

目前现有方法主要通过循环神经网络聚合多个视频帧的卷积特征,或者利用光流和变形来对齐不同帧的特征,而没有通过端到端学习来捕捉和利用光流中的显著运动。 作者提出一系列运动注意力模块,来建模显著运动如何结合外观信息来影响物体显著性。 作者还提出了一个双分支网络,用以放置上述注意力模块,来实现视频显著物体检测。

图 1。
运动引导的注意力机制
为了建模显著运动如何结合外观信息来影响物体显著性的,作者将外观信息抽象为三维的外观特征张量(可为某个 ReLU 隐层的输出),将显著运动抽象为二维的运动显著图(如某个 sigmoid 隐层的输出)或者三维的运动特征张量。 首先考虑最简单的情况,如何用一张二维的运动显著图来「关注」三维外观特征的重要位置。 一个直观的朴素模型是将运动显著图与外观特征逐位相乘,来加强外观特征中运动显著的区域的响应。 但这个朴素模型的缺点在于,运动显著图中的零元素会「抑制」外观特征中运动不显著或者静止的区域,从而导致物体分割不完整的情况出现。

为了解决朴素模型的缺点,作者提出模型一: 采用残差结构,将被加权后的外观特征与最初的外观特征逐位相加,补充回错误抑制的外观信息,使后续的神经网络层有机会勾勒出完整物体。 下面考虑如何利用三维运动特征来关注外观特征。 一个简单方案是模仿模型一,与外观特征逐位相乘相加,区别在于要先采用一个 1x1 卷积来对齐运动特征和外观特征的形状,这样得到模型二。
模型二可以看作是用一个三维权重同时实现空间和通道注意力的机制。 但由于运动特征来源于信息量较「稀疏」的光流图片,缺乏纹理信息和复杂语义,基于这样的特征对外观特征进行通道注意力,可能引入额外噪声或导致过拟合。 一个备选方案是运动特征仅用于空间注意力,即先用一个 1x1 卷积和 sigmoid 从运动特征预测出运动显著图,在进行类似模型一的操作,这样得到模型三。

图 2。
最后,基于模型二和三,考虑如何实现合理的通道注意力,作者提出了模型四。 模型四先用运动特征对外观特征进行空间注意力,「空间注意」后的外观特征经由全局平均池化得到一个一维向量,该向量可表征显著运动区域的外观特征。 由于物体的运动和静止部分有较一致的外观属性(如色彩、纹理、语义),那么基于上述运动区域的外观特征向量预测出的一维的通道注意力权重,可有效提高物体静止部分相应属性或通道的响应,从而有助于分割出完整物体。 模型四的末端保留残差结构,以避免零元素「抑制」的问题。

运动引导注意力网络(MGAnet)

图 3。
接下来,作者提出一个运动引导注意力网络(MGAnet),一方面用来提取前述外观特征、运动特征以及运动显著图,另一方面用来结合前面提出的一系列运动注意力模块,从而形成完整的视频显著物体检测方法。 MGAnet 是一个基于 DeepLab-V3+的双分支网络。 目前不少视频分割方法也采取双分支结构,但主要在各分支末端进行融合,而 MGAnet 采用多层次的、密集的方式连接两个分支。 MGAnet 包含一个以 RGB 图像为输入的外观分支,一个以光流可视化图片为输入的运动分支,以及连接两分支的 6 个注意力模块 MGA-{0-5}。 外观分支的编码器可为 ResNet-101 或 ResNet-50,运动分支的编码器可为 ResNet-34 或 ResNet-18,不同组合均可达到 SOTA 的性能。 MGA-{0-5} 可看作部署注意力模块的「槽」,其中 MGA-5 仅可采用模型一(运动信息是二维显著图),MGA-0 至 MGA-4 可采取模型二三四中的某一种,一般采用同一种。

实验结果
下文报告几个主要的实验。 第一个实验将 MGA 与现有的视频及图片的显著物体检测方法在三个数据集 DAVIS、FBMS 和 ViSal 上比较。 其中,ViSal 中并没有划分出训练集供模型训练,能较好地反映模型的泛化能力。 与 6 个视频模型和 11 个图片模型相比,MGA 在三个数据集上均表现最优,分别获得 4 个、8 个、1 个百分点的 MaxF 的领先。

表 1。
第二个实验验证网络结构的有效性。 作者尝试单独地训练、测试单个分支,其中独立的外观分支等价于语义分割中的 SOTA 模型 DeepLab-V3+; 作者还尝试仅保留编码器部分(MGA-E)或者解码器部分(MGA-D)的注意力模块。 实验结果显示,双分支结构有效利用了运动信息,优于任一单分支网络。 注意力模块部署在编码器端或解码器端,均能起到效果,同时部署在编码器和解码器端可获得最佳性能。
第三个实验验证四个运动注意力模块的有效性。 三种朴素的特征融合方法,包括逐位相乘、逐位相加和沿通道拼接(concatenate),被作为基线方法。 表 3 中,「E-」表示部署在编码器端,「D-」表示部署在解码器端。 实验结果显示,四种注意力模块均优于基线方法。 其中,较复杂的模型四(MGA-tmc)略优于模型二(MGA-t)和模型三(MGA-tm)。

表 2。

表 3。
总的来说,作者利用运动的空间连贯性,采用注意力机制来建模运动对物体显著性的影响,提出了一个简单但准确率高的双分支网络。 与基于循环神经网络的方法不同,该方法利用一个极小时间窗内的时序上下文(即与相邻帧的光流),取得了 SOTA 的性能。 本文是对原文主要方法和实验的解读,更多细节请参见原文。

文为机器之心发布,转载请联系本公众号获得授权
------------------------------------------------加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com投稿或寻求报道:content@jiqizhixin.combd@jiqizhixin.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
53岁董卿消失后首度曝光!菜场买菜、接娃放学,每月工资5600元

53岁董卿消失后首度曝光!菜场买菜、接娃放学,每月工资5600元

陈意小可爱
2026-05-04 14:31:15
骑士12连胜被终结!“哈基米”45分成唯一荣光 活塞6人上双打嗨了

骑士12连胜被终结!“哈基米”45分成唯一荣光 活塞6人上双打嗨了

枪炮篮球 PiU
2026-05-06 09:59:02
挖出戴手铐的女遗骨,鉴定后确定,她就是中央苦苦寻找的人!

挖出戴手铐的女遗骨,鉴定后确定,她就是中央苦苦寻找的人!

小莜读史
2026-05-04 00:01:32
大师靠“美国崩溃论”卷走百亿,跑路美国后,痛骂中国人

大师靠“美国崩溃论”卷走百亿,跑路美国后,痛骂中国人

谈史论天地
2026-04-25 11:00:08
赢百万奖金后,吴宜泽坦白夺冠最大功臣,原来他和丁俊晖是一路人

赢百万奖金后,吴宜泽坦白夺冠最大功臣,原来他和丁俊晖是一路人

观察鉴娱
2026-05-06 10:19:32
美国商务部长在国会,当着所有人的面,火气直接顶了上来:为什么中国连一块我们的芯片都不买了?

美国商务部长在国会,当着所有人的面,火气直接顶了上来:为什么中国连一块我们的芯片都不买了?

打破砂锅看本质
2026-04-29 19:10:24
为何高端车都用增程!不用插电混动?内行人道破,明白了!

为何高端车都用增程!不用插电混动?内行人道破,明白了!

蓝色海边
2026-05-06 09:36:50
晚年毛主席向唐闻生秘密托付:我死后听周总理的!让基辛格惊叹能当总统的她到底凭啥?

晚年毛主席向唐闻生秘密托付:我死后听周总理的!让基辛格惊叹能当总统的她到底凭啥?

历史回忆室
2026-05-05 18:11:08
97年我对女老师说我喜欢她,她红着脸说:考上重点大学我就嫁给你

97年我对女老师说我喜欢她,她红着脸说:考上重点大学我就嫁给你

千秋文化
2026-05-02 19:36:54
上千吨香蕉烂在手里,菲律宾香蕉协会:中国断了30万蕉农的生计!

上千吨香蕉烂在手里,菲律宾香蕉协会:中国断了30万蕉农的生计!

楠楠自语
2026-05-05 21:48:09
郭冬临现状:住北京老房子,身形消瘦、脸颊凹陷,59岁无儿无女!

郭冬临现状:住北京老房子,身形消瘦、脸颊凹陷,59岁无儿无女!

往史过眼云烟
2026-04-20 09:55:43
冼恒汉按正军职离休,被留党察看两年,他认为上级对自己处理草率

冼恒汉按正军职离休,被留党察看两年,他认为上级对自己处理草率

翠羽
2026-05-05 10:15:09
公开认罪后,人民日报对许家印称呼变了,11字之差释放信号不一般

公开认罪后,人民日报对许家印称呼变了,11字之差释放信号不一般

历史人文2
2026-04-17 19:29:02
南京站百米行李箱火了!大学生拒花几十元寄存,民警举动太暖心

南京站百米行李箱火了!大学生拒花几十元寄存,民警举动太暖心

行者聊官
2026-05-05 15:41:38
为什么劝中年男人“衣不穿T恤、裤不穿运动”?看46岁霍启刚就懂

为什么劝中年男人“衣不穿T恤、裤不穿运动”?看46岁霍启刚就懂

黔乡小姊妹
2026-05-06 08:17:29
比土木还崩的专业,从年薪20万跌到月薪2500,毕业即转行!

比土木还崩的专业,从年薪20万跌到月薪2500,毕业即转行!

灯锦年
2026-04-23 19:35:21
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
惊艳全国!深圳大学生又火上央视了

惊艳全国!深圳大学生又火上央视了

深圳晚报
2026-05-05 16:56:58
河南驻马店一女神好漂亮, 国色天姿,眉眼带笑 ,美的让人移不开眼

河南驻马店一女神好漂亮, 国色天姿,眉眼带笑 ,美的让人移不开眼

辉哥说动漫
2026-05-06 09:42:50
经纪人:卢卡库先和球队一起训练,然后孔蒂会决定如何使用他

经纪人:卢卡库先和球队一起训练,然后孔蒂会决定如何使用他

懂球帝
2026-05-06 10:10:08
2026-05-06 10:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12919文章数 142643关注度
往期回顾 全部

科技要闻

告别废话文学与幻觉!GPT-5.5 Instant发布

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

70亿,保时捷把布加迪卖了

汽车要闻

吉利原生新能源越野架构亮相 AI如何带来极致越野

态度原创

艺术
手机
本地
房产
公开课

艺术要闻

江青邓颖超等四位女性罕见合影,书法风格各异引关注!

手机要闻

Q1全球十大畅销机型出炉,苹果+三星赢麻了

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版