网易首页 > 网易号 > 正文 申请入驻

ACM MM 2021 | VSAL:局部视频拷贝检测中的视频对齐和相似度学习

0
分享至

△「ICCV2021 群星闪耀·围炉夜话」 活动持续报名中 △

在本篇文章中,作者提出一种用于局部视频拷贝检测的视频对齐和相似度学习方法(Video Similarity and Alignment Learning on Partial Video Copy Detection)。旨在从给定的查询视频出发,在视频库中找到拷贝的视频并定位出拷贝发生的精确时间片段。VSAL通过自监督学习的方式,联合建模了空间相似度、时间相似度和视频局部对齐。从时空两个维度度量视频的相似度,解决了之前视频相似度过分依赖视频画面内容的问题;同时为了能够定位到局部拷贝片段,VSAL同时学习预测了一个方向图矩阵,通过该图的方向引导,可以方便灵活地进行视频局部对齐。该方法在VCDB核心数据集和自建数据集上均取得最优结果。

论文链接:

https://arxiv.org/pdf/2108.01817

项目地址:

https://pvcd-vsal.github.io/vsal/

一、任务介绍

为了解决视频版权保护的问题,视频级别的拷贝检测任务(Video-level Copy Detection,VCD)可以从大规模的视频数据库中通过相似度比对的方式找出对应的拷贝视频。但是在实际的视频版权保护任务中,视频抄袭的攻击模式多种多样,体现在空间上是大量的画面编辑,在时间上则是大量的片段剪辑拼接。因此局部视频拷贝检测任务(Partial Video Copy Detection,PVCD)[1]不仅要建立一种视频相似度的度量方法来区分有拷贝视频和无关视频,还要有能力定位拷贝片段的起止时间,如图1所示。

二、背景介绍

从相似度度量角度看,现有的方法基本上都基于视频关键帧的表征+时序对齐的方案,这些关键帧表征主要聚焦在视频帧的画面上,导致相似度度量是偏向于画面信息的。为了把各关键帧在时序上的连续性纳入度量范围,现有方法通常会增加一个时序对齐的几何验证,例如基于DP的方法、TN或者THV等。时序对齐会通过几何的方式校验匹配帧序列的时序匹配程度把错误匹配的帧过滤掉,然后将剩余匹配帧的相似度聚合在一起,得到视频级别相似度。虽然使用了额外的时序信息辅助校验,但是最终的视频相似度仍然是帧相似度的组合,并没有量化地体现出两个视频在时序上的相似度。例如两段不同新闻的口播视频,画面相似容易误匹配。

另外,目前有一些方法去学习视频本身时空结构的相似性,比如ViSiL[2],采用一种端到端的相似度聚合方案,直接学习去建模视频级别的相似度。但是ViSiL是一个黑盒模型,只能从各帧相似度得到视频相似度,并没有办法定位到拷贝片段,适用于并不适用于PVCD任务。

基于此,本文提出了一个视频相似度和视频对齐的学习方法(Video Similarity and Alignment Learning,VSAL),贡献点如下:

· 从帧对帧的空间相似度矩阵中,学习一个Mask Map(MM),作为时间维度的相似度度量,和空间相似度正交,可以合并成为时空相似度,从而避免最后的相似度度量过程偏向于空间信息的问题;

· 同样从空间相似度矩阵中,学习一个Step Map(SM),作为时序对齐片段定位的指示图,可以很容易地定位到拷贝片段。

三、方法介绍3.1 问题建模:

度量两个视频是否匹配,要从一下三个方面考虑,空间相似度 S , 时间相似度 T 和 局部对齐片段 P 。所以最后的视频的相似度可以建模为这三者的函数:

· 首先 SS 是两个视频各帧之间的相似度组成的矩阵。图3是一些可视化的矩阵:

· 另外,从图3可以看出,如果两个视频是匹配的,那么在它们的空间相似度矩阵上,经常会有一条或者多条匹配路径。要定位拷贝片段,就要准确的分离出这些匹配路径。这里定义 P 是两个视频之间的所有匹配路径。在VSAL中,我们会通过预测SM来得到它。 P 除了有之前提到的过滤错误匹配帧的作用,还可以根据它的长短来判断最后产出相似度的置信度。这里我们使用一个Soft Weight(SW)来度量这个置信度:

· 时间相似度 T 和空间相似度 S 一样,是一个同等大小的矩阵。但是 T 主要关注的是两个视频在时间序列上的对齐程度。如图3所示,除了矩阵元素的强度大小之外,在这些矩阵的模式上还表现着一种排列上的对齐程度。无论空间相似度的强度多高,如果不遵循一定的排列,时间相似度就应该很低。因此时间相似度和空间相似度是两种正交的相似度度量方法。VSAL通过学习MM来表征 T 。

· 得到上述三个部分之后,最终的相似度就可以表示为:

3.2 空间相似度度量

首先对各帧帧进行帧级别编码(FE)和序列级别的编码(SE),对于FE使用是预训练的CNN,SE使用的是Transformer编码器,最后使用余弦距离度量帧对帧的特征,因此这里空间相似度表示为:

3.3 Mask-Step CNN

3.3.1 模型结构

学习MM和SM使用的是一个两分支的CNN,由主干部分、Mask分支和Step分支组成,结构如表1:

3.3.2 模型训练

训练采用的是自监督的方式,首先对同一个无标签视频进行两种不同的随机空间和时间上的变换,得到数据增强之后的两条视频,他们互为同源视频。经过时间和空间变换之后,可以通过两条输出视频与原始视频的各帧对应关系得到Mask标签和Step标签,如图4:

这里,Mask分支学习的是矩阵上各个位置落在匹配路径上的概率;Step分支学习的是矩阵某个位置的下一步的前进方向。所以,Mask标签在匹配帧的位置为1,其余位置为0;Step标签的数值由当前位置的右下、右、下位置上的视频帧是否匹配决定,分别定义右下、右、下的标签为0、1、2.

最后对Mask和Step分支同时多任务学习,全局损失函数:

其中Mask损失:

Step损失:

取MM各位置的预测概率作为空间相似度,使用SM中的每个点的方向预测结果决定下一步运行方向是右、下或者右下,从而可以定位匹配片段。

3.4 时空相似度度量和对齐

得到MM和SM之后,按照相似度的大小选取片段的起点,并且定义片段的截止条件之后,很容易沿着SM的方向指示得到 PP。具体做法如算法1:

得到 P 之后,可以根据第3.1章中的公式得到最后视频相似度。

四、实验结果4.1 SOTA对比

使用无标数据训练,在公开的PVCD基准数据集VCDB core和我们在FIVR-200k数据集[3] 上补充片段级别的标注的FIVR-200k-PVCD数据集上进行实验。

可以看到VASL在VCDB core数据集上得到了最好的效果,说明了其在PVCD任务上的有效性。

4.2 销蚀实验

如表3所示,各模块对最终结果都有明显的提升:

· 加入SE有大约0.5%的提升;

· 加入SW有大约1%的提升;

· 提换HV为SM之后有4.5%的提升;

· 加入MM之后有4.6%的提升。

4.3 在FIVR-200k-PVCD上的实验

Baseline模型的F1-score相对于VCDB core数据集上有超过25%的下降,这体现了新数据集的难度。VSAL各个模块仍然表现出来和VCDB core数据集上相似的效果提升。

五、可视化分析

可以看到,SM对除最后一列和最后一行的每个位置都预测下一步的行动方向,如果路径的起点选对了,那么基本可以得到正确的对齐路径。MM清楚的表现出了对齐路径的分布。从图像上可以看出,时间相似度与空间相似度并没有直接的关系,有些地方的空间相似度虽然很高,但是空间相似度却比较低。这说明时间相似度表征的是与空间相似度正交的另外一部分信息。

六、结论

本文从将PVCD任务划分为空间、时间相似度和对齐片段来分别得到,在学习过程中联合建模,采用自监督的数据构造方式,得到了目前最好的效果。但是PVCD任务仍然没有被完全解决,难点在更细粒度的视频时间上的剪辑的场景,还有在时长较长的视频下的效率问题。

参考文献

[1] Partial copy detection in videos: A bench- mark and an evaluation of popular methods. TBD 2016.

[2] Visil: Fine-grained spatio-temporal video similarity learning. ICCV 2019.

[3] FIVR: Fine-grained Incident Video Retrieval. TMM 2019.

本文作者

韩振

阿里巴巴达摩院·高级算法工程师

韩振,现就职于阿里巴巴达摩院,2019年硕士毕业于西安交通大学电子与信息工程学院。研究方向包括多模态检索,音视频匹配与序列对齐,自监督学习等。相关工作发表在ACM MM等国际会议。

Illustrastion b y Anna Golde from Icons8

-The End-

怀念不如相见!

10.16晚18:00

将门-TechBeat将在上海与大家一起围炉夜话

ICCV线上线下嘉宾连线交流

分享AI道路上的故事集、经验贴

扫描下方二维码,即刻索票

还不知道本次活动详情?

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
站在战争的第五个年头:乌克兰的红线为何寸步不让

站在战争的第五个年头:乌克兰的红线为何寸步不让

民间胡扯老哥
2026-05-26 07:26:58
亚锦赛失利或埋下伏笔!这次借口是训练新人,伤病困扰还是饭圈?

亚锦赛失利或埋下伏笔!这次借口是训练新人,伤病困扰还是饭圈?

金毛爱女排
2026-05-26 08:41:23
印度极端高温,大量森林被砍伐是关键;我国藏南地区也被连累!

印度极端高温,大量森林被砍伐是关键;我国藏南地区也被连累!

全城探秘
2026-05-25 17:13:31
广州金融城民生之困:办公高大上,为何通勤堵吃饭难配套少?

广州金融城民生之困:办公高大上,为何通勤堵吃饭难配套少?

南方都市报
2026-05-25 23:20:11
夺冠+升世界第2!中国女网15岁天才新星闪耀:郑钦文接班人上线?

夺冠+升世界第2!中国女网15岁天才新星闪耀:郑钦文接班人上线?

李喜林篮球绝杀
2026-05-25 09:52:22
伊朗使用新武器

伊朗使用新武器

鲁中晨报
2026-05-26 09:06:47
预约爆满!上海每天至少3万户家庭在做这件事,但有人第一步就错了!

预约爆满!上海每天至少3万户家庭在做这件事,但有人第一步就错了!

上海女性
2026-05-25 11:30:09
中纪委怒批高校“四宗罪”,每一刀都切在要害上

中纪委怒批高校“四宗罪”,每一刀都切在要害上

细说职场
2026-05-24 15:32:38
严幼韵98岁确诊大肠癌,医生劝她手术,她叹了口气:还是安乐死吧

严幼韵98岁确诊大肠癌,医生劝她手术,她叹了口气:还是安乐死吧

兴趣知识
2026-05-20 00:27:29
涉嫌严重违纪违法,李绍谦被查

涉嫌严重违纪违法,李绍谦被查

都市快报橙柿互动
2026-05-25 19:36:49
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
湖南省永州市委原常委、秘书长唐能武接受纪律审查和监察调查

湖南省永州市委原常委、秘书长唐能武接受纪律审查和监察调查

环球网资讯
2026-05-26 09:20:38
天公不作美!比赛还没开打成都蓉城先遭两大暴击,取胜泰山队悬了

天公不作美!比赛还没开打成都蓉城先遭两大暴击,取胜泰山队悬了

零度眼看球
2026-05-26 06:48:32
“榛树”导弹打出去,俄罗斯更加没牌了

“榛树”导弹打出去,俄罗斯更加没牌了

山河路口
2026-05-24 19:54:50
广西女孩:被好莱坞裁员后,我在美国做出爆款短剧

广西女孩:被好莱坞裁员后,我在美国做出爆款短剧

澎湃新闻
2026-05-25 17:14:25
轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

健康科普365
2026-05-23 23:00:03
网友曝光杨梅园出现大量药瓶,扬言果农并不无辜,评论区炸锅

网友曝光杨梅园出现大量药瓶,扬言果农并不无辜,评论区炸锅

三农雷哥
2026-05-25 17:34:56
猪肉被检出抗生素超标 双汇发展控股子公司被监管部门通报

猪肉被检出抗生素超标 双汇发展控股子公司被监管部门通报

北青网-北京青年报
2026-05-26 09:24:10
为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

别让往昔的悲伤和对未来的恐惧
2026-05-13 16:03:22
外交部就中美元首会晤涉日本问题报道答记者问:你提到的内容与中方掌握情况不符

外交部就中美元首会晤涉日本问题报道答记者问:你提到的内容与中方掌握情况不符

澎湃新闻
2026-05-25 14:24:26
2026-05-26 10:47:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2389文章数 596关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

多所高校学者被举报涉嫌学术不端:论文数据荒诞粗糙

头条要闻

多所高校学者被举报涉嫌学术不端:论文数据荒诞粗糙

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

景甜被曝停工失联 富商索要2亿和解费

财经要闻

走近何庭波

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

教育
数码
房产
健康
公开课

教育要闻

热力值拉满!这所人附系学校的操作亮了

数码要闻

消息称苹果升级M6 MacBook Pro为主动均热板散热设计

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

几百块一瓶的外泌体精华,涂脸上是“智商税”吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版