TPAMI 2021｜VideoDG：首个视频领域泛化模型|鲁棒性|算法|时域|尺度

TPAMI 2021｜VideoDG：首个视频领域泛化模型

2022-01-24 13:59:43　来源: 将门创投举报

分享至

传统的机器学习一般假设源领域(source domain)和目标领域(target domain)的数据分布符合独立同分布i.i.d假设。然而实际中，源领域和目标领域往往存在领域偏移(domain shift)，即会有分布外Out of Distribution(OOD)情景出现。领域泛化(Domain Generalization)旨在仅通过使用源领域数据进行模型学习来实现在不可见的目标领域的OOD泛化。

领域泛化的研究已经经历了十年的发展，涵盖了各种图像应用，例如图像识别，图像分割等。然而对于视频方面的应用，比如视频动作识别，领域泛化却鲜有涉及。本文致力于探究视频领域泛化(video domain generalization)在动作识别问题中的应用，我们认为训练更具泛化性的动作识别模型对解决视频领域泛化问题至关重要。比如，不同的人执行相同的动作在不同的场景下，模型往往可能无法识别一个执行在新的环境的旧动作。

论文： VideoDG: Generalizing Temporal Relations in Videos to Novel Domains。作者：姚治宇*，王韫博*，王建民，俞士纶，龙明盛链接：https://arxiv.org/abs/1912.03716 代码：https://github.com/thuml/VideoDG

一、引言

在本文中，我们首先发现以前模型之所以视频领域泛化能力较差，是因为当泛化到目标领域时，目标时空数据同时存在着空域偏移(spatial domain shift)和时域偏移(temporal domain shift)。空域偏移是由于视频帧的静态特征的变化引起的，如图4所示，相同人做的动作在不同的视角下静态特征是完全不同的。以往的图像域泛化方法可以部分解决这一问题，比如对抗性自适应数据增强方法ADA。不同于图像之间只共享静态物体特征，时空序列之间会共享同一类型的局部时空运动特征，时域偏移往往由于局部时空运动在未知目标领域的意外缺失或错位而产生。如图1所示，运球上篮与踢足球共享“跑步”这一局部运动。

我们的分析表明局部时空运动更具备迁移性，而能够刻画物体运动的整体趋势的全局时空运动更具备判别性(见图1)。克服时域偏移的关键是如何防止提取的局部时空运动特征在目标领域的错误泛化。本文提出首个旨在解决视频OOD问题的泛化基础架构VideoDG，核心思想是利用全局关系特征来指导局部运动的泛化，并动态地找到与全局关系特征高度相关的事件。VideoDG的核心贡献主要是两个方面：

· VideoDG通过对抗性金字塔网络(APN)在不同的时间尺度上校准局部时空运动关系和全局运动关系特征，利用全局时空运动防止局部时空泛化到错误的方向，兼顾了迁移性与判别性。

· VideoDG引入了配套的鲁棒时空金字塔对抗数据增强方法(RADA)训练算法，使用局部时空运动生成对抗样本来增强源领域并提高了APN对由关系特征衍生的不同时空对抗样本的鲁棒性。

图1. 视频领域泛化问题的求解依赖于局部时空运动关系的正确对齐，而局部时空运动关系可以被具有较长时间分辨性的全局时空运动关系所引导。
二、VideoDG：视频领域泛化

VideoDG将APN和RADA紧密结合在一个统一框架中。

对抗性金字塔网络(APN)

APN使用多尺度时间关系的想法最初是受TRN(Temporal Relation Network)启发，但与时空关系网络TRN不同的是，我们创新性地提出了一个基于transformer block的关系特征金字塔网络，逐步学习不同时间尺度上的局部和相互关系特征，这对于缓解时域偏移(即局部动作的缺失或错位)至关重要。金字塔网络的另一个好处是，它可以通过平衡新数据点的多样性和代表性，极大地促进domain augmentation的过程。

对抗性金字塔网络APN能够学习关系特征的金字塔。在生成时空金字塔对抗性样本的过程中，每一层特征都可能扮演不同的角色:

· 提取的是局部动作关系特征关注的是泛化性而不是判别性，这可以增强获得时空特征的多样性;

· 在交互关系注意力机制(cross-attention)的帮助下，自适应关注类别特定的局部动作关系，可用于扩展生成的时空数据分布;

· 直接捕捉了更具判别全局时空关系特征与分类器和RADA算法的判别长期关系可用于分类与执行RADA算法。

图2. VideoDG架构概述，它首先使用APN模型逐步提取局部关系、全局关系和多层相互关系特征。然后利用交互关系特征生成时空对抗样本，在可泛化性和可判别性之间进行折衷。VideoDG试图从表征学习和数据增强两方面缓解时域偏移。

算法1. VideoDG整体算法。鲁棒时空金字塔对抗数据增强方法(RADA)

对抗性自适应数据增强方法Adaptive Domain Augmentation(ADA)是一种常用的领域泛化方法，通过生成自适应的对抗性样本来增强训练集使得模型更具备泛化性。ADA需要增加足够多样化的数据点，以尽可能的覆盖目标领域。与此同时，ADA控制生成的数据的分布不过分远离源领域。

然而，ADA方法没有考虑视频领域泛化的具体挑战，即时域偏移。我们提出了一种全新的与APN紧密适配的鲁棒时空金字塔对抗数据增强方法RADA。RADA继承了ADA的理论分析，并利用APN生成的多层次的时序关系特征生成时空金字塔对抗样本充分考虑了局部时空关系和全局时空关系的联系，更好的解决了时域偏移的问题，算法详情可见论文。如算法1所示，RADA包括两个训练过程：

·maximization阶段：利用上述多级时空金字塔关系特征生成对抗样本，控制经过扩展的源域的分布。

·minimization阶段：具有鲁棒性正则化的分类误差最小化阶段，允许可泛化特征的学习不受过度发散的新数据点的影响。我们将下式中的目标函数应用于金字塔II级和III级的交互关系特征。我们认为通过增强时空特征对来自不同金字塔层次的对抗样本的鲁棒性，可以提高APN的泛化性。

三、实验

在本节中，我们构建了三个不同的视频域泛化数据集，并使用它们来验证VideoDG的有效性。在UCF-HMDB数据集上，根据不同的数据集划分源域和目标域。在多视图NTU数据集测试中，域根据不同的摄像机视图自然划分。在Something-Something数据集中，域是根据动作和视频事件的不同结果划分的，如做某事和假装做某事。我们的VideoDG框架在这三种不同的benchmark下均取得了SOTA的效果，很好的解决了视频领域泛化的问题。

图3. 不同金字塔层次的对抗样本的可视化以及相应的VideoDG分类结果

图4. 跨视角数据集上的样例。

图5. 跨时间数据集上的实验样例。

四、总结

本文提出了一个新的视频领域泛化问题video domain generalization，即在一个时空源领域上训练模型，并在不同的不可见时空目标领域上进行测试。由于空域偏移和时域偏移的存在，我们发现大多数视频动作识别网络在OOD情况下表现不佳。我们提出了一种名为VideoDG的新方法，有两个贡献。第一个是新的对抗性金字塔网络APN，它在不同的金字塔层次上逐步学习具有可泛化性和可判别性的视频表示。然后我们利用特征金字塔生成时空对抗样本，从而得到鲁棒对抗域增广算法RADA。我们构建了3个具有不同视频领域泛化的数据集，并验证了VideoDG在所有数据集上的有效性。

本文来自：公众号【THUML】作者：姚治宇

Illustrastion by Юлия Давлетгареева from icons8

-The End-

扫码观看！

本周上新！

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.