网易首页 > 网易号 > 正文 申请入驻

TPAMI 2021|VideoDG:首个视频领域泛化模型

0
分享至

传统的机器学习一般假设源领域(source domain)和目标领域(target domain)的数据分布符合独立同分布i.i.d假设。然而实际中,源领域和目标领域往往存在领域偏移(domain shift),即会有分布外Out of Distribution(OOD)情景出现。领域泛化(Domain Generalization)旨在仅通过使用源领域数据进行模型学习来实现在不可见的目标领域的OOD泛化。

领域泛化的研究已经经历了十年的发展,涵盖了各种图像应用,例如图像识别,图像分割等。然而对于视频方面的应用,比如视频动作识别,领域泛化却鲜有涉及。本文致力于探究视频领域泛化(video domain generalization)在动作识别问题中的应用,我们认为训练更具泛化性的动作识别模型对解决视频领域泛化问题至关重要。比如,不同的人执行相同的动作在不同的场景下,模型往往可能无法识别一个执行在新的环境的旧动作。

论文: VideoDG: Generalizing Temporal Relations in Videos to Novel Domains。 作者:姚治宇*,王韫博*,王建民,俞士纶,龙明盛 链接:https://arxiv.org/abs/1912.03716 代码:https://github.com/thuml/VideoDG

一、引言

在本文中,我们首先发现以前模型之所以视频领域泛化能力较差,是因为当泛化到目标领域时,目标时空数据同时存在着空域偏移(spatial domain shift)和时域偏移(temporal domain shift)。空域偏移是由于视频帧的静态特征的变化引起的,如图4所示,相同人做的动作在不同的视角下静态特征是完全不同的。以往的图像域泛化方法可以部分解决这一问题,比如对抗性自适应数据增强方法ADA。不同于图像之间只共享静态物体特征,时空序列之间会共享同一类型的局部时空运动特征,时域偏移往往由于局部时空运动在未知目标领域的意外缺失或错位而产生。如图1所示,运球上篮与踢足球共享“跑步”这一局部运动。

我们的分析表明局部时空运动更具备迁移性,而能够刻画物体运动的整体趋势的全局时空运动更具备判别性(见图1)。克服时域偏移的关键是如何防止提取的局部时空运动特征在目标领域的错误泛化。本文提出首个旨在解决视频OOD问题的泛化基础架构VideoDG,核心思想是利用全局关系特征来指导局部运动的泛化,并动态地找到与全局关系特征高度相关的事件。VideoDG的核心贡献主要是两个方面:

· VideoDG通过对抗性金字塔网络(APN)在不同的时间尺度上校准局部时空运动关系和全局运动关系特征,利用全局时空运动防止局部时空泛化到错误的方向,兼顾了迁移性与判别性。

· VideoDG引入了配套的鲁棒时空金字塔对抗数据增强方法(RADA)训练算法,使用局部时空运动生成对抗样本来增强源领域并提高了APN对由关系特征衍生的不同时空对抗样本的鲁棒性。

图1. 视频领域泛化问题的求解依赖于局部时空运动关系的正确对齐,而局部时空运动关系可以被具有较长时间分辨性的全局时空运动关系所引导。
二、VideoDG:视频领域泛化

VideoDG将APN和RADA紧密结合在一个统一框架中。

对抗性金字塔网络(APN)

APN使用多尺度时间关系的想法最初是受TRN(Temporal Relation Network)启发,但与时空关系网络TRN不同的是,我们创新性地提出了一个基于transformer block的关系特征金字塔网络,逐步学习不同时间尺度上的局部和相互关系特征,这对于缓解时域偏移(即局部动作的缺失或错位)至关重要。金字塔网络的另一个好处是,它可以通过平衡新数据点的多样性和代表性,极大地促进domain augmentation的过程。

对抗性金字塔网络APN能够学习关系特征的金字塔。在生成时空金字塔对抗性样本的过程中,每一层特征都可能扮演不同的角色:

· 提取的是局部动作关系特征关注的是泛化性而不是判别性,这可以增强获得时空特征的多样性;

· 在交互关系注意力机制(cross-attention)的帮助下,自适应关注类别特定的局部动作关系,可用于扩展生成的时空数据分布;

· 直接捕捉了更具判别全局时空关系特征与分类器和RADA算法的判别长期关系可用于分类与执行RADA算法。

图2. VideoDG架构概述,它首先使用APN模型逐步提取局部关系、全局关系和多层相互关系特征。然后利用交互关系特征生成时空对抗样本,在可泛化性和可判别性之间进行折衷。VideoDG试图从表征学习和数据增强两方面缓解时域偏移。

算法1. VideoDG整体算法。鲁棒时空金字塔对抗数据增强方法(RADA)

对抗性自适应数据增强方法Adaptive Domain Augmentation(ADA)是一种常用的领域泛化方法,通过生成自适应的对抗性样本来增强训练集使得模型更具备泛化性。ADA需要增加足够多样化的数据点,以尽可能的覆盖目标领域。与此同时,ADA控制生成的数据的分布不过分远离源领域。

然而,ADA方法没有考虑视频领域泛化的具体挑战,即时域偏移。我们提出了一种全新的与APN紧密适配的鲁棒时空金字塔对抗数据增强方法RADA。RADA继承了ADA的理论分析,并利用APN生成的多层次的时序关系特征生成时空金字塔对抗样本充分考虑了局部时空关系和全局时空关系的联系,更好的解决了时域偏移的问题,算法详情可见论文。如算法1所示,RADA包括两个训练过程:

·maximization阶段:利用上述多级时空金字塔关系特征生成对抗样本,控制经过扩展的源域的分布。

·minimization阶段:具有鲁棒性正则化的分类误差最小化阶段,允许可泛化特征的学习不受过度发散的新数据点的影响。我们将下式中的目标函数应用于金字塔II级和III级的交互关系特征。我们认为通过增强时空特征对来自不同金字塔层次的对抗样本的鲁棒性,可以提高APN的泛化性。


三、实验

在本节中,我们构建了三个不同的视频域泛化数据集,并使用它们来验证VideoDG的有效性。在UCF-HMDB数据集上,根据不同的数据集划分源域和目标域。在多视图NTU数据集测试中,域根据不同的摄像机视图自然划分。在Something-Something数据集中,域是根据动作和视频事件的不同结果划分的,如做某事和假装做某事。我们的VideoDG框架在这三种不同的benchmark下均取得了SOTA的效果,很好的解决了视频领域泛化的问题。

图3. 不同金字塔层次的对抗样本的可视化以及相应的VideoDG分类结果

图4. 跨视角数据集上的样例。

图5. 跨时间数据集上的实验样例。

四、总结

本文提出了一个新的视频领域泛化问题video domain generalization,即在一个时空源领域上训练模型,并在不同的不可见时空目标领域上进行测试。由于空域偏移和时域偏移的存在,我们发现大多数视频动作识别网络在OOD情况下表现不佳。我们提出了一种名为VideoDG的新方法,有两个贡献。第一个是新的对抗性金字塔网络APN,它在不同的金字塔层次上逐步学习具有可泛化性和可判别性的视频表示。然后我们利用特征金字塔生成时空对抗样本,从而得到鲁棒对抗域增广算法RADA。我们构建了3个具有不同视频领域泛化的数据集,并验证了VideoDG在所有数据集上的有效性。

本文来自:公众号【THUML】 作者:姚治宇

Illustrastion by Юлия Давлетгареева from icons8

-The End-

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
川媒:凤凰山将增设顶层看台和优化布局,扩容后超58000座

川媒:凤凰山将增设顶层看台和优化布局,扩容后超58000座

懂球帝
2026-07-03 23:25:13
凌晨1点,72岁濮存昕用一根布绳,将自己和94岁老母狠狠绑在一起

凌晨1点,72岁濮存昕用一根布绳,将自己和94岁老母狠狠绑在一起

小椰的奶奶
2026-06-15 07:39:15
少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

人生录
2026-07-02 16:19:01
安切洛蒂:足坛唯一更有资格给我建议的,恐怕只有弗格森

安切洛蒂:足坛唯一更有资格给我建议的,恐怕只有弗格森

夕落秋山
2026-07-04 00:47:00
84年妻子离世,丈母娘让我娶了妻姐,新婚当天我才知道妻姐身份

84年妻子离世,丈母娘让我娶了妻姐,新婚当天我才知道妻姐身份

兰姐说故事
2025-01-31 13:05:03
人过80岁,哪怕身体再健康,也要记住这四句话,晚年远离病痛

人过80岁,哪怕身体再健康,也要记住这四句话,晚年远离病痛

观星赏月
2026-07-03 12:03:48
B组乱麻了!中国台北19分大逆转韩国保留晋级希望 下一战中国男篮

B组乱麻了!中国台北19分大逆转韩国保留晋级希望 下一战中国男篮

狼叔评论
2026-07-03 20:50:26
奥运冠军庄晓岩曝丑闻:辽足训练中心教练刘某学,睡队员家长

奥运冠军庄晓岩曝丑闻:辽足训练中心教练刘某学,睡队员家长

南海浪花
2026-07-02 19:00:39
确认了!江苏将新建一座超大型机场

确认了!江苏将新建一座超大型机场

中吴网
2026-07-02 21:29:44
生育率跌破1.01!比日本还低,中国人为啥再也不愿生孩子了?

生育率跌破1.01!比日本还低,中国人为啥再也不愿生孩子了?

誮惜颜a
2026-07-02 06:37:56
中国电网负债3万亿,外媒称百年难回本

中国电网负债3万亿,外媒称百年难回本

梦想的现实
2026-07-01 01:11:56
中国高规格出席哈梅内伊葬礼

中国高规格出席哈梅内伊葬礼

凤眼论
2026-07-03 11:22:54
世界杯淘汰赛预测:阿根廷2-0佛得角,哥伦比亚2-1加纳,埃及1-1

世界杯淘汰赛预测:阿根廷2-0佛得角,哥伦比亚2-1加纳,埃及1-1

宝哥精彩赛事
2026-07-03 12:58:51
三大致命短板输球!该带赵睿张镇麟,郭士强一句话是心气都没了

三大致命短板输球!该带赵睿张镇麟,郭士强一句话是心气都没了

老吴说体育
2026-07-04 00:02:25
大跌眼镜!法网四强三人集体温网早早出局

大跌眼镜!法网四强三人集体温网早早出局

网球之家
2026-07-03 22:44:48
心理学上说:一个人如果妙语连珠、善于接话、从不冷场,这并不是沟通能力强。真正的沟通能力强,是这个人坐在对面,能无限做这两件事

心理学上说:一个人如果妙语连珠、善于接话、从不冷场,这并不是沟通能力强。真正的沟通能力强,是这个人坐在对面,能无限做这两件事

心理观察局
2026-07-01 07:16:08
腰斩又续上?巴莱巴只想去曼联 7000万镑的僵局终于松动了

腰斩又续上?巴莱巴只想去曼联 7000万镑的僵局终于松动了

坠入温柔晚风
2026-07-04 01:32:27
60年代,冯巩在幼儿园的照片,人家这长相,小时候都不怕丢

60年代,冯巩在幼儿园的照片,人家这长相,小时候都不怕丢

喜文多见01
2026-05-10 07:00:29
曝东契奇对湖人休赛期操作兴奋

曝东契奇对湖人休赛期操作兴奋

快乐加载中21
2026-07-04 01:51:44
马丁内斯将带葡萄牙战西班牙,世界杯史上无教练“叛变”成功先例

马丁内斯将带葡萄牙战西班牙,世界杯史上无教练“叛变”成功先例

懂球帝
2026-07-03 13:40:09
2026-07-04 05:15:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2423文章数 596关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
手机
亲子
教育
公开课

艺术要闻

OPPO研发总部地块易主,山子高科“双O”新方案曝光!

手机要闻

手机涨价潮来袭!6大品牌涨价风险逐一盘点

亲子要闻

《孩要来香港》 EP04 打包孩子最好的暑假礼物,陈牧歌这次要帮姐姐陈子鸢和妈妈完成心愿,这趟有爱之旅,最后会收获什么礼物?

教育要闻

广东19市中考作文题最像高考,你会写吗?范文来喽!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版