网易首页 > 网易号 > 正文 申请入驻

分享 | 无帧遗落:全视频行为识别

0
分享至

行为识别方法:目前在深度学习领域中对视频移动信息识别的方法主要有光流法、3D卷积、深度循环神经网络和2D卷积+3D卷积的方法。帧采样:若输入视频的所有帧会使得计算和存储消耗非常高,故而要对帧进行采样。常见的采样方法有均匀采样、自适应采样、剪辑采样(剪辑视频最重要的部分)和批量随机丢弃。时间池化:3D卷积的方法通常是在时间维度做平均池化,双流法通常是把空间特征和时间特征融合在一起。高效反向传递:模型训练三分之二的时间和存储都用于梯度反传,目前大部分工作都关注于梯度近似的方法。

问题提出

目前的视频行为识别方法都是粗糙地对视频帧进行下采样,之所以这么做是因为使用所有帧在计算上几乎是不可能的,然而下采样可能会导致关键信息丢失。 如下图,两次采样结果在第 三帧有所差异 ,上排第三帧存在两个行为: 打鸡蛋和做鸡蛋饼,而下排第三帧丢失了做鸡蛋饼的行为。 故而,这篇论文提出要学习视频所有帧的信息并且降低计算和存储的开销。

解决方案

本文使用的是TSM模型(Temporal shift module for efficient video understanding),且在此基础上做出改进,提出了时间聚类和融合(Temporal clustering and aggregation)。 对于一段视频(n=1)具有t帧,先把其投入到两个卷积块提取一些基本特征,再使用ReLU激活输出得到0~1之间的数,后使用符号函数(sign)将所有激活数二元化,这样可以计算汉明距离表示帧与帧之间的相似度,根据相似度将t帧聚类为g个组,每个组的帧叠加在一起表示为一个融合帧,再输入到之后的卷积块中提取特征。 这样一来帧的数量大大减少了,由于帧融合也没有丢失关键信息。

模型方法

梯度近似和误差估计

想在训练的时候让模型看到视频所有的帧,就要将帧激活数按组融合以减少计算和存储开销。 出于这个目的,我们要计算一个梯度值而这个梯度值与分组所有帧的梯度和近似。 故而我们假设所有临近的帧都是极其相似的,这样它们通过卷积块输出的激活数也是高度相似的,就可以一致更新。 设相似帧近似于线性相关,那么原来标准的梯度计算可以变换为如下:

左边的式子表示的意思是,分别用各个样本的激活数产生的损失对权重求偏导后累加梯度值。这是标准的梯度计算方法,如果一次输入有N个样本就要分别要计算N次梯度,开销大。右边的式子表示的意思是,先对所有样本的激活数累后加产生的损失对权重求偏导得到一个梯度值。这种方法只计算一次梯度,开销小。所谓梯度近似,就是想利用右边的梯度近似左边的梯度。然而,这个等式成立的条件是激活函数和损失函数是线性的,通常情况下我们使用的是近似线性的,所以会产生误差,故有必要研究一下这个误差:

这个误差不等式是经过严密的数学推导而来,论文中有详细的推导过程,这里不再赘述。从上可以看出,两种梯度计算方式的误差是由帧激活数的差异和其Softmax( 是softmax函数)结果决定的。若两帧的激活数越相似,误差越小。

总结: 这一块提供数学证明解释为什么要将相似的帧聚合在一起。因为相似的帧会产生相似的激活数,从而使得梯度近似误差很小,这样一来我们就可以用计算一次和的梯度去替代计算多次梯度的和。

时间聚类和融合

当一段视频所有帧通过卷积块输出多个特征图(激活数)时,通过符号函数将其二元化,即负数置0、正数置1。然后,计算帧间的汉明距离作为相似度用于聚类。汉明距离的计算方法是对应位置做异或后统计一的个数。由于二元化后的0表示负数、1表示正数,计算汉明距离就相当于统计两个特征图中符号不一致的数值个数。合理性在于,网络采用的激活函数是ReLU,当两个特征图的符号一致时ReLU函数相当于线性激活函数,这样才满足上一节提出的等式。统计两个特征图中符号不一致的数值个数,把这个作为相似度用于聚类的本质是:想将相似的帧且是线性相关的帧尽量聚合在一起。

这篇文章采用了两种聚类方式:累积聚类(Cumulative Clustering)和 坡度聚类(Slope Clustering)。累积聚类就是把一段视频所有帧间汉明距离累加在一起,再均分为g段,那么帧i所在的组为 ,即第i帧和第i+1帧激活的汉明距离除以总的汉明距离乘以g再向上取整。坡度聚类的分类边界是汉明距离上升最快的地方,也就是斜率最大的地方作为帧分界出。下图给出了两种聚类方式的示意:

最后,将属于一组的帧激活(特征图)叠加在一起完成时间融合(Temporal Aggregation)。

实验

数据集

名称

描述

下载地址

Something-Something V1 & V2

V1包含86K个训练视频和11K个验证视频,共有174个动作分类。
V2在V1的基础上将视频扩大到220K

https://pan.baidu.com/share/init?surl=NCqL7JVoFZO6D131zGls-

A提取码:07ka

UCF-101

包含13320个视频,共101动作类别

https://link.zhihu.com/?target=https%3A//www.crcv.ucf.edu/data/UCF101/UCF101.rar

HMDB51

包含6766个视频,共51个动作分类

https://link.zhihu.com/?target=https%3A//serre-lab.clps.brown.edu/wp-content/uploads/2013/10/hmdb51_org.rar

Breakfast

包含1712视频共10个类别,都是做早餐的视频。

https://link.zhihu.com/?target=https%3A//serre-lab.clps.brown.edu/resource/breakfast-actions-dataset/

分析实验

帧越多越好?

这个实验说明,确实是模型看到的帧越多效果越好。相比之下,单独使用TSM模型比这篇论文采用的聚类融合的方法计算开销(FLOPs)和存储开销都大得多,体现了这个方法的"计算上可行"。另外,可以看出分组16个比8个好,可能是因为粒度越小误差越小。

相似的帧有相似的梯度?

可以总结出,帧激活和与梯度之间的关系接近线性相关,所以帧激活是相似的话,梯度值也是相似的。

聚类方法

累加聚类效果最好,平均分组效果最差,因为累加聚类更能将相似地帧放在一起。下图是一个可视化结果说明累加聚类的聚类边界更合理。

总结

这篇论文沿用TSM模型,在模型上并没有什么创新。其主要贡献是提供了一种高效学习视频所有帧的方法,并在数学层面和实验层面分析了其可行性,可以说同时解决了视频理解领域的计算难和信息丢失的问题。

来源:知乎

作者:Jender

深延科技|

深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

寰球经纬所
2026-05-10 10:55:10
字母哥最想去的球队最终会成为他的落脚地 新球队还要能续签长约

字母哥最想去的球队最终会成为他的落脚地 新球队还要能续签长约

仰卧撑FTUer
2026-05-12 10:11:11
骑士半场落后活塞4分:哈登15+6米切尔8中1 勒维尔17分爆发

骑士半场落后活塞4分:哈登15+6米切尔8中1 勒维尔17分爆发

醉卧浮生
2026-05-12 09:15:23
张本美和不再沉默!说出全日本不想承认的事实:孙颖莎没任何弱点

张本美和不再沉默!说出全日本不想承认的事实:孙颖莎没任何弱点

老黯谈娱
2026-05-12 01:34:24
东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

背包旅行
2026-05-11 14:51:09
给懂王整点震撼的见面礼

给懂王整点震撼的见面礼

美第奇效应
2026-05-11 18:58:50
拉赫蒙抵达北京

拉赫蒙抵达北京

环球时报国际
2026-05-11 23:44:22
大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

千秋文化
2026-05-09 20:08:48
固执!湖人首发出炉,雷迪克一条道走到黑,表明态度,想赢雷霆难

固执!湖人首发出炉,雷迪克一条道走到黑,表明态度,想赢雷霆难

萌兰聊个球
2026-05-12 09:31:57
颠覆认知!最新研究:每周一次性生活,男性癌症风险降低69%?

颠覆认知!最新研究:每周一次性生活,男性癌症风险降低69%?

果壳
2026-05-11 15:39:46
私吞别人家产,并霸占人家二姨太,上海军代表乐得逍遥,终被枪决

私吞别人家产,并霸占人家二姨太,上海军代表乐得逍遥,终被枪决

真实异闻
2024-10-08 21:47:41
61岁何智丽现状:从日本回老家上海,与老友聚餐,面色红润没发福

61岁何智丽现状:从日本回老家上海,与老友聚餐,面色红润没发福

以茶带书
2026-04-14 14:09:22
当你接触的人多了就会发现:那些脸色差、身体虚、气场弱的人,往往不是太累了,而是精神内耗把自己耗干了

当你接触的人多了就会发现:那些脸色差、身体虚、气场弱的人,往往不是太累了,而是精神内耗把自己耗干了

Kris在路上
2026-05-10 15:15:47
特朗普还没来华,美军先来下马威?大批F22抵达,美媒直言丢人

特朗普还没来华,美军先来下马威?大批F22抵达,美媒直言丢人

别吵吵
2026-05-12 08:24:26
他是外交部原部长,1985年被邓小平怒批“胡说八道”,活到了98岁

他是外交部原部长,1985年被邓小平怒批“胡说八道”,活到了98岁

历史人文2
2026-05-09 22:00:03
戊戌变法就是被一群蠢货活活作死的

戊戌变法就是被一群蠢货活活作死的

浪子说
2026-05-11 16:20:22
明天取胜即可夺冠,C罗:让我们全力以赴,不负此行

明天取胜即可夺冠,C罗:让我们全力以赴,不负此行

懂球帝
2026-05-12 03:47:05
大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

草莓解说体育
2026-05-11 20:49:33
公安局局长张安疆同志离世后,一个令人震惊的消息出现了!

公安局局长张安疆同志离世后,一个令人震惊的消息出现了!

李昕言温度空间
2026-05-11 21:53:03
无法共情,理解不了

无法共情,理解不了

求实处
2026-05-10 22:34:56
2026-05-12 10:52:49
深兰深延AI
深兰深延AI
让AI赋能更简单!
71文章数 0关注度
往期回顾 全部

科技要闻

纳德拉法庭爆料:拒当“AI时代的IBM”

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

特朗普要来了,我们且淡定

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

旅游
数码
亲子
教育
时尚

旅游要闻

“李子出山”到“民宿出圈”!看清镇站街的“短视频+”融合之道

数码要闻

2026女生轻薄本电脑5强对决 这款1kg 轻薄本竟性能拉满

亲子要闻

从“流动”到“安心”:一位宝妈的“定点”幸福

教育要闻

高考想要本科直接就业,该如何报考

推广|| 你们都想要的绝美白衬衫,链接来了!

无障碍浏览 进入关怀版