网易首页 > 网易号 > 正文 申请入驻

ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测

0
分享至

视频异常检测(Video Anomaly Detection,VAD)扩展自经典的异常检测任务,由于异常情况样本非常少见,因此经典的异常检测通常被定义为一类分类问题(One-Class Classification,OCC)。而对于VAD而言,属于异常情况的样本更是非常罕见,因此常见的方法仅使用大量的正常样本进行训练,这些方法会将正常视频的隐藏特征限制在一个有限的空间内,然后通过距离、概率分布差异、重构和预测误差等度量方式将空间之外的样本检测为异常。

本文介绍一篇发表在ICCV 2023上的工作, 提出了一种全新的视频异常检测方法,称为运动条件引导的扩散模型MoCoDAD 。该模型主要针对于视频中人体的骨骼表示进行建模, 并假设视频中出现的正常现象与异常现象都是多模态的,提出使用扩散模型来对人体未来姿态进行预测 。通过将视频中行人的历史运动作为条件,利用扩散过程中的迭代更新机制来拟合人体运动并生成未来帧,当生成的运动骨架信息与真实未来运动骨架信息差异较大时,就可以认定为检测到异常。作者在4个标准的人体骨架视频异常检测基准:UBnormal、HR-UBnormal、HR-STC和HR-Avenue上进行了大量的实验,证明MoCoDAD已达SOTA效果。

论文链接: https://arxiv.org/abs/2307.07205

一、引言

虽然计算机视觉近些年发展非常迅速,但视频异常检测仍然是一项具有挑战性的任务,这其中主要有两大原因:

(1)异常的定义非常主观,并且通常会根据上下文和应用场景的改变而变化,因此很难对其进行普遍定义。

(2)异常事件本质上是罕见的,正常事件的数据量很庞大,而异常事件数据则非常稀少,有严重的数据不平衡问题。

为了解决数据稀缺的问题,现有的模型通常仅从正常样本中学习(也称为一类分类),也有学者将这种方式称为半监督学习。本文基于这种背景提出了一种运动条件引导的扩散模型(Motion Conditioned Diffusion Anomaly Detection,MoCoDAD),它假设正常和异常都是多模态的。给定一个运动序列,无论是正常的还是异常的,都首先将序列进行分割,随后将未来帧退化为随机噪声。以第一个(历史帧)清晰输入帧作为条件,MoCoDAD会对其进行多模态重建。随后在通过比较多模态分布来区分正常和异常。在正常情况下,MoCoDAD生成的运动是多样且与真实情况相关的。而在异常的情况下,模型生成的运动虽然也具有一定的多样性,但缺乏针对性。

上图展示了MoCoDAD对正常和异常示例生成未来帧的效果对比,其中红色(右)和绿色(左)分别代表异常和正常的示例。在图中底部还可视化了50个未来帧的特征向量,虚线轮廓表示当前输入序列所处的分布范围,其中的红点表示与当前预测帧所对应真实帧的特征向量,在正常情况下,真实帧会处在分布的中间区域,且预测结果与真实帧是相关的。在异常情况下,真实帧会处于分布的尾部,这会产生较差的预测,并且可以突出异常现象。

二、本文方法

MoCoDAD基于去噪扩散概率模型(DDPM),并在其基础上通过对人体运动学特征进行建模,并通过人体骨架轨迹点信息作为基本单元,通过随机平移的方式来更新每一帧的身体关节坐标进行预测。

2.1 模型架构

下图展示了MoCoDAD模型的整体架构,分为两个主要模块:(1)前向轨迹扩散模型和(2)运动条件引导自编码器。其中扩散模型使用橙色块表示,其任务是根据输入序列帧来估计其中退化噪声,从而重建实际的未来帧。作者仿照先前工作AnoDDPM[1],将这一部分设置为基于U-Net的架构。随后前向扩散网络会逐渐收缩,然后将生成的姿势序列拓展到与输入序列大小相同的空间尺寸。此外,考虑到输入序列的时序维度,作者使用时空可分离GCN(STS-GCN)[2]来构建U-Net扩散层。

具体来说,U-Net接收输入序列 和运动时序条件信号 ,该信号可以为网络提供扩散步长和过去运动序列的编码信息。为了将条件信号的维度与输入序列的维度对齐,还需要先将前者投影到正确的向量空间。然后,条件信号会被馈送到每个STS-GCN层完成整体的扩散过程。

2.2 前向轨迹扩散模型

MoCoDAD本质上仍然遵循标准扩散模型的原理,但是模型处理的对象不是普通的像素值,而是人体运动骨架的序列。令 为单个人体的运动序列,序列中的每个姿态 都可以看作是一个图 ,其中 为关节集合, 是表示关节连接的邻接矩阵。作者将 分为两部分,历史序列 和未来序列 。在前向扩散过程中,作者通过添加随机位移噪声来破坏输入关节的坐标来达到加噪的效果。添加位移的大小取决于方差调度器 和扩散步长 。在每个扩散步长 时,骨架关节 的坐标逐渐退化,即 ,使得 与随机的噪声姿态无法区分,这样就完成了前向扩散过程。作者使用扩散步长 和历史序列 的特征嵌入 作为条件来训练网络,模型扩散的位移估计目标函数定义如下:

在模型推理时,MoCoDAD就可以根据历史帧从随机位移图生成多模态序列预测,然后以统计方式聚合它们的信息以检测异常。推理过程可以从一组随机位移 开始采样,然后通过以下扩散公式来生成未来序列:

随后就可以计算得到扩散生成序列与真实序列的重构误差 。

2.3 运动条件引导自编码器

MoCoDAD之所以可以对视频中人体的异常行为进行检测,很大一部分原因是其将运动先验作为扩散模型的条件信息,即,考虑输入人体骨架运动的一部分(历史姿态信息)来指导扩散过程来预测未来的姿势。

本文使用了三种不同的策略来将运动信息进行条件处理,分别为(1)直接拼接、(2)E2Eembedding 和(3)AE-embedding。其中直接拼接是指原始输入运动的一部分直接作为条件。例如将历史姿势序列 作为条件信号,并将其添加到退化处理的未来序列 中。其余两种embedding方法都是通过使用编码器来对历史序列生成条件向量,先前的扩散模型通常会将文本信息进行嵌入作为条件,这里的操作如出一辙,只不过为了对人体骨架序列进行编码,作者将这里的编码器设置为GCN网络。在E2Eembedding模式下,编码器 通过 损失进行训练。而对于AEembedding模式,作者进一步添加了辅助重建损失 来训练 ,该损失会促使解码器 尽可能保证模型对历史序列也能重构的很好:

三、 实验效果

本文在四个标准的视频异常检测数据集上进行了实验 ,分别是UBnormal、HR-UBnormal、HR ShanghaiTech Campus(HR-STC)和HRAvenue其中UBnormal数据集为计算机合成数据集。其余三个数据集均为在真实监控场景中捕获的视频。 模型的评价指标选用ROC-AUC 。作者选取了包含MPED-RNN、GEPC、SSMTL++和COSKAD等在内的8个常见的视频异常检测算法进行实验对比,实验效果如下表所示。

上表中前四种方法由于使用了异常片段的标签进行训练,因此不在OCC方法的范畴内(很多文献将这类方法称为弱监督方法),直接与本文方法进行对比不公平。 可 以看到MoCoDAD仍然取得了最好的效果,相比于同类方法COSKAD,本文方法在两个数据集上性能分别提高了3.6%和2.9%。甚至与弱监督方法相比,MoCoDAD也有非常明显的优势,例如与TimeSFormer相比, 本文方法的性能基本与其持平,但参数仅为288K,而TimeSFormer的参数高达121M。

为了进一步分析扩散过程对视频异常检测性能的影响,作者对扩散模型生成代数和异常分数的聚合策略进行了消融分析,如上图所示,图左侧表示四种不同聚合策略得到的重构误差直方图,图右测展示了模型检测AUC分数与生成代数之间的相关性,其中每条曲线对应不同的聚合统计量。

四、总结

本文基于扩散模型提出了一种新型的视频异常检测方法MoCoDAD,作者强调,他们首次将扩散模型技术引入到这一领域, 通过对人体骨架序列运动情况进行分析,MoCoDAD可以高效的理解画面中人体的运动趋势 ,在正常情况下,模型就可以根据观察到的历史序列对未来序列进行预测。而在异常情况下,模型在异常运动信息的引导下,会展现出与真实未来序列的偏差,通过这一偏差,就可以精确的实现异常动作的检测。 此外由于MoCoDAD无需任何像素外观信息,仅对人体骨架信息进行计算,可以实现轻量化的网络设计和更好的计算效率。

参考[1 Julian Wyatt, Adam Leach, Sebastian M. Schmon, and Chris G. Willc cks. Anoddpm: Anomaly detection with denoising diffusion probabilistic models using simplex noise. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, pages 650–656, June 2022.

[2] Theodoros Sofianos, Alessio Sampieri, Luca Franco, and Fabio Gala so. Space-time-separable graph convolutional network for pose forecas ing. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 11209–11218, 2021.


作者:seven_

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
捷克球迷怒斥韩国!没有裁判你们赢不了,如果输给了中国我们认了

捷克球迷怒斥韩国!没有裁判你们赢不了,如果输给了中国我们认了

酷侃体坛
2026-06-12 18:57:01
巴萨官方:要求弗洛伦蒂诺撤回言论,否则提起诉讼

巴萨官方:要求弗洛伦蒂诺撤回言论,否则提起诉讼

体坛周报
2026-06-13 00:09:25
Apple Watch Ultra 4最新爆料汇总

Apple Watch Ultra 4最新爆料汇总

小柱解说游戏
2026-06-13 01:00:12
A股:放量大涨6600亿!牛回来了?不出意外,下周这样走!

A股:放量大涨6600亿!牛回来了?不出意外,下周这样走!

猫叔东山再起
2026-06-13 08:00:15
你信吗?有些事被迫终止,其实是老天在救你!网友:想想都后怕

你信吗?有些事被迫终止,其实是老天在救你!网友:想想都后怕

另子维爱读史
2026-06-12 19:50:24
福克斯:我们见证过1-3落后的逆转 依然坚信自己能赢

福克斯:我们见证过1-3落后的逆转 依然坚信自己能赢

北青网-北京青年报
2026-06-13 10:20:39
世媒:RAI切掉夏奇拉表演惹争议

世媒:RAI切掉夏奇拉表演惹争议

懂球帝
2026-06-12 14:30:35
小泉进次郎“泄露天机”,高市准备带领日本,再打一场大硬仗

小泉进次郎“泄露天机”,高市准备带领日本,再打一场大硬仗

通鉴史智
2026-06-13 09:30:14
姆巴佩:若能确保法国队本届世界杯夺冠,我可以接受一球不进

姆巴佩:若能确保法国队本届世界杯夺冠,我可以接受一球不进

懂球帝
2026-06-12 07:25:07
别再比退休金了!2026年满60岁,拿到这个数就偷着乐吧

别再比退休金了!2026年满60岁,拿到这个数就偷着乐吧

奇葩游戏酱
2026-06-13 07:31:47
下一任队长?葡萄牙晒出世界杯全队正装大合照,B费C位

下一任队长?葡萄牙晒出世界杯全队正装大合照,B费C位

懂球帝
2026-06-13 01:29:08
黄仁勋说清穿皮夹克原因,17岁后全靠老婆买衣服,30度高温也不脱

黄仁勋说清穿皮夹克原因,17岁后全靠老婆买衣服,30度高温也不脱

大厂编外实习生
2026-06-12 17:45:33
金融圈反腐,叶新阶被查!

金融圈反腐,叶新阶被查!

金融界
2026-06-12 23:43:51
看到宋珍珍2022年的照片,终于知道为啥涛哥把持不住了

看到宋珍珍2022年的照片,终于知道为啥涛哥把持不住了

小椰的奶奶
2026-06-13 10:01:44
中国成功举办世界杯需要几步?现在申请大概什么时候可以办?

中国成功举办世界杯需要几步?现在申请大概什么时候可以办?

真猫爷的渔场
2026-06-12 20:39:13
高盛下调2027年油价预期:中国石油需求减少或成大势所趋

高盛下调2027年油价预期:中国石油需求减少或成大势所趋

财联社
2026-06-12 18:19:10
存款大局已定:不出意外的话,2026年起居民储蓄或迎来3大变化

存款大局已定:不出意外的话,2026年起居民储蓄或迎来3大变化

猫叔东山再起
2026-06-13 11:10:11
宋珍珍自曝,富豪用一袋冷冻水饺约了她缠绵,还有个给她20打车费

宋珍珍自曝,富豪用一袋冷冻水饺约了她缠绵,还有个给她20打车费

江山挥笔
2026-06-11 19:43:45
魔术师:湖人需尽快敲定詹姆斯去向

魔术师:湖人需尽快敲定詹姆斯去向

体坛周报
2026-06-13 07:39:29
瓦塞尔:我们一直掌控着系列赛大局 只需找出收官比赛的方法

瓦塞尔:我们一直掌控着系列赛大局 只需找出收官比赛的方法

北青网-北京青年报
2026-06-13 10:28:23
2026-06-13 11:48:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2404文章数 596关注度
往期回顾 全部

科技要闻

SpaceX上市首日破2万亿美元,马斯克再封神

头条要闻

美国4比1大胜 美国主导比赛巴拉圭疲于奔命让人意外

头条要闻

美国4比1大胜 美国主导比赛巴拉圭疲于奔命让人意外

体育要闻

东道主三战不败!美墨开门红加拿大零的突破

娱乐要闻

12年情怀碎一地!跑男接连翻车

财经要闻

梁文锋向左,杨植麟向右

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

数码
教育
家居
健康
房产

数码要闻

樱桃发布XTRFY K63W Pro机械键盘:引入UWB技术 可实现 8000Hz 轮询

教育要闻

有变:2026山东高考招生有5大变化!

家居要闻

空间微调 移形换境

老人、小孩、孕妇,吃粽子有啥风险

房产要闻

海南最赚钱行业曝光!最快4年半,海口全款买三房!

无障碍浏览 进入关怀版