网易首页 > 网易号 > 正文 申请入驻

ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA

0
分享至

来自北京大学,清华大学的研究团队联手京东(JD.com)在 ACM MM 2025 发表了一种以事件为中心低成本高效的 Training-Free 视频异常检测框架 EventVAD,论文第一作者邵轶骅目前为北京大学学术访问学生,项目负责人为来自京东(JD.com)的算法研究员马傲,目前代码和数据已全面开源。

现有视频异常检测(Video Anomaly Detection, VAD)方法中,有监督方法依赖大量领域内训练数据,对未见过的异常场景泛化能力薄弱;而无需训练的方法虽借助大语言模型(LLMs)的世界知识实现检测,但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。

为此,来自北大、清华和京东(JD.com)的研究团队提出了一种全新的视频异常检测框架 ——EventVAD。该框架通过动态图架构与多模态大模型(MLLMs)的时序事件推理结合,在减少模型参数的同时,显著提升了异常检测的精度和效率。实验结果显示,EventVAD 在 UCF-Crime 和 XD-Violence 两大数据集上均超越现有 SOTA 方法,成为无需训练场景下的新标杆。

  • 论文标题:EventVAD: Training-Free Event-Aware Video Anomaly Detection
  • 论文链接:https://arxiv.org/abs/2504.13092
  • 代码开源:https://github.com/YihuaJerry/EventVAD

研究背景和动机

视频异常检测(VAD)的核心目标是精准定位视频中的异常帧,但现有方法存在显著局限:

有监督方法依赖大量标注数据,在新场景中需重新微调,泛化能力差;即使是单类监督或无监督方法,也因缺乏有效标签难以达到理想性能。无需训练方法以 LAVAD 为代表的方法通过视觉问答模型和 LLMs 评分实现异常定位,但存在两大问题:一是依赖至少 130 亿参数的 LLM,导致框架效率低下;二是缺乏对视频的时序理解能力,难以连贯解析长视频,易出现误检和长尾问题。

研究团队发现,无需训练方法的核心瓶颈在于无法对视频中的异常事件进行完整定位,导致后续 LLM 评分存在偏差。受此启发,如上图所示,EventVAD 通过将长视频分割为短事件片段,增强 MLLMs 对视频的时序一致性理解,同时引入动态图模型捕捉帧间关联,最终在减少参数的情况下实现了更高精度的异常检测。

EventVAD 的关键创新

EventVAD 的整体框架包含四个核心模块:事件感知动态图构建、图注意力传播、统计边界检测和事件中心异常评分。通过这一流程,实现了从视频帧特征提取到异常帧精准定位的端到端无需训练检测。

事件感知动态图构建

为捕捉视频的动态时序特征,EventVAD 构建了融合语义与运动信息的动态图模型。结合 CLIP 的语义特征(512 维)和 RAFT 光流的运动特征(128 维),通过融合系数(α=0.75)平衡两种特征,增强事件的时序一致性。通过语义相似度(余弦距离)和运动相似度(指数距离)计算帧间关联,并引入时间衰减因子(γ)抑制长距离帧的冗余关联,突出短时间内的事件连贯性。

图注意力传播

为优化帧级特征并保持时序一致性,EventVAD 设计了基于正交约束的图注意力机制。通过 QR 分解生成正交的查询(Q)、键(K)、值(V)矩阵,避免特征维度坍缩。基于动态图的邻接矩阵计算注意力权重,通过迭代传播更新节点特征,增强事件边界的区分度。

统计边界检测

为精准分割视频中的事件边界,EventVAD 采用了噪声鲁棒的统计方法。复合差异度量中,结合 L2 范数(特征幅度跳变)和余弦距离(方向变化),捕捉事件转换的不连续性。通过 Savitzky-Golay 滤波平滑噪声,计算信号比(局部与全局均值比),并基于中位数绝对偏差(MAD)设置动态阈值,实现无监督的事件边界检测。

事件中心异常评分

为提升 MLLMs 对视频的理解效率,EventVAD 提出分层提示策略。将分割后的事件片段输入 MLLMs,先生成视频内容描述,再基于描述输出异常评分,形成 “自校正” 机制。相比传统帧级分析或全局处理,事件级分析平衡了上下文完整性与特征精细度,减少长视频分析中的误差传播。

实验验证

研究团队在 UCF-Crime 和 XD-Violence 两大基准数据集上对 EventVAD 进行了全面评估,结果显示其性能显著优于现有方法。

UCF-Crime 数据集上的结果

EventVAD 以 70 亿参数实现了 82.03% 的 AUC,超越需 130 亿参数的 LAVAD(提升近 4%),同时优于所有无监督、单类监督方法,甚至超过部分弱监督方法。

XD-Violence 数据集上的结果

使用 XD-Violence 数据集的结果中,在 AP 和 AUC 指标上均比现有无需训练的 SOTA 方法(LAVAD)高出约 5%,验证了其在高分辨率场景下的适应性。

可视化分析

图注意力传播可视化分析如下图,选取 UCF-Crime 数据集中的异常和正常视频样本,对应用图注意力传播前后的帧间关系进行可视化。热力图展示了相应帧区间内帧与帧之间权重关系的变化。

统计边界检测可视化分析如下图,以 UCF-Crime 数据集中的样本为例,对异常视频和正常视频的边界检测过程进行可视化。

消融实验

UCF-Crime 和 XD-Violence 数据集中正常样本与异常样本的可视化。对 LAVAD 未能正确检测出异常的样本进行了可视化,下图展示了事件分割结果以及多模态大语言模型(MLLM)的异常帧评分,并与真实标签进行了对比。

总结与展望

EventVAD 作为首个以事件为中心的免训练视频异常检测模型,将推动领域从帧级标注到完整事件级标注的演进。它提供了完整的特征增强,事件划分,异常评分的免真值异常检测基础,极大减少了人工标注的成本和重新训练的开销。未来,随着视频理解模型的星期,EventVAD 这类以事件为中心的视频异常检测范式将为视频细粒度理解提供基础。期待基于 EventVAD 涌现更多创新的算法,加速视频帧级异常检测的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰国外长:准备商讨将中国游客免签期限从60天缩短至30天

泰国外长:准备商讨将中国游客免签期限从60天缩短至30天

天气观察站
2026-05-10 13:35:41
曼联欲打包签莱斯特城两大英小妖!蓝狐跌入英甲,拉爵趁机刮彩票

曼联欲打包签莱斯特城两大英小妖!蓝狐跌入英甲,拉爵趁机刮彩票

罗米的曼联博客
2026-05-10 11:35:24
巴西免签了,但你可能根本去不了

巴西免签了,但你可能根本去不了

BT财经
2026-05-08 08:24:02
1天涨粉10万的博士爸爸:这代孩子的“前额叶损伤”,可以这么养

1天涨粉10万的博士爸爸:这代孩子的“前额叶损伤”,可以这么养

新东方
2026-05-06 17:46:49
高认知的穷鬼,为何是人间最大的悲哀?

高认知的穷鬼,为何是人间最大的悲哀?

土家铁拳
2026-05-03 09:21:35
一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

医学原创故事会
2026-05-01 23:20:56
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
3-0!神锋两场连轰3脚世界波 13.1亿豪门5轮4胜 争冠形势再生变

3-0!神锋两场连轰3脚世界波 13.1亿豪门5轮4胜 争冠形势再生变

狍子歪解体坛
2026-05-10 02:24:36
“求是”文章不足以改变对房地产的预期

“求是”文章不足以改变对房地产的预期

科学发掘
2026-05-10 06:31:04
一个手握千亿男装帝国的富二代,为什么突然疯了呢?

一个手握千亿男装帝国的富二代,为什么突然疯了呢?

流苏晚晴
2026-05-09 19:01:09
宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

快科技
2026-05-09 20:16:11
碾压赵心童!吴宜泽夺冠72小时狂捞金,6大巨星齐聚广州蹭热度

碾压赵心童!吴宜泽夺冠72小时狂捞金,6大巨星齐聚广州蹭热度

宝哥精彩赛事
2026-05-10 13:37:41
美国务卿:美国主张维持台湾现状

美国务卿:美国主张维持台湾现状

俄罗斯卫星通讯社
2026-05-09 15:12:07
国际足联终于慌了!紧急出炉新方案,世界杯版权将迎来重大转机

国际足联终于慌了!紧急出炉新方案,世界杯版权将迎来重大转机

芳芳历史烩
2026-05-10 04:21:10
中国唯一纯正雅利安后裔——塔吉克族, 他们是怎么来到中国的?

中国唯一纯正雅利安后裔——塔吉克族, 他们是怎么来到中国的?

生活新鲜市
2026-05-09 20:27:57
16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

李晚书
2026-05-06 13:21:59
委内瑞拉的转身:当反美口号输给了石油工人的饭碗

委内瑞拉的转身:当反美口号输给了石油工人的饭碗

民间胡扯老哥
2026-05-05 06:15:03
河南一景区“攻城送蒜薹”玩梗成真:把参演游客的枷锁换成了“蒜薹花环”,演完可带走

河南一景区“攻城送蒜薹”玩梗成真:把参演游客的枷锁换成了“蒜薹花环”,演完可带走

扬子晚报
2026-05-08 20:46:07
77岁港星在东莞租房养老,35平米月租1300,无儿无女靠老本度日

77岁港星在东莞租房养老,35平米月租1300,无儿无女靠老本度日

喜欢历史的阿繁
2026-05-10 00:04:45
徐帆回应离婚9个月后,冯小刚和其前任同聚,和养女关系引争议

徐帆回应离婚9个月后,冯小刚和其前任同聚,和养女关系引争议

乐悠悠娱乐
2026-05-10 12:00:32
2026-05-10 14:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

体育要闻

詹姆斯生涯第6次0-3困境:今年会被横扫吗

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

亲子
健康
时尚
公开课
军事航空

亲子要闻

小叔子比老公小28岁,整天就知道粘着我

干细胞能让人“返老还童”吗

今年最好看的衬衫竟然是它?太减龄了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版