网易首页 > 网易号 > 正文 申请入驻

ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA

0
分享至

来自北京大学,清华大学的研究团队联手京东(JD.com)在 ACM MM 2025 发表了一种以事件为中心低成本高效的 Training-Free 视频异常检测框架 EventVAD,论文第一作者邵轶骅目前为北京大学学术访问学生,项目负责人为来自京东(JD.com)的算法研究员马傲,目前代码和数据已全面开源。

现有视频异常检测(Video Anomaly Detection, VAD)方法中,有监督方法依赖大量领域内训练数据,对未见过的异常场景泛化能力薄弱;而无需训练的方法虽借助大语言模型(LLMs)的世界知识实现检测,但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。

为此,来自北大、清华和京东(JD.com)的研究团队提出了一种全新的视频异常检测框架 ——EventVAD。该框架通过动态图架构与多模态大模型(MLLMs)的时序事件推理结合,在减少模型参数的同时,显著提升了异常检测的精度和效率。实验结果显示,EventVAD 在 UCF-Crime 和 XD-Violence 两大数据集上均超越现有 SOTA 方法,成为无需训练场景下的新标杆。

  • 论文标题:EventVAD: Training-Free Event-Aware Video Anomaly Detection
  • 论文链接:https://arxiv.org/abs/2504.13092
  • 代码开源:https://github.com/YihuaJerry/EventVAD

研究背景和动机

视频异常检测(VAD)的核心目标是精准定位视频中的异常帧,但现有方法存在显著局限:

有监督方法依赖大量标注数据,在新场景中需重新微调,泛化能力差;即使是单类监督或无监督方法,也因缺乏有效标签难以达到理想性能。无需训练方法以 LAVAD 为代表的方法通过视觉问答模型和 LLMs 评分实现异常定位,但存在两大问题:一是依赖至少 130 亿参数的 LLM,导致框架效率低下;二是缺乏对视频的时序理解能力,难以连贯解析长视频,易出现误检和长尾问题。

研究团队发现,无需训练方法的核心瓶颈在于无法对视频中的异常事件进行完整定位,导致后续 LLM 评分存在偏差。受此启发,如上图所示,EventVAD 通过将长视频分割为短事件片段,增强 MLLMs 对视频的时序一致性理解,同时引入动态图模型捕捉帧间关联,最终在减少参数的情况下实现了更高精度的异常检测。

EventVAD 的关键创新

EventVAD 的整体框架包含四个核心模块:事件感知动态图构建、图注意力传播、统计边界检测和事件中心异常评分。通过这一流程,实现了从视频帧特征提取到异常帧精准定位的端到端无需训练检测。

事件感知动态图构建

为捕捉视频的动态时序特征,EventVAD 构建了融合语义与运动信息的动态图模型。结合 CLIP 的语义特征(512 维)和 RAFT 光流的运动特征(128 维),通过融合系数(α=0.75)平衡两种特征,增强事件的时序一致性。通过语义相似度(余弦距离)和运动相似度(指数距离)计算帧间关联,并引入时间衰减因子(γ)抑制长距离帧的冗余关联,突出短时间内的事件连贯性。

图注意力传播

为优化帧级特征并保持时序一致性,EventVAD 设计了基于正交约束的图注意力机制。通过 QR 分解生成正交的查询(Q)、键(K)、值(V)矩阵,避免特征维度坍缩。基于动态图的邻接矩阵计算注意力权重,通过迭代传播更新节点特征,增强事件边界的区分度。

统计边界检测

为精准分割视频中的事件边界,EventVAD 采用了噪声鲁棒的统计方法。复合差异度量中,结合 L2 范数(特征幅度跳变)和余弦距离(方向变化),捕捉事件转换的不连续性。通过 Savitzky-Golay 滤波平滑噪声,计算信号比(局部与全局均值比),并基于中位数绝对偏差(MAD)设置动态阈值,实现无监督的事件边界检测。

事件中心异常评分

为提升 MLLMs 对视频的理解效率,EventVAD 提出分层提示策略。将分割后的事件片段输入 MLLMs,先生成视频内容描述,再基于描述输出异常评分,形成 “自校正” 机制。相比传统帧级分析或全局处理,事件级分析平衡了上下文完整性与特征精细度,减少长视频分析中的误差传播。

实验验证

研究团队在 UCF-Crime 和 XD-Violence 两大基准数据集上对 EventVAD 进行了全面评估,结果显示其性能显著优于现有方法。

UCF-Crime 数据集上的结果

EventVAD 以 70 亿参数实现了 82.03% 的 AUC,超越需 130 亿参数的 LAVAD(提升近 4%),同时优于所有无监督、单类监督方法,甚至超过部分弱监督方法。

XD-Violence 数据集上的结果

使用 XD-Violence 数据集的结果中,在 AP 和 AUC 指标上均比现有无需训练的 SOTA 方法(LAVAD)高出约 5%,验证了其在高分辨率场景下的适应性。

可视化分析

图注意力传播可视化分析如下图,选取 UCF-Crime 数据集中的异常和正常视频样本,对应用图注意力传播前后的帧间关系进行可视化。热力图展示了相应帧区间内帧与帧之间权重关系的变化。

统计边界检测可视化分析如下图,以 UCF-Crime 数据集中的样本为例,对异常视频和正常视频的边界检测过程进行可视化。

消融实验

UCF-Crime 和 XD-Violence 数据集中正常样本与异常样本的可视化。对 LAVAD 未能正确检测出异常的样本进行了可视化,下图展示了事件分割结果以及多模态大语言模型(MLLM)的异常帧评分,并与真实标签进行了对比。

总结与展望

EventVAD 作为首个以事件为中心的免训练视频异常检测模型,将推动领域从帧级标注到完整事件级标注的演进。它提供了完整的特征增强,事件划分,异常评分的免真值异常检测基础,极大减少了人工标注的成本和重新训练的开销。未来,随着视频理解模型的星期,EventVAD 这类以事件为中心的视频异常检测范式将为视频细粒度理解提供基础。期待基于 EventVAD 涌现更多创新的算法,加速视频帧级异常检测的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又一个邻国一夜变天,亲印派高层“一个不留”,中国第一时间表态

又一个邻国一夜变天,亲印派高层“一个不留”,中国第一时间表态

肖兹探秘说
2026-01-29 12:48:29
27岁男星宣布退圈,妻子是大9岁李心艾,混不出头要回家当老总了

27岁男星宣布退圈,妻子是大9岁李心艾,混不出头要回家当老总了

大铁猫娱乐
2026-02-01 12:49:39
神仙姐姐公开承认过的男朋友

神仙姐姐公开承认过的男朋友

微微热评
2026-01-20 18:35:54
砍了一场40+彻底飘了!直言老詹是最被高估球员:该把权杖交给我

砍了一场40+彻底飘了!直言老詹是最被高估球员:该把权杖交给我

你的篮球频道
2026-02-01 10:57:56
关键时刻,高市早苗“跑了”,在野党懵了,日网友:和安倍一德行

关键时刻,高市早苗“跑了”,在野党懵了,日网友:和安倍一德行

风信子的花
2026-02-01 12:15:58
山东大学顺利举办“马杜罗思想体系研讨会”

山东大学顺利举办“马杜罗思想体系研讨会”

必记本
2026-02-01 13:12:33
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

春秋论娱
2025-12-25 07:11:24
庆祝时刻,莱巴金娜一袭红裙拍摄澳网女单冠军写真

庆祝时刻,莱巴金娜一袭红裙拍摄澳网女单冠军写真

懂球帝
2026-02-01 12:16:16
山西一演唱会取消!

山西一演唱会取消!

朔州那些事儿
2026-02-01 18:07:34
福建3名干部,被纪委监委点名通报

福建3名干部,被纪委监委点名通报

新浪财经
2026-02-01 21:14:44
49岁马伊琍变样了!穿红衣烫羊毛卷土到认不出,皮松肉垮老得真快

49岁马伊琍变样了!穿红衣烫羊毛卷土到认不出,皮松肉垮老得真快

老吴教育课堂
2026-01-10 13:22:02
关晓彤近况曝光:脸浮肿,满脸疲惫感,一举动透露和鹿晗感情状态

关晓彤近况曝光:脸浮肿,满脸疲惫感,一举动透露和鹿晗感情状态

白面书誏
2026-01-31 16:11:47
为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

今墨缘
2026-01-30 12:45:45
他一人杀20万日本人,日本逼他道歉,他怒说:你们给中国道歉了吗

他一人杀20万日本人,日本逼他道歉,他怒说:你们给中国道歉了吗

千秋文化
2026-01-06 20:35:06
不反华了?高市通知中国,战争派兵方案变了,解放军舰队已上场!

不反华了?高市通知中国,战争派兵方案变了,解放军舰队已上场!

来科点谱
2026-02-01 17:44:16
中国专家断言,美国绑走马杜罗最终可能烂尾:当年在朝鲜也是这样

中国专家断言,美国绑走马杜罗最终可能烂尾:当年在朝鲜也是这样

青辉
2026-01-09 16:45:32
继杨振宁去世不到2月,翁帆首次携76岁妈妈亮相,一个细节惹争议

继杨振宁去世不到2月,翁帆首次携76岁妈妈亮相,一个细节惹争议

涵豆说娱
2025-12-04 15:03:22
越南少将阮德辉揭露:中方撤军时越军为何按兵不动?

越南少将阮德辉揭露:中方撤军时越军为何按兵不动?

磊子讲史
2026-01-09 18:00:27
白银LOF跌停板逃生指南

白银LOF跌停板逃生指南

今晚吃基
2026-02-01 07:20:13
南宁23岁男子在邕江北岸公园献血爱心园附近失联,至今仍下落不明

南宁23岁男子在邕江北岸公园献血爱心园附近失联,至今仍下落不明

好词好文
2026-01-31 19:45:46
2026-02-02 04:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

艺术
数码
手机
游戏
军事航空

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

末期癌症玩家圆梦《毁灭战士》!id公开致敬

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版