网易首页 > 网易号 > 正文 申请入驻

NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

陈厚伦,清华大学计算机系媒体所的二年级博士生,主要研究方向是多模态大模型与视频理解 ,在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文,曾获国家奖学金、北京市优秀本科毕业生等。

视频内容的快速增长给视频检索技术,特别是细粒度视频片段检索(VCMR),带来了巨大挑战。VCMR 要求系统根据文本查询从视频库中精准定位视频中的匹配片段,需具备跨模态理解和细粒度视频理解能力。

然而,现有研究多局限于粗粒度理解,难以应对细粒度查询。为此,来自清华大学的研究者提出自动化视频 - 文本细粒度标注系统 VERIFIED,并基于此系统构建新的细粒度 VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推动细粒度视频理解的发展。

  • 论文题目:VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding (NeurIPS 2024 Track on Datasets and Benchmarks)
  • 论文链接:https://arxiv.org/pdf/2410.08593
  • 主页链接:https://verified-neurips.github.io/

一、介绍

视频语料库时刻检索(VCMR)旨在根据文本查询从大量视频中精确定位特定片段。传统 VCMR 基准的视频标注多为粗粒度标注,视频与文本间存在多对多问题,无法支持细粒度视频检索的训练与评估(图 1 (a)),因此有必要为细粒度 VCMR 建立一个合适的 benchmark。为解决此问题,该研究提出了细粒度 VCMR 场景,使用更精细的文本查询消除数据集中的多对多现象(图 1 (b))。然而建立此类细粒度的 benchmark 有如下的挑战:

(1)人工标注细粒度信息成本高昂,是否可以利用大模型技术实现这一过程?

(2)研究证明大模型存在幻觉问题,如果利用大模型进行标注,如何设计一种方法保证标注数据的质量?

为此,该研究设计了自动细粒度视频标注系统 VERIFIED(图 1 (c)),通过大模型生成富含静态和动态信息的标注,并且基于微调 video foundation model 设计了一个高效的标注质量评估模块,基于此构建了 Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG 高质量细粒度 VCMR 基准,以推动细粒度 VCMR 研究发展。

图 1:a) 粗粒度 VCMR 中,因查询文本简单,存在许多潜在正匹配(绿色),但这些时刻未被标注,导致真实标注不合理。b) 该研究提出的具有挑战性的细粒度 VCMR 中,查询更细粒度,方法需要从部分匹配的候选项(粉色)中检索出最匹配的一个(绿色)。c) 该研究的 VERIFIED 生成了可靠细粒度标注,包括丰富静态(绿色)和动态细节(蓝色)。

二、VERIFIED 视频细粒度标注系统

图 2:VERIFIED 流程图。Statics Enhanced Captioning(A)和 Dynamics Enhanced Captioning(B),它们生成带有静态和动态细节的多个细粒度描述候选。此外,该研究设计了一个 Fine-Granularity Aware Noise Evaluator(C),该模块生成并选择被扰动的正负样本,通过难负样本增强的对比损失和匹配损失来微调 UMT。这个评估器对描述进行评分,以识别不准确描述。

图 2 展示了该研究的 VERIFIED 标注流程图。为了让大模型像人类那样对视频中的细粒度信息进行标注,该研究设计了 Statics Enhanced Captioning 和 Dynamics Enhanced Captioning 模块,分别对静态与动态细节进行描述。静态信息增强模块通过提取视频关键帧,分析前景和背景属性,生成多个静态细粒度描述,丰富视频的静态视觉信息。动态信息增强模块则根据视频的一个粗粒度标注,首先由 LLM 生成与视频动态内容相关的问题,使用视频问答系统(VQA)获取动态细节,进而生成多个动态细粒度标注,帮助模型更好地理解视频中的动作和变化。

为了保证数据标注的质量,该研究设计了一个细粒度感知的噪声评估模块,其目的在于从前面模块标注的数据中,筛选出可靠的细粒度标注,主要通过以下步骤进行:

(1)扰动文本生成:评估器首先从原始粗粒度标注中生成正向和负向的扰动文本。这些文本通过引入难例(挑战样本)与原始标注进行对比,以提高模型对细粒度差异的敏感度。

(2)筛选最优扰动:通过使用预训练模型(如 SentenceBERT),评估器从生成的扰动文本中挑选最合适的正向改写和最具挑战性的负向改写,保证生成的文本与原始标注的语义距离合理。

(3)损失函数:引入上述正向和负向的扰动文本,计算文本和视频间的对比损失和匹配损失。引入正向扰动文本是为了防止 LLM 生成文本的潜在的 bias,引入负向扰动文本作为困难负样本增强模型对细粒度信息的感知能力。

最后该研究用这个模块对标注数据进行打分,用来作为数据筛选的标准。该研究将 VERIFIED 系统应用于 Charades-STA、DiDeMo、ActivityNet Captions 数据集,对每个视频片段筛选分数最高的标注,得到新的 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 数据集,作为细粒度 VCMR 的 benchmark。

图 3 图 4 展示了该研究的标注中具有代表性的可视化样本。

图 3:(1-3)分别节选自 ActivityNet-FIG、Charades-FIG、DiDeMo-FIG 数据集,静态和动态的细粒度内容分别用绿色和蓝色标出,不准确的内容用红色标出。

图 4:(1) 本文构建的标注捕捉到了狗与训犬师之间的互动以及狗的运动轨迹。(2) 捕捉到了人物抛掷物体的细节,并传达了这个人多次抛掷的信息。(3) 读取了视觉内容中的文字信息,并正确表达了使用原料的顺序。

统计数据和用户实验还表明视频片段与标注文本之间的多对多现象得到了显著减少,标注细粒度和质量得到了用户的认可。

三、VCMR 实验

本文评估了 HERO、XML、ReLoCLNet、CONQUER、SQuiDNet 方法,分别在 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 上,对 VCMR(视频库片段检索)、VR(视频检索)、SVMR(单视频片段检索)任务进行了测评,对于片段检索指标,以 0.5/r10 为例,0.5/r10 表示召回的 top-10 个片段中与 ground truth 的 IoU 大于 0.5 的比例,结果如图 5、6 所示。不同模型在视频检索任务中的表现各异,两阶段方法(如 CONQUER、SQuiDNet)通常优于单阶段的方法,所以训练过程中应当避免将视频级别和片段级别的学习纠缠在一起,因为这可能会干扰模型对精确时刻定位的能力,进而影响整体性能,未来研究应该关注如何有效分离视频级别和片段级别的学习,并合理引入细粒度信息。

图 5:细粒度 VCMR、VR 实验结果

图 6:细粒度 SVMR 实验结果

为了说明该研究的细粒度训练数据对于提升模型的细粒度视频检索能力的意义,图 7 展示了 XML 在 Charades-FIG 上训练时,使用不同细粒度训练数据的预测结果可视化。当使用粗粒度数据进行训练时,真实值视频不在时刻排名列表的前 100 名内。排名靠前的预测主要集中在笔记本电脑上,而忽略了其他细节。使用该研究细粒度数据时,性能大大提升。它在排名第 5 位找到了目标时刻,后面的其他候选也与查询高度相关。这展示了细粒度 VCMR 场景中的挑战以及该研究的 VERIFIED 系统生成的标注数据在训练中的有效性。

图 7:XML 在 Charades-FIG 上使用不同细粒度训练数据的部分预测结果

四、结论

现有 VCMR 基准数据集以粗粒度为主,限制了模型对细粒度视频特征的学习。为此,该研究提出了 VERIFIED 自动标注系统,结合大语言模型和多模态大模型生成细粒度的静态和动态标注,并通过微调 UMT 作为数据评估模块提高标注可靠性。基于 VERIFIED 系统,该研究构建了新的细粒度 VCMR 数据集(Charades-FIG、DiDeMo-FIG、ActivityNet-FIG),评估了现有 VCMR 模型在细粒度场景上的表现,实验发现现有检索模型在处理细粒度信息时仍与现实需求存在较大差距。

参考工作

[1] Unmasked teacher: Towards training-efficient video foundation models

[2] Tall: Temporal activity localization via language query

[3] Localizing moments in video with natural language

[4] Dense-captioning events in videos

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普的北京时刻

特朗普的北京时刻

凤凰WEEKLY
2026-05-15 01:02:56
66岁大爷相亲50岁大妈:两人婚前同居一段时间,大妈:白日做梦

66岁大爷相亲50岁大妈:两人婚前同居一段时间,大妈:白日做梦

惟来
2026-05-14 12:01:27
邪门!少了30多万中国人消费,日本的旅游收入反而比以前多了

邪门!少了30多万中国人消费,日本的旅游收入反而比以前多了

壹只灰鸽子
2026-05-13 10:44:56
伊朗队正式发布世界杯球衣:豹子暗纹,由本国品牌赞助

伊朗队正式发布世界杯球衣:豹子暗纹,由本国品牌赞助

懂球帝
2026-05-15 00:09:05
沃尔抽的状元签奇才转卖!篮网11首轮报价,爵士快船已上谈判桌

沃尔抽的状元签奇才转卖!篮网11首轮报价,爵士快船已上谈判桌

夜溟聊体育
2026-05-15 10:32:12
宁夏恶魔,白天在谢晋电影里演好人,晚上回家当阎王,杀人喂狗!

宁夏恶魔,白天在谢晋电影里演好人,晚上回家当阎王,杀人喂狗!

莫地方
2026-05-14 00:55:03
OPPO母亲节宣传翻车,策划人履历曝光,紧急砸430万招公关负责人

OPPO母亲节宣传翻车,策划人履历曝光,紧急砸430万招公关负责人

谭谈社会
2026-05-12 17:26:27
“早晚高峰只能龟速前进” !深圳水官高速免费通行仅半月,网友吐槽太堵!专家建议

“早晚高峰只能龟速前进” !深圳水官高速免费通行仅半月,网友吐槽太堵!专家建议

南方都市报
2026-05-15 09:02:51
国乒动态:王楚钦身着西装如贵公子,王皓携妻参加活动年轻十岁

国乒动态:王楚钦身着西装如贵公子,王皓携妻参加活动年轻十岁

湘楚风云聊体育
2026-05-15 00:25:07
“摸奶子”惹争议!OPPO的流量反噬开始了

“摸奶子”惹争议!OPPO的流量反噬开始了

广告创意
2026-05-13 08:25:55
没有中方官员接待,日本代表团抵沪第三天,外交部打开天窗说亮话

没有中方官员接待,日本代表团抵沪第三天,外交部打开天窗说亮话

铁锤简科
2026-05-15 13:40:19
长续航Model Y价格上调1.8万元?特斯拉中国独家回应:假消息

长续航Model Y价格上调1.8万元?特斯拉中国独家回应:假消息

每日经济新闻
2026-05-15 13:44:15
马斯克疯狂着迷的女人,艾梅柏带3个娃隐居西班牙,孩子生父成谜

马斯克疯狂着迷的女人,艾梅柏带3个娃隐居西班牙,孩子生父成谜

照见古今
2026-04-29 16:00:06
山东男篮重建:请“逍遥王”巩晓彬出山,主教练之位可另寻他人

山东男篮重建:请“逍遥王”巩晓彬出山,主教练之位可另寻他人

姜大叔侃球
2026-05-15 12:47:10
中国留学生做饭像开席,英国室友看傻了:你们这么折腾不累吗?

中国留学生做饭像开席,英国室友看傻了:你们这么折腾不累吗?

天下霸奇
2026-05-15 08:53:32
曝央视与国际足联谈判成功,价格相对合理,将于近日签约

曝央视与国际足联谈判成功,价格相对合理,将于近日签约

尘语者
2026-05-15 11:20:11
曹德旺没想到,儿子平稳接班才半年,女儿凭一个举动再次给他长脸

曹德旺没想到,儿子平稳接班才半年,女儿凭一个举动再次给他长脸

好贤观史记
2026-05-11 15:06:08
俄国防部称大规模打击乌军工企业

俄国防部称大规模打击乌军工企业

界面新闻
2026-05-14 23:10:32
“关闭支付功能后,支付宝深夜被扣款捐赠184万元”?支付宝:涉事账户存在与他人共用嫌疑,不排除涉嫌违法犯罪的可能,正向警方寻求帮助

“关闭支付功能后,支付宝深夜被扣款捐赠184万元”?支付宝:涉事账户存在与他人共用嫌疑,不排除涉嫌违法犯罪的可能,正向警方寻求帮助

都市快报橙柿互动
2026-05-15 10:43:37
上海房东心态崩了?朋友卖房后租房坐看房价跌掉350万,这就是不被割韭菜的真相

上海房东心态崩了?朋友卖房后租房坐看房价跌掉350万,这就是不被割韭菜的真相

石辰搞笑日常
2026-05-15 10:57:32
2026-05-15 14:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13001文章数 142648关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

牛弹琴:中美元首历史性会晤 向世界释放五个信号

头条要闻

牛弹琴:中美元首历史性会晤 向世界释放五个信号

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

家居
房产
亲子
旅游
数码

家居要闻

110㎡淡而有致的生活表达

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

亲子要闻

女子花大价钱入住月子中心,多名月嫂的行为让她无法理解

旅游要闻

第36届莱州月季花节开幕

数码要闻

经典风格重现:华硕ROG CROSSHAIR 2026复刻版主板实物现身

无障碍浏览 进入关怀版