网易首页 > 网易号 > 正文 申请入驻

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

0
分享至

机器之心专栏

作者:林义杰

在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,正是促进该过程的关键技术。

然而,当下视频与文本描述间广泛存在的噪声关联现象严重阻碍了视频表征学习。因此本文中,研究者基于最优传输理论,提出鲁棒的长视频学习方案以应对该挑战。该论文被机器学习顶会 ICLR 2024 接收为了 Oral。

  • 论文题目:Multi-granularity Correspondence Learning from Long-term Noisy Videos
  • 论文地址:https://openreview.net/pdf?id=9Cu8MRmhq2
  • 项目地址:https://lin-yijie.github.io/projects/Norton
  • 代码地址:https://github.com/XLearning-SCU/2024-ICLR-Norton

背景与挑战

视频表征学习是多模态研究中最热门的问题之一。大规模视频 - 语言预训练已在多种视频理解任务中取得显著效果,例如视频检索、视觉问答、片段分割与定位等。目前大部分视频 - 语言预训练工作主要面向短视频的片段理解,忽略了长视频中存在的长时关联与依赖。

如下图 1 所示,长视频学习核心难点是如何去编码视频中的时序动态,目前的方案主要集中于设计定制化的视频网络编码器去捕捉长时依赖 [2],但通常面临很大的资源开销。

图 1:长视频数据示例 [2]。该视频中包含了复杂的故事情节和丰富的时序动态。每个句子只能描述一个简短的片段,理解整个视频需要具有长时关联推理能力。

由于长视频通常采用自动语言识别(ASR)得到相应的文本字幕,整个视频所对应的文本段落(Paragraph)可根据 ASR 文本时间戳切分为多个短的文本标题(Caption),同时长视频(Video)可相应切分为多个视频片段(Clip)。对视频片段与标题进行后期融合或对齐的策略相比直接编码整个视频更为高效,是长时时序关联学习的一种优选方案。

然而,视频片段与文本句子间广泛存在噪声关联现象(Noisy correspondence [3-4],NC),即视频内容与文本语料错误地对应 / 关联在一起。如下图 2 所示,视频与文本间会存在多粒度的噪声关联问题。

图 2:多粒度噪声关联。该示例中视频内容根据文本标题切分为 6 块。(左图)绿色时间线指示该文本可与视频内容对齐,红色时间线则指示该文本无法与整个视频中的内容对齐。t5 中的绿色文本表示与视频内容 v5 有关联的部分。(右图)虚线表示原本给定的对齐关系,红色指示原本对齐中错误的对齐关系,绿色则指示真实的对齐关系。实线表示通过 Dynamic Time Wraping 算法进行重新对齐的结果,其也未能很好地处理噪声关联挑战。

  • 粗粒度 NC(Clip-Caption 间)。粗粒度 NC 包括异步(Asynchronous)和不相关(Irrelevant)两类,区别在于该视频片段或标题能否与现有标题或视频片段相对应。其中「异步」指视频片段与标题间存在时序上的错位,例如图 2 中 t1。由于讲述者在实际执行动作的前后进行解释,导致陈述与行动的顺序不匹配。「不相关」则指无法与视频片段对齐的无意义标题(例如 t2 和 t6),或是无关的视频片段。根据牛津 Visual Geometry Group 的相关研究 [5],HowTo100M 数据集中只有约 30% 的视频片段与标题在视觉上是可对齐的,而仅有 15% 是原本就对齐的;
  • 细粒度 NC(Frame-Word 间)。针对一个视频片段,可能一句文本描述中只有部分文字与其相关。在图 2 中,标题 t5 中「糖撒在上面」与视觉内容 v5 强相关,但动作「观察釉面脱落」则与视觉内容并不相关。无关的单词或视频帧可能会阻碍关键信息提取,从而影响片段与标题间的对齐。

方法

本文提出噪声鲁棒的时序最优传输(NOise Robust Temporal Optimal transport, Norton),通过视频 - 段落级对比学习与片段 - 标题级对比学习,以后期融合的方式从多个粒度学习视频表征,显著节省了训练时间开销。

图 3 视频 - 段落对比算法框架图。

1)视频 - 段落对比。如图 3 所示,研究者以 fine-to-coarse 的策略进行多粒度关联学习。首先利用帧 - 词间相关性得到片段 - 标题间相关性,并进一步聚集得到视频 - 段落间相关性,最终通过视频级对比学习捕捉长时序关联。针对多粒度噪声关联挑战,具体应对如下:

  • 面向细粒度 NC。研究者采用 log-sum-exp 近似作为 Soft-maximum 算子去识别帧 - 词和词 - 帧对齐中的关键词和关键帧,以细粒度的交互方式实现重要信息抽取,累计得到片段 - 标题相似性。
  • 面向粗粒度异步 NC。研究者采用最优传输距离作为视频片段和标题之间的距离度量。给定视频片段 - 文本标题间相似性矩阵,其中表示片段与标题个数,最优传输目标为最大化整体对齐相似性,可天然处理时序异步或一对多(如 t3 与 v4,v5 对应)的复杂对齐情况。

实验

本文旨在克服噪声关联以提升模型对长视频的理解能力。我们通过视频检索、问答、动作分割等具体任务进行验证,部分实验结果如下。

1)长视频检索

该任务目标为给定文本段落,检索对应的长视频。在 YouCookII 数据集上,依据是否保留文本无关的视频片段,研究者测试了背景保留与背景移除两种场景。他们采用 Caption Average、DTW 与 OTAM 三种相似性度量准则。Caption Average 为文本段落中每个标题匹配一个最优视频片段,最终召回匹配数最多的长视频。DTW 和 OTAM 按时间顺序累计视频与文本段落间距离。结果如下表 1、2 所示。

表 1、2 在 YouCookII 数据集上的长视频检索性能比较

2)噪声关联鲁棒性分析

牛津 Visual Geometry Group 对 HowTo100M 中的视频进行了手工重标注,对每个文本标题重新标注正确的时间戳。产出的 HTM-Align 数据集 [5] 包含 80 个视频与 49K 条文本。在该数据集上进行视频检索主要验证模型是否过度拟合了噪声关联,结果如下表 9 所示。

表 9 在 HTM-Align 数据集上针对噪声关联的有效性分析

总结与展望

本文是噪声关联学习 [3][4]—— 数据错配 / 错误关联的深入延续,研究多模态视频 - 文本预训练面临的多粒度噪声关联问题,所提出的长视频学习方法能够以较低资源开销扩展到更广泛的视频数据中。

展望未来,研究者可进一步探讨多种模态间的关联问题,例如视频往往包含视觉、文本及音频信号;可尝试结合外部大语言模型(LLM)或多模态模型(BLIP-2)来清洗和重组织文本语料;以及探索将噪声作为模型训练正激励的可能性,而非仅仅抑制噪声的负面影响。

参考文献:

1. 机器之心,“Yann LeCun:生成模型不适合处理视频,AI 得在抽象空间中进行预测”,2024-01-23.

2.Sun, Y., Xue, H., Song, R., Liu, B., Yang, H., & Fu, J. (2022). Long-form video-language pre-training with multimodal temporal contrastive learning. Advances in neural information processing systems, 35, 38032-38045.

3.Huang, Z., Niu, G., Liu, X., Ding, W., Xiao, X., Wu, H., & Peng, X. (2021). Learning with noisy correspondence for cross-modal matching. Advances in Neural Information Processing Systems, 34, 29406-29419.

4.Lin, Y., Yang, M., Yu, J., Hu, P., Zhang, C., & Peng, X. (2023). Graph matching with bi-level noisy correspondence. In Proceedings of the IEEE/CVF international conference on computer vision.

5.Han, T., Xie, W., & Zisserman, A. (2022). Temporal alignment networks for long-term video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2906-2916).

6.Sarlin, P. E., DeTone, D., Malisiewicz, T., & Rabinovich, A. (2020). Superglue: Learning feature matching with graph neural networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 4938-4947).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国各地区人均居民存款排行:北京领跑,浙江亮眼,东北三省也很高

全国各地区人均居民存款排行:北京领跑,浙江亮眼,东北三省也很高

户外钓鱼哥阿旱
2026-04-18 12:49:37
下周预期要大涨方向!五大热点题材周末不断发酵  核心标的已梳理

下周预期要大涨方向!五大热点题材周末不断发酵 核心标的已梳理

元芳说投资
2026-04-19 17:03:48
微信这个开关不关,你住哪、干啥,别人全知道!快关掉!

微信这个开关不关,你住哪、干啥,别人全知道!快关掉!

侃故事的阿庆
2026-04-18 17:54:13
亨利·卡维尔为胸毛据理力争:一个被忽视的超人设计细节

亨利·卡维尔为胸毛据理力争:一个被忽视的超人设计细节

热搜摘要官
2026-04-19 00:06:49
进去就没命!四川黄泉路有去无回,政府封禁400年,至今无解!

进去就没命!四川黄泉路有去无回,政府封禁400年,至今无解!

网络易不易
2026-04-19 14:59:01
山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

极目新闻
2026-04-19 14:06:31
伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

风信子的花
2026-04-19 16:46:59
美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

贱议你读史
2026-04-19 04:30:07
局势生变,全球接到消息,美军全部撤离,所有军事基地被叙国接管

局势生变,全球接到消息,美军全部撤离,所有军事基地被叙国接管

闻识
2026-04-19 21:08:29
以军:打死阿里·里达·阿巴斯

以军:打死阿里·里达·阿巴斯

南方都市报
2026-04-19 21:17:31
世锦赛战报:4-10,赛会第23位冠军出局,中国2位,16强决出3席了

世锦赛战报:4-10,赛会第23位冠军出局,中国2位,16强决出3席了

求球不落谛
2026-04-19 23:35:24
世锦赛战报:丁俊晖王者归来7-2领先,中国冠军连输6局6-10一轮游

世锦赛战报:丁俊晖王者归来7-2领先,中国冠军连输6局6-10一轮游

球场没跑道
2026-04-19 20:28:00
罕见!黄仁勋谈芯片禁售突然情绪失控:你不是在和一个Loser说话

罕见!黄仁勋谈芯片禁售突然情绪失控:你不是在和一个Loser说话

DeepAuto车探
2026-04-19 20:37:54
被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

夜深爱杂谈
2025-12-02 20:51:10
男演员宣布中止合作!知名品牌翻车,创始人深夜致歉:严重失责,已开除涉事主播

男演员宣布中止合作!知名品牌翻车,创始人深夜致歉:严重失责,已开除涉事主播

鲁中晨报
2026-04-17 11:28:05
中俄关系比传统“联盟”更深厚、更可靠

中俄关系比传统“联盟”更深厚、更可靠

看看新闻Knews
2026-04-19 08:36:10
曼城2-1阿森纳,赛后评分:不是哈兰德第一,曼城10号第一

曼城2-1阿森纳,赛后评分:不是哈兰德第一,曼城10号第一

侧身凌空斩
2026-04-20 01:26:44
胡锡进以安全代言沃尔沃,是整个社会的耻辱

胡锡进以安全代言沃尔沃,是整个社会的耻辱

黔有虎
2026-04-19 17:34:12
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
小学生拒绝“借”车遭殴打还被搜家,8人未满14岁不处罚、1人被处行拘免执行,家长称看施暴视频气得吃救心丸

小学生拒绝“借”车遭殴打还被搜家,8人未满14岁不处罚、1人被处行拘免执行,家长称看施暴视频气得吃救心丸

极目新闻
2026-04-19 22:39:27
2026-04-20 02:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12795文章数 142632关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

时尚
房产
旅游
亲子
军事航空

装修“精神角落”,就是这么上瘾

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

旅游要闻

北京投入2.2亿元建成和田“三馆一院”

亲子要闻

孩子总打喷嚏、起疹子,时过敏吗?

军事要闻

伊朗逼退美扫雷艇:美方求给15分钟撤退

无障碍浏览 进入关怀版