网易首页 > 网易号 > 正文 申请入驻

ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型

0
分享至

本文的研究课题是开集动作识别(open-vocabulary action recognition),具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小,因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型(主要是 CLIP)先在视频数据集上进行 fine-tuning,然后再进行测试集的验证。

通过实验探索,我们发现:尽管 fine-tuning 可以让CLIP具备不错的视频特征提取的能力,但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是,那些在闭集(closed-set)场景下优秀的视频分类器们,一到了开集场景下实验性能便大大缩水,甚至不如原先的预训练 CLIP 模型了。因此如何让视频模型在 fine-tuning 的同时还能保持住预训练的知识,成为了本文的研究重点。

论文标题: FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition 论文链接: https://arxiv.org/pdf/2402.03241 代码链接: https://github.com/Visual-AI/FROSTER

一、问题探究

我们首先尝试了一组在闭集场景下表现优异的 CLIP-based 的视频模型:Action CLIP [1] , AIM ST-Adapter [2] 以及 ST-Adapter [3]。具体的实验设置为:首先将模型在 Kinetics-400 上进行 fine-tuning,然后在 UCF-101,HMDB-51 以及 Kinetics-600 数据集上分别进行了测试。

需要特别注意的是,针对 Kinetics-600 数据集,我们将验证集中与 Kinetics-400 相同的类别剔除,以保证开集验证的可靠性。实验结果如下图 1 所示。

图1. 跨数据集性能探究

不难发现,在 UCF-101 与 HMDB-51 数据集上,fine-tune 模型的性能比 Frozen CLIP 更强,但是在 Kinetics-600 数据集上,fine-tune 模型的实验性能却比 frozen CLIP 要更弱。这种不一致的泛化性表现引起了我们的好奇心,因此我们进一步地去分析训练集(Kinetics-400)与各个测试集(UCF-101,HMDB-51 和 Kinetics-600)之间的类别相似性关系。

具体来说,我们用 CLIP 的 text encoder 提取不同数据集的各个类别的文本特征,然后利用余弦相似度进行类别相似性的度量。图 1 中,我们用小括号中的数字来表示数据集类别的相似度,如:UCF-101(0.805)。

我们注意到,在测试数据与训练数据具备更高相似度的数据集上(UCF-101 和 HMDB-51),fine-tune 模型相较 Frozen CLIP 的性能表现更加优异。反之,在 Kinetics-600 上,fine-tune 模型的性能则更弱。

针对这个现象,一个可能的解释是:在与训练数据更相似的测试类别上,模型通过 fine-tuning 学习到的知识可有效地被用作识别,因此性能更好。而在与训练数据不那么相似的测试类别上,模型需要更多地依赖预训练的泛化性知识,但这些知识已经在 fine-tune 的过程中被逐渐抹去了(典型的灾难遗忘问题(catastrophic forgetting issue)),因此 fine-tune 模型性能更差。

受这些实验现象的启发,我们认为一个基于 CLIP 的开集动作识别模型应该具备以下特点:

  1. 由于 CLIP 预训练是没有使用视频数据集的,因此模型需要学习视频域的相关知识(video-specific),用于弥补 CLIP 在时域建模方面的不足。

  2. 模型需要能保持住预训练 CLIP 的能力,这对于泛化性能力的保持很重要。

为了验证以上猜想,我们直接将 fine-tune 模型和 frozen clip 的结果进行相加后平均输出。如图 1 所示,可以发现 ensemble 的所有模型在三个数据集上的性能都获得了较大程度的提升,这有效地验证了我们的假设。但是直接采用 ensemble 的方式,计算量和参数量都将会成倍地增加。

二、方案设计

为了解决以上问题,如图 2 所示,我们提出了一种新的结构 FROSTER 用来同时实现以上两个目标:

针对第一点(时域建模),我们直接采用 cross-entropy loss 对 fine-tune 模型进行监督。

针对第二点(泛化性特征保持),我们将 frozen clip 作为 teacher 模型对 fine-tune 模型的特征进行蒸馏,借此希望预训练的能力能够得到很好地保持。蒸馏过程类似于一个正则化项,确保 fine-tune 特征不会偏离 frozen clip 的特征太远。因为有两个不同的目标,我们需要在它们之间平衡特征学习。

图2. 模型结构示意图

图3. 残差特征蒸馏

以冻结的 CLIP 模型作为教师模型,实现基于特征的蒸馏有两种常见的方法,如图所示 (a) 和 (b)。如图 (a) 所示,由于 fine-tune 模型和 frozen CLIP 输出特征的维度保持不变,我们可以直接在它们之间进行特征蒸馏,无需进行特征投影。然而,这种监督要求 fine-tune 特征保持与预训练特征相同,这限制了 fine-tune 特征学习视频知识的能力。

另一种可能的方法(如图 (b) 所示)是应用一个投影器,将 fine-tune 特征从学生空间映射到教师空间。这可以放宽对 fine-tune 特征的约束,以便更好地拟合视频数据。然而,在这种条件下,蒸馏 loss 对 fine-tune 特征的约束可能过于宽松,从而限制了其泛化能力。因此,我们需要在上述两种方法之间找到一个折中方案,考虑到两个学习目标。

受到 ResNet 残差设计的启发,我们提出了一个改进的残差网络,用于在进行蒸馏时平衡两个学习目标。这种设计背后的直觉是允许 fine-tune 特征有效地接受 frozen clip 的监督,同时也保持对视频特征的有效学习。如图 (c) 所示,我们在特征上应用一个改进的残差网络,通过两层 MLP 投影器和恒等映射来转换其表示。

残差特征映射

1. 由于转换中存在恒等映射,泛化目标 可以直接指导 的泛化学习,这与图(a)类似。但不同的是,给定投影项 ,我们不强制 与 相同,这使得 更灵活地拟合视频数据。

2. 是平衡两个目标学习中的重要因素。如果我们将它设置为一个较小的数值,学习到的 嵌入空间将在很大程度上受到教师模型的约束,否则 可能会过度拟合视频数据,损害泛化能力。在实验中,我们发现将 设置为相对较小的数值(例如,0.1)比大数值时能带来更好的性能。这一现象表明,预训练的 CLIP 已经具有强大的表示能力,因此我们只需要稍微调整它,以便从图像转移到视频。

3. 为确保 从预训练状态开始学习,我们将第二个全连接层 的参数初始化为零。因此,在微调开始时, 仅包含 ,并逐渐得到更新。

总的损失函数由两个部分组成:交叉墒 loss 和蒸馏 loss:


损失函数构成

三、实验结果

我们总的在两个实验设置下进行实验:base-to-novel 和 cross-dataset。

Base-to-novel是将每个数据集的类别分成两个不重叠的部分,完成在训练集类别上进行 16-shot 的训练后,在测试集上进行测试。实验数据集总共包含 K-400,HMDB-51,UCF-101 和 SSv2。

Cross-dataset是在 K-400 数据集上进行训练,然后在 HMDB-51,UCF-101 和 K-600 上进行测试。

下表为模型在 base-to-novel 和 cross-dataset 两个场景下的实验精度,FROSTER 均达到了最佳。

Base-to-novel 场景

Cross-dataset 场景

同时,FROSTER 还可以与不同的模型结构结合到一起,都能有效地提升实验结果。

FROSTER与不同模型结构结合

不同蒸馏方式的影响

可视化对比:我们的模型能够更多的关注到和动作类别有关的区域

四、总结

本文针对开集动作识别任务提出了一种的新的模型结构,用来同时实现视频特征和泛化性的学习。我们在两种场景下都达到了最优的识别性能。开集动作识别是一个较新的领域,目前还有很多可以探究的问题,希望社区的同行们多多关注!

参考文献

[1] Mengmeng Wang, Jiazheng Xing, and Yong Liu. Actionclip: A new paradigm for video action recognition. Arxiv e-prints, 2021.

[2] Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, and Mu Li. Aim: Adapting image models for efficient video action recognition. Arxiv e-prints, 2023.

[3] Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, and Hongsheng Li. St-adapter: Parameter-efficient image-to-video transfer learning. In NeurIPS, 2022.

来源:公众号【PaperWeekly】

llustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么曾经战无不胜的蒙古骑兵到了明清就越来越拉胯了?

为什么曾经战无不胜的蒙古骑兵到了明清就越来越拉胯了?

历史按察使司
2025-12-29 10:41:18
历史玩笑!乌克兰还没倒下,垄断全球富豪资产的瑞士,先顶不住了

历史玩笑!乌克兰还没倒下,垄断全球富豪资产的瑞士,先顶不住了

至死不渝的爱情
2025-12-10 15:32:29
45岁家长放学护岗时晕倒送医后死亡,校方是否需要担责?律师解读

45岁家长放学护岗时晕倒送医后死亡,校方是否需要担责?律师解读

极目新闻
2025-12-30 12:29:55
神仙木有她美丽,黑丝哪有白衬衫性感

神仙木有她美丽,黑丝哪有白衬衫性感

贵圈真乱
2025-12-12 12:12:10
宿茂臻:泰山小将去欧塞尔大约半年,一周一赛对他们是有利的

宿茂臻:泰山小将去欧塞尔大约半年,一周一赛对他们是有利的

懂球帝
2025-12-30 13:00:08
钓鱼佬的身份有多离谱?网友:我去钓鱼碰到了市长,还请我吃杨梅

钓鱼佬的身份有多离谱?网友:我去钓鱼碰到了市长,还请我吃杨梅

另子维爱读史
2025-12-11 20:33:40
医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

深度报
2025-12-21 23:01:02
美国专家:中国突破禁令的方式简单粗暴,日本将助中国科技腾飞

美国专家:中国突破禁令的方式简单粗暴,日本将助中国科技腾飞

安珈使者啊
2025-12-30 14:22:36
《亚洲周刊》文章清空!禁止发言!最后把自己干没了!

《亚洲周刊》文章清空!禁止发言!最后把自己干没了!

一支破笔半支烟
2025-12-30 14:15:55
普京险遭“斩首”,特朗普大怒,泽连斯基否认,俄军报复箭在弦上

普京险遭“斩首”,特朗普大怒,泽连斯基否认,俄军报复箭在弦上

起喜电影
2025-12-30 14:14:27
数据:世界大赛中国黑马频出,申真谞今年第4次倒在血泊中

数据:世界大赛中国黑马频出,申真谞今年第4次倒在血泊中

L76号
2025-12-29 09:21:09
委内瑞拉:摧毁8架飞机、4个营地

委内瑞拉:摧毁8架飞机、4个营地

参考消息
2025-12-30 14:25:56
湖北跑友李峰去世,年仅45岁,月跑量超300公里,前一天还在跑步

湖北跑友李峰去世,年仅45岁,月跑量超300公里,前一天还在跑步

180视角
2025-12-30 13:34:06
每体:佩德里刚来巴萨的时候,梅西问总监:你从哪找来的?

每体:佩德里刚来巴萨的时候,梅西问总监:你从哪找来的?

懂球帝
2025-12-30 10:01:54
特朗普终于回应了,想一句话就镇住场子,解放军离登岛只差一步!

特朗普终于回应了,想一句话就镇住场子,解放军离登岛只差一步!

阿伧说事
2025-12-30 14:25:49
67岁王朔现状:满头白发神似李亚鹏,手上没钱,靠朋友接济过活

67岁王朔现状:满头白发神似李亚鹏,手上没钱,靠朋友接济过活

一盅情怀
2025-12-29 17:11:04
2026年“国补”定调,范围标准大调整

2026年“国补”定调,范围标准大调整

环球网资讯
2025-12-29 16:52:38
在岸人民币兑美元升至2023年5月以来最强水平

在岸人民币兑美元升至2023年5月以来最强水平

每日经济新闻
2025-12-30 12:58:08
中国最排面的婴儿:出生时军队保护产房,国家鸣13响礼炮为他庆生

中国最排面的婴儿:出生时军队保护产房,国家鸣13响礼炮为他庆生

丰谭笔录
2025-12-30 10:48:23
高市早苗首次提出对台海出兵,日本高层的反应,果然不出中国所料

高市早苗首次提出对台海出兵,日本高层的反应,果然不出中国所料

普览
2025-11-13 00:31:54
2025-12-30 15:32:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2295文章数 596关注度
往期回顾 全部

科技要闻

估值150亿的智元,开始批量"制造"小独角兽

头条要闻

55岁大姐"收到"男友800万元财产 被夸"好漂亮好可爱"

头条要闻

55岁大姐"收到"男友800万元财产 被夸"好漂亮好可爱"

体育要闻

这个59岁的胖子,还在表演“蝎子摆尾”

娱乐要闻

林俊杰官宣文案争议!女方名字都不提

财经要闻

朱光耀:美关税政策正使WTO名存实亡

汽车要闻

标配华为乾崑ADS 4 Pro 华境S明年上半年上市

态度原创

艺术
旅游
教育
游戏
健康

艺术要闻

谢稚柳雪景山水20图

旅游要闻

已经官宣!这条新开通的高铁沿线有啥好吃好玩的?

教育要闻

速算技巧:612÷9,直接口算

任天堂老掌机二手价格暴涨!几乎赶上Switch?

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版