网易首页 > 网易号 > 正文 申请入驻

ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型

0
分享至

本文的研究课题是开集动作识别(open-vocabulary action recognition),具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小,因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型(主要是 CLIP)先在视频数据集上进行 fine-tuning,然后再进行测试集的验证。

通过实验探索,我们发现:尽管 fine-tuning 可以让CLIP具备不错的视频特征提取的能力,但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是,那些在闭集(closed-set)场景下优秀的视频分类器们,一到了开集场景下实验性能便大大缩水,甚至不如原先的预训练 CLIP 模型了。因此如何让视频模型在 fine-tuning 的同时还能保持住预训练的知识,成为了本文的研究重点。

论文标题: FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition 论文链接: https://arxiv.org/pdf/2402.03241 代码链接: https://github.com/Visual-AI/FROSTER

一、问题探究

我们首先尝试了一组在闭集场景下表现优异的 CLIP-based 的视频模型:Action CLIP [1] , AIM ST-Adapter [2] 以及 ST-Adapter [3]。具体的实验设置为:首先将模型在 Kinetics-400 上进行 fine-tuning,然后在 UCF-101,HMDB-51 以及 Kinetics-600 数据集上分别进行了测试。

需要特别注意的是,针对 Kinetics-600 数据集,我们将验证集中与 Kinetics-400 相同的类别剔除,以保证开集验证的可靠性。实验结果如下图 1 所示。

图1. 跨数据集性能探究

不难发现,在 UCF-101 与 HMDB-51 数据集上,fine-tune 模型的性能比 Frozen CLIP 更强,但是在 Kinetics-600 数据集上,fine-tune 模型的实验性能却比 frozen CLIP 要更弱。这种不一致的泛化性表现引起了我们的好奇心,因此我们进一步地去分析训练集(Kinetics-400)与各个测试集(UCF-101,HMDB-51 和 Kinetics-600)之间的类别相似性关系。

具体来说,我们用 CLIP 的 text encoder 提取不同数据集的各个类别的文本特征,然后利用余弦相似度进行类别相似性的度量。图 1 中,我们用小括号中的数字来表示数据集类别的相似度,如:UCF-101(0.805)。

我们注意到,在测试数据与训练数据具备更高相似度的数据集上(UCF-101 和 HMDB-51),fine-tune 模型相较 Frozen CLIP 的性能表现更加优异。反之,在 Kinetics-600 上,fine-tune 模型的性能则更弱。

针对这个现象,一个可能的解释是:在与训练数据更相似的测试类别上,模型通过 fine-tuning 学习到的知识可有效地被用作识别,因此性能更好。而在与训练数据不那么相似的测试类别上,模型需要更多地依赖预训练的泛化性知识,但这些知识已经在 fine-tune 的过程中被逐渐抹去了(典型的灾难遗忘问题(catastrophic forgetting issue)),因此 fine-tune 模型性能更差。

受这些实验现象的启发,我们认为一个基于 CLIP 的开集动作识别模型应该具备以下特点:

  1. 由于 CLIP 预训练是没有使用视频数据集的,因此模型需要学习视频域的相关知识(video-specific),用于弥补 CLIP 在时域建模方面的不足。

  2. 模型需要能保持住预训练 CLIP 的能力,这对于泛化性能力的保持很重要。

为了验证以上猜想,我们直接将 fine-tune 模型和 frozen clip 的结果进行相加后平均输出。如图 1 所示,可以发现 ensemble 的所有模型在三个数据集上的性能都获得了较大程度的提升,这有效地验证了我们的假设。但是直接采用 ensemble 的方式,计算量和参数量都将会成倍地增加。

二、方案设计

为了解决以上问题,如图 2 所示,我们提出了一种新的结构 FROSTER 用来同时实现以上两个目标:

针对第一点(时域建模),我们直接采用 cross-entropy loss 对 fine-tune 模型进行监督。

针对第二点(泛化性特征保持),我们将 frozen clip 作为 teacher 模型对 fine-tune 模型的特征进行蒸馏,借此希望预训练的能力能够得到很好地保持。蒸馏过程类似于一个正则化项,确保 fine-tune 特征不会偏离 frozen clip 的特征太远。因为有两个不同的目标,我们需要在它们之间平衡特征学习。

图2. 模型结构示意图

图3. 残差特征蒸馏

以冻结的 CLIP 模型作为教师模型,实现基于特征的蒸馏有两种常见的方法,如图所示 (a) 和 (b)。如图 (a) 所示,由于 fine-tune 模型和 frozen CLIP 输出特征的维度保持不变,我们可以直接在它们之间进行特征蒸馏,无需进行特征投影。然而,这种监督要求 fine-tune 特征保持与预训练特征相同,这限制了 fine-tune 特征学习视频知识的能力。

另一种可能的方法(如图 (b) 所示)是应用一个投影器,将 fine-tune 特征从学生空间映射到教师空间。这可以放宽对 fine-tune 特征的约束,以便更好地拟合视频数据。然而,在这种条件下,蒸馏 loss 对 fine-tune 特征的约束可能过于宽松,从而限制了其泛化能力。因此,我们需要在上述两种方法之间找到一个折中方案,考虑到两个学习目标。

受到 ResNet 残差设计的启发,我们提出了一个改进的残差网络,用于在进行蒸馏时平衡两个学习目标。这种设计背后的直觉是允许 fine-tune 特征有效地接受 frozen clip 的监督,同时也保持对视频特征的有效学习。如图 (c) 所示,我们在特征上应用一个改进的残差网络,通过两层 MLP 投影器和恒等映射来转换其表示。

残差特征映射

1. 由于转换中存在恒等映射,泛化目标 可以直接指导 的泛化学习,这与图(a)类似。但不同的是,给定投影项 ,我们不强制 与 相同,这使得 更灵活地拟合视频数据。

2. 是平衡两个目标学习中的重要因素。如果我们将它设置为一个较小的数值,学习到的 嵌入空间将在很大程度上受到教师模型的约束,否则 可能会过度拟合视频数据,损害泛化能力。在实验中,我们发现将 设置为相对较小的数值(例如,0.1)比大数值时能带来更好的性能。这一现象表明,预训练的 CLIP 已经具有强大的表示能力,因此我们只需要稍微调整它,以便从图像转移到视频。

3. 为确保 从预训练状态开始学习,我们将第二个全连接层 的参数初始化为零。因此,在微调开始时, 仅包含 ,并逐渐得到更新。

总的损失函数由两个部分组成:交叉墒 loss 和蒸馏 loss:


损失函数构成

三、实验结果

我们总的在两个实验设置下进行实验:base-to-novel 和 cross-dataset。

Base-to-novel是将每个数据集的类别分成两个不重叠的部分,完成在训练集类别上进行 16-shot 的训练后,在测试集上进行测试。实验数据集总共包含 K-400,HMDB-51,UCF-101 和 SSv2。

Cross-dataset是在 K-400 数据集上进行训练,然后在 HMDB-51,UCF-101 和 K-600 上进行测试。

下表为模型在 base-to-novel 和 cross-dataset 两个场景下的实验精度,FROSTER 均达到了最佳。

Base-to-novel 场景

Cross-dataset 场景

同时,FROSTER 还可以与不同的模型结构结合到一起,都能有效地提升实验结果。

FROSTER与不同模型结构结合

不同蒸馏方式的影响

可视化对比:我们的模型能够更多的关注到和动作类别有关的区域

四、总结

本文针对开集动作识别任务提出了一种的新的模型结构,用来同时实现视频特征和泛化性的学习。我们在两种场景下都达到了最优的识别性能。开集动作识别是一个较新的领域,目前还有很多可以探究的问题,希望社区的同行们多多关注!

参考文献

[1] Mengmeng Wang, Jiazheng Xing, and Yong Liu. Actionclip: A new paradigm for video action recognition. Arxiv e-prints, 2021.

[2] Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, and Mu Li. Aim: Adapting image models for efficient video action recognition. Arxiv e-prints, 2023.

[3] Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, and Hongsheng Li. St-adapter: Parameter-efficient image-to-video transfer learning. In NeurIPS, 2022.

来源:公众号【PaperWeekly】

llustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
600年前城砖上出现“刘德華”?南京官方回应

600年前城砖上出现“刘德華”?南京官方回应

澎湃新闻
2026-03-14 20:02:09
CCTV5直播!中国女足VS澳大利亚队,亚足联送助攻,进决赛容易了

CCTV5直播!中国女足VS澳大利亚队,亚足联送助攻,进决赛容易了

何老师呀
2026-03-15 16:08:29
2026广东3·15晚会重磅曝光!消毒餐具、宠物欺诈、食品添加全翻车

2026广东3·15晚会重磅曝光!消毒餐具、宠物欺诈、食品添加全翻车

时光寻觅者
2026-03-15 16:32:34
知名港星癌细胞扩散至脑部,闻到身上有尸臭味,剩四分之一条人命

知名港星癌细胞扩散至脑部,闻到身上有尸臭味,剩四分之一条人命

叨唠
2026-03-15 17:36:49
“租机套现”乱象频发,有人租机背上债务,单笔年化利率高达267%|3·15回头看

“租机套现”乱象频发,有人租机背上债务,单笔年化利率高达267%|3·15回头看

红星新闻
2026-03-15 12:02:18
“伊朗考虑过霍尔木兹的油轮用人民币结算”

“伊朗考虑过霍尔木兹的油轮用人民币结算”

上观新闻
2026-03-14 20:06:17
泽连斯基倒反天罡,900亿援助再不打钱,就下令炸了欧洲的天然气

泽连斯基倒反天罡,900亿援助再不打钱,就下令炸了欧洲的天然气

井普椿的独白
2026-03-14 17:25:11
喝三瓶牛奶被怒斥后续:亲朋已传开,夫妻未和解,丈夫眼神太可怕

喝三瓶牛奶被怒斥后续:亲朋已传开,夫妻未和解,丈夫眼神太可怕

削桐作琴
2026-03-13 18:27:06
南宁调查处置“超硫八角”问题 广西全区紧急排查整治

南宁调查处置“超硫八角”问题 广西全区紧急排查整治

环球网资讯
2026-03-15 17:19:21
上游 3・15丨零食“包装套路”调查:泡椒凤爪上的泡椒全靠印,红色年糕鱼拆开变白色

上游 3・15丨零食“包装套路”调查:泡椒凤爪上的泡椒全靠印,红色年糕鱼拆开变白色

上游新闻
2026-03-15 09:22:09
38岁老板娘沦为陪睡工具:揭秘黑茶高端骗局,入局者10有9个离婚

38岁老板娘沦为陪睡工具:揭秘黑茶高端骗局,入局者10有9个离婚

云景侃记
2026-02-12 22:21:30
赫敏又“上新”了,没有祝福,只有群嘲!

赫敏又“上新”了,没有祝福,只有群嘲!

新民周刊
2026-03-15 08:22:03
网红鸡爪乱象,重拳出击才能守护消费安全

网红鸡爪乱象,重拳出击才能守护消费安全

陈小兜律师
2026-03-15 21:04:36
韦太后被俘虏时正风韵犹存,在金国待了15年,金国士兵怎能放过她

韦太后被俘虏时正风韵犹存,在金国待了15年,金国士兵怎能放过她

掠影后有感
2026-03-15 10:21:09
7500枚炸弹,以色列灭国大轰炸,油库爆炸,9000万伊朗人存亡时刻

7500枚炸弹,以色列灭国大轰炸,油库爆炸,9000万伊朗人存亡时刻

古事寻踪记
2026-03-13 07:10:47
泽连斯基赌赢了!欧洲最强反导砸向乌克兰,俄导弹终于遇上死对头

泽连斯基赌赢了!欧洲最强反导砸向乌克兰,俄导弹终于遇上死对头

老马拉车莫少装
2026-03-15 21:26:37
他接受纪律审查和监察调查

他接受纪律审查和监察调查

锡望
2026-03-15 10:27:12
中国34岁女子在泰国被抛尸水沟,生前最后影像曝光!参加泳池派对后昏迷,被一男子拖上宝马车,警方已锁定嫌疑人,目前案件正在侦破中

中国34岁女子在泰国被抛尸水沟,生前最后影像曝光!参加泳池派对后昏迷,被一男子拖上宝马车,警方已锁定嫌疑人,目前案件正在侦破中

大风新闻
2026-03-14 20:49:07
存款达到这个数,你已经领先全国90%的家庭,别再焦虑了

存款达到这个数,你已经领先全国90%的家庭,别再焦虑了

老特有话说
2026-03-13 14:26:29
我喜欢的女明星,因为一张照片被推上风口浪尖

我喜欢的女明星,因为一张照片被推上风口浪尖

三个妈妈六个娃
2026-03-14 21:09:19
2026-03-15 22:15:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2310文章数 596关注度
往期回顾 全部

科技要闻

传裁员20%,新模型难产:Meta AI仍没理顺

头条要闻

315晚会:医美神药外泌体是三无产品 打完烂脸三个月

头条要闻

315晚会:医美神药外泌体是三无产品 打完烂脸三个月

体育要闻

卢卡绝杀掘金:湖人有季后赛氛围了?

娱乐要闻

《隐身的名字》定档!闫妮、倪妮联手

财经要闻

2026年央视“3·15”晚会

汽车要闻

倾听用户声音 东风奕派三款新车亮相

态度原创

手机
艺术
健康
公开课
军事航空

手机要闻

110万用户认可!华为Pura X成折叠屏新王,阔折叠才是未来

艺术要闻

15幅 完全源于生活的绘画作品

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗船只逼近美航母 美连开数炮全打空

无障碍浏览 进入关怀版