网易首页 > 网易号 > 正文 申请入驻

ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型

0
分享至

本文的研究课题是开集动作识别(open-vocabulary action recognition),具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小,因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型(主要是 CLIP)先在视频数据集上进行 fine-tuning,然后再进行测试集的验证。

通过实验探索,我们发现:尽管 fine-tuning 可以让CLIP具备不错的视频特征提取的能力,但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是,那些在闭集(closed-set)场景下优秀的视频分类器们,一到了开集场景下实验性能便大大缩水,甚至不如原先的预训练 CLIP 模型了。因此如何让视频模型在 fine-tuning 的同时还能保持住预训练的知识,成为了本文的研究重点。

论文标题: FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition 论文链接: https://arxiv.org/pdf/2402.03241 代码链接: https://github.com/Visual-AI/FROSTER

一、问题探究

我们首先尝试了一组在闭集场景下表现优异的 CLIP-based 的视频模型:Action CLIP [1] , AIM ST-Adapter [2] 以及 ST-Adapter [3]。具体的实验设置为:首先将模型在 Kinetics-400 上进行 fine-tuning,然后在 UCF-101,HMDB-51 以及 Kinetics-600 数据集上分别进行了测试。

需要特别注意的是,针对 Kinetics-600 数据集,我们将验证集中与 Kinetics-400 相同的类别剔除,以保证开集验证的可靠性。实验结果如下图 1 所示。

图1. 跨数据集性能探究

不难发现,在 UCF-101 与 HMDB-51 数据集上,fine-tune 模型的性能比 Frozen CLIP 更强,但是在 Kinetics-600 数据集上,fine-tune 模型的实验性能却比 frozen CLIP 要更弱。这种不一致的泛化性表现引起了我们的好奇心,因此我们进一步地去分析训练集(Kinetics-400)与各个测试集(UCF-101,HMDB-51 和 Kinetics-600)之间的类别相似性关系。

具体来说,我们用 CLIP 的 text encoder 提取不同数据集的各个类别的文本特征,然后利用余弦相似度进行类别相似性的度量。图 1 中,我们用小括号中的数字来表示数据集类别的相似度,如:UCF-101(0.805)。

我们注意到,在测试数据与训练数据具备更高相似度的数据集上(UCF-101 和 HMDB-51),fine-tune 模型相较 Frozen CLIP 的性能表现更加优异。反之,在 Kinetics-600 上,fine-tune 模型的性能则更弱。

针对这个现象,一个可能的解释是:在与训练数据更相似的测试类别上,模型通过 fine-tuning 学习到的知识可有效地被用作识别,因此性能更好。而在与训练数据不那么相似的测试类别上,模型需要更多地依赖预训练的泛化性知识,但这些知识已经在 fine-tune 的过程中被逐渐抹去了(典型的灾难遗忘问题(catastrophic forgetting issue)),因此 fine-tune 模型性能更差。

受这些实验现象的启发,我们认为一个基于 CLIP 的开集动作识别模型应该具备以下特点:

  1. 由于 CLIP 预训练是没有使用视频数据集的,因此模型需要学习视频域的相关知识(video-specific),用于弥补 CLIP 在时域建模方面的不足。

  2. 模型需要能保持住预训练 CLIP 的能力,这对于泛化性能力的保持很重要。

为了验证以上猜想,我们直接将 fine-tune 模型和 frozen clip 的结果进行相加后平均输出。如图 1 所示,可以发现 ensemble 的所有模型在三个数据集上的性能都获得了较大程度的提升,这有效地验证了我们的假设。但是直接采用 ensemble 的方式,计算量和参数量都将会成倍地增加。

二、方案设计

为了解决以上问题,如图 2 所示,我们提出了一种新的结构 FROSTER 用来同时实现以上两个目标:

针对第一点(时域建模),我们直接采用 cross-entropy loss 对 fine-tune 模型进行监督。

针对第二点(泛化性特征保持),我们将 frozen clip 作为 teacher 模型对 fine-tune 模型的特征进行蒸馏,借此希望预训练的能力能够得到很好地保持。蒸馏过程类似于一个正则化项,确保 fine-tune 特征不会偏离 frozen clip 的特征太远。因为有两个不同的目标,我们需要在它们之间平衡特征学习。

图2. 模型结构示意图

图3. 残差特征蒸馏

以冻结的 CLIP 模型作为教师模型,实现基于特征的蒸馏有两种常见的方法,如图所示 (a) 和 (b)。如图 (a) 所示,由于 fine-tune 模型和 frozen CLIP 输出特征的维度保持不变,我们可以直接在它们之间进行特征蒸馏,无需进行特征投影。然而,这种监督要求 fine-tune 特征保持与预训练特征相同,这限制了 fine-tune 特征学习视频知识的能力。

另一种可能的方法(如图 (b) 所示)是应用一个投影器,将 fine-tune 特征从学生空间映射到教师空间。这可以放宽对 fine-tune 特征的约束,以便更好地拟合视频数据。然而,在这种条件下,蒸馏 loss 对 fine-tune 特征的约束可能过于宽松,从而限制了其泛化能力。因此,我们需要在上述两种方法之间找到一个折中方案,考虑到两个学习目标。

受到 ResNet 残差设计的启发,我们提出了一个改进的残差网络,用于在进行蒸馏时平衡两个学习目标。这种设计背后的直觉是允许 fine-tune 特征有效地接受 frozen clip 的监督,同时也保持对视频特征的有效学习。如图 (c) 所示,我们在特征上应用一个改进的残差网络,通过两层 MLP 投影器和恒等映射来转换其表示。

残差特征映射

1. 由于转换中存在恒等映射,泛化目标 可以直接指导 的泛化学习,这与图(a)类似。但不同的是,给定投影项 ,我们不强制 与 相同,这使得 更灵活地拟合视频数据。

2. 是平衡两个目标学习中的重要因素。如果我们将它设置为一个较小的数值,学习到的 嵌入空间将在很大程度上受到教师模型的约束,否则 可能会过度拟合视频数据,损害泛化能力。在实验中,我们发现将 设置为相对较小的数值(例如,0.1)比大数值时能带来更好的性能。这一现象表明,预训练的 CLIP 已经具有强大的表示能力,因此我们只需要稍微调整它,以便从图像转移到视频。

3. 为确保 从预训练状态开始学习,我们将第二个全连接层 的参数初始化为零。因此,在微调开始时, 仅包含 ,并逐渐得到更新。

总的损失函数由两个部分组成:交叉墒 loss 和蒸馏 loss:


损失函数构成

三、实验结果

我们总的在两个实验设置下进行实验:base-to-novel 和 cross-dataset。

Base-to-novel是将每个数据集的类别分成两个不重叠的部分,完成在训练集类别上进行 16-shot 的训练后,在测试集上进行测试。实验数据集总共包含 K-400,HMDB-51,UCF-101 和 SSv2。

Cross-dataset是在 K-400 数据集上进行训练,然后在 HMDB-51,UCF-101 和 K-600 上进行测试。

下表为模型在 base-to-novel 和 cross-dataset 两个场景下的实验精度,FROSTER 均达到了最佳。

Base-to-novel 场景

Cross-dataset 场景

同时,FROSTER 还可以与不同的模型结构结合到一起,都能有效地提升实验结果。

FROSTER与不同模型结构结合

不同蒸馏方式的影响

可视化对比:我们的模型能够更多的关注到和动作类别有关的区域

四、总结

本文针对开集动作识别任务提出了一种的新的模型结构,用来同时实现视频特征和泛化性的学习。我们在两种场景下都达到了最优的识别性能。开集动作识别是一个较新的领域,目前还有很多可以探究的问题,希望社区的同行们多多关注!

参考文献

[1] Mengmeng Wang, Jiazheng Xing, and Yong Liu. Actionclip: A new paradigm for video action recognition. Arxiv e-prints, 2021.

[2] Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, and Mu Li. Aim: Adapting image models for efficient video action recognition. Arxiv e-prints, 2023.

[3] Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, and Hongsheng Li. St-adapter: Parameter-efficient image-to-video transfer learning. In NeurIPS, 2022.

来源:公众号【PaperWeekly】

llustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴萨读秒绝平纽卡!徐亮点评:强度碾压暴露差距,平局已是极限!

巴萨读秒绝平纽卡!徐亮点评:强度碾压暴露差距,平局已是极限!

田先生篮球
2026-03-11 06:59:55
75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

观察鉴娱
2026-02-24 10:05:49
张兰回京3天干4件事,汪小菲直接认怂,难怪当年大S“斗不过”她

张兰回京3天干4件事,汪小菲直接认怂,难怪当年大S“斗不过”她

离离言几许
2026-03-09 21:38:25
全球追杀开始了!美国,更大的噩梦来了!

全球追杀开始了!美国,更大的噩梦来了!

大嘴说天下
2026-03-09 22:28:27
钱再多有什么用?2个女儿惨死 3个儿子反目,千亿家产换不来亲情

钱再多有什么用?2个女儿惨死 3个儿子反目,千亿家产换不来亲情

今墨缘
2026-03-09 20:06:28
岳父大寿上,小舅子逼我平摊5万买车,我三句话让他当众下不来台

岳父大寿上,小舅子逼我平摊5万买车,我三句话让他当众下不来台

云端小院
2026-03-10 10:00:05
新金碟豹女团爆火!承接各大宴会,一场不到2万,满满的青春洋溢

新金碟豹女团爆火!承接各大宴会,一场不到2万,满满的青春洋溢

TVB的四小花
2026-03-11 00:13:36
为啥没人买A卡了!NVIDIA拿下独显市场94%份额:AMD暴跌至5%创历史新低

为啥没人买A卡了!NVIDIA拿下独显市场94%份额:AMD暴跌至5%创历史新低

快科技
2026-03-08 15:57:24
02年,台湾老兵回江苏探亲时酒后失言,女儿:您曾是共产党的兵?

02年,台湾老兵回江苏探亲时酒后失言,女儿:您曾是共产党的兵?

历史龙元阁
2026-03-02 11:40:08
王炸!32.3万起!全新奥迪A6L预售,这配置比5系还香?

王炸!32.3万起!全新奥迪A6L预售,这配置比5系还香?

阿芒娱乐说
2026-03-11 06:21:40
女足亚洲杯8强出炉:东亚占5席 1/4决赛对阵确定 前6名直通世界杯

女足亚洲杯8强出炉:东亚占5席 1/4决赛对阵确定 前6名直通世界杯

我爱英超
2026-03-10 19:08:57
43天寒假无休送外卖挣万元,财务管理专业大三学生收获人生“第一桶金”

43天寒假无休送外卖挣万元,财务管理专业大三学生收获人生“第一桶金”

封面新闻
2026-03-09 13:14:08
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
中途岛海战结束后,大败而归的日本海军官兵,其下场有多惨?

中途岛海战结束后,大败而归的日本海军官兵,其下场有多惨?

新一说史
2026-03-10 19:30:23
安德鲁王子膝盖坐女孩亲密搂腰!已被软禁,抗议迫使王室取消直播

安德鲁王子膝盖坐女孩亲密搂腰!已被软禁,抗议迫使王室取消直播

译言
2026-03-11 04:08:01
成本暴涨!OPPO 正式官宣大涨价

成本暴涨!OPPO 正式官宣大涨价

XCiOS俱乐部
2026-03-10 18:09:35
上海新一年度个人住房房产税应税房价分界线公布

上海新一年度个人住房房产税应税房价分界线公布

澎湃新闻
2026-03-10 20:04:28
鸿蒙智行2月各车型销量出炉:仅问界M7一车破万台

鸿蒙智行2月各车型销量出炉:仅问界M7一车破万台

快科技
2026-03-11 00:18:13
殡葬师提醒:清明去公墓扫墓,务必带齐这5样东西

殡葬师提醒:清明去公墓扫墓,务必带齐这5样东西

娱乐圈见解说
2026-03-10 15:09:09
伊朗第30轮反击:集束弹炸遍以色列,俘虏多名美军

伊朗第30轮反击:集束弹炸遍以色列,俘虏多名美军

草莓信箱
2026-03-11 06:26:43
2026-03-11 07:32:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2305文章数 596关注度
往期回顾 全部

科技要闻

全民"养虾"背后:大厂集体下场疯狂卖Token

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

房产
亲子
游戏
本地
公开课

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

亲子要闻

老婆怀的是女孩吗?

小萝莉解锁双里程碑!试玩版下载量、愿望单同破200万

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版