网易首页 > 网易号 > 正文 申请入驻

CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同

0
分享至

不平衡多模态学习问题(imbalanced multimodal learning problem)在近年已经引起了广泛关注。但在现有方法中,该样本级的模态差异并未被关注,也难以被观测。如何评估并缓解这种细粒度的样本级模态差异是亟待解决的问题。因此,本文聚焦于多模态合作学习的新视角--样本级的模态评估与协同。

本文提出了样本级采样方法,结合细粒度模态贡献差异评估的结果,通过针对性采样的策略,促进样本级模态差异的缓解。通过针对性采样策略增强对低贡献模态的学习,从何使得模态贡献更加均衡,达到了更好的多模态合作效果。

论文题目: Enhancing Multimodal Cooperation via Sample-level Modality Valuation 论文链接: https://arxiv.org/pdf/2309.06255 代码链接: https://github.com/GeWu-Lab/Valuate-and-Enhance-Multimodal-Cooperation

一、概述:样本级多模态差异的评估与解决

不平衡多模态学习问题(imbalanced multimodal learning problem)在近年已经引起了广泛关注。具体来说,在多模态学习中,往往采用联合训练的方式对各个模态同时进行学习。而模态间在特性、信息量等方面的差异导致在联合训练中,往往存在更易于学习的模态,模型对其的偏好主导了训练进程,导致其他模态未能被充分学习,抑制多模态学习的性能。

对于这一问题,近年来已经有许多研究者从优化、目标函数等方面给出了不同的解决方案(包括本实验室的论文:CVPR 2022 [1],ICASSP 2023 [2] 及 ICLR 2024)。在现有的方法中,往往从数据集整体的角度考虑这一问题,即对整个数据集而言,某个模态总是易学习、被模型所偏好的。

但在实际场景中,模态间的差异在样本间很可能不同。例如在图 1(a) 和 (b) 中,我们给出了两个同属于类别“motorcycling”的音视频样本。对于图 1(a) 的样本来说,摩托车较远,其视觉信息并不明显。而对于图 1(b) 的样本来说,其视觉信息为摩托车的近距影像,视觉信息明确且清晰。因此,可以想见,在对这两个样本的分类中,前者将主要依靠音频信息,而后者视觉信息明确,主要依赖视觉信息。

但在现有方法中,该样本级的模态差异并未被关注,也难以被观测。如何评估并缓解这种细粒度的样本级模态差异是亟待解决的问题。因此,本文聚焦于多模态合作学习的新视角--样本级的模态评估与协同

图1. 样本级模态差异示例

在本文中,我们首先提出基于夏普利值(Shapley value)的细粒度模态差异评估方法,该方法能够在样本级别评估各个模态对于最终正确预测的贡献。根据图 1(c) 所示,对于刚才提到的两个样本,其模态间对最终正确预测的贡献差异的确恰恰相反:即使是同一类别的样本,都可能会发生样本间模态贡献差异不同的现象。

此外,通过对数据集中所有样本某模态的贡献取均值,我们的方法依然也可以验证数据集级别上的模态差异。例如,根据图 1(d) 所示,在代表性多模态数据集(Kinetics Sounds 和 UCF-101)上,模态整体的差异明显存在。在 Kinectics Sounds 数据集上,音频模态在所有样本的平均贡献高于视觉模态。在 UCF-101 数据集上,RGB 模态在所有样本的平均贡献高于光流模态。

进一步的,为了更好评估细粒度模态间差异,我们提出了整体均衡但存在样本级模态差异的 MM-Debiased 数据集。该数据集有音频和视觉两个模态。根据图 1(d) 所示,在所有样本的贡献均值上,音频和视觉模态较为均衡。

在图 2 中,我们给出了现有不平衡学习方法在不同数据集上相对 Concatenation baseline 的效果增益。不出意外的是,虽然现有不平衡学习方法在典型多模态数据集,例如 Kinetics Sounds 上取得了增益,但在整体模态贡献均衡的 MM-Debiased 数据集上并未有效果的提升,甚至导致模型效果下降。

图2. 不平衡学习方法在不同数据集上相对Concatenation baseline的效果增益

因此,本文提出了样本级采样方法,结合细粒度模态贡献差异评估的结果,通过针对性采样的策略,促进样本级模态差异的缓解。具体来说,如图 3 所示,当两个模态合作完成预测时,通过评估我们发现,其中某个模态为低贡献模态,对正确预测并未作出足够贡献,说明多模态间合作存在不均衡,低贡献模态的学习需要针对性增强。

因此,我们通过针对性采样策略增强对低贡献模态的学习,从何使得模态贡献更加均衡,达到了更好的多模态合作效果。根据图 2 所示,我们的方法在典型多模态数据集 Kinetics Sounds 以及整体模态贡献均衡的 MM-Debiase 数据集上都取得了良好的效果。

图3. 评估并针对性增强低贡献学习,以达到更均衡的模态贡献及更好的模态间合作

二、细粒度模态贡献差异评估

本节介绍所提出的基于夏普利值(Shapley value)的细粒度模态差异评估方法。对于 是一个有 个模态的样本。其真实标签为 。记 是一个由样本 所有模态输入构成的有限非空集合。将多模态模型记做 。

假设 为由输入模态构成的集合, 。那么,当采用 作为输入时,多模态模型的预测标签记做 。函数 为多模态预测结果到其收益(benefits)之间的映射:

边际贡献 度量了当引入模态 后,多模态预测的收益的变化量。对模态 在所有可能的排列 中的边际贡献取平均,得到其对样本 的贡献为:

需要注意的是,所有模态贡献的总和 实际上就是以所有模态作为输入时正确预测的收益。因此,对于以所有模态为输入的一般多模态模型来说,当一种模态的贡献增加时,其他模态的贡献也会相应减少。借助该细粒度模态贡献评估指标,我们就可以合理地观察每个样本中各个模态的贡献。

2.1 重采样增强策略

根据此前在不同数据集上对模态贡献的估计(如图 1 所示),多模态数据集中往往存在低贡献模态 ,对多模态模型的预测贡献不足。根据本文分析,提升低贡献模态的判别性可以扩大其贡献。

因此,我们提出在训练过程中,有针对性地对各个样本的低贡献模态进行重采样,提升对低贡献模态的学习。具体来说,为了确保基本的辨别能力,我们首先对多模态模型进行几轮 warmup。而后,在每一个 epoch 之前进行一次细粒度模态贡献估计,观察各个样本中各个模态的贡献,进而在该 epoch 的训练中对低贡献模态的输入重新采样,最终有针对性地提高对低贡献模态的学习。

在本文中,我们提供了精细高效的样本级重采样方法和低耗但有效的模态级重采样方法。

2.2 样本级重采样

经过细粒度模态贡献评估后,每个样本的低贡献模态 就能被很好地区分出来,我们就能在样本级对其学习进行促进。具体的重采样频数由当前epoch其贡献值 动态决定。具体来说,对于特定样本 ,模态 的重采样频数为:

其中 为单调递增函数。对低贡献低模态的重采样频数与其贡献值成反比,即贡献值越低,重采样频数越高。在重新采样过程中,我们只采样低贡献模态,其他模态的输入会被置 0,以确保有针对性的学习。

图4. 样本级重采样方法2.3 模态级重采样

虽然样本级模态估值可以提供精细的单模态贡献,但当数据集规模相当大时,逐个样本进行贡献评估可能会产生较高的额外计算成本。因此,我们还提出了更高效的模态级方法来降低计算成本。如图 1(d) 所示,除了样本之间的贡献差异外,低贡献模态的现象也具有数据集级偏好。因此,我们提出了模态级再采样策略,即随机抽取训练样本的子集进行模态贡献估值来近似估计平均单模态贡献,以减少额外的计算成本。

具体来说,我们在训练集中随机抽取包含 个样本的子集,借此模态的平均贡献可以被近似估计。具有较低平均贡献的模态 可以被识别出来。而后,其他模态保持不变,在训练过程中以特定概率 对样本 中的模态 进行动态重新采样:

其中 。首先,将具有较低平均贡献模态 与其他模相比的平均贡献差异首先进行归一化,然后送入输出值介于 0 与 1 之间的单调递增函数 。

图5. 模态级重采样方法

三、部分实验结果展示

3.1 与其他不平衡多模态学习方法的比较

我们在多个不同的数据集上与其他不平衡多模态学习方法进行了比较。我们的方法具有明显优势,尤其是在整体模态差异不明显但仍具有样本间模态差异的 MM-Debiased 数据集上。

表1. 和其他不平衡多模态学习方法的比较

同时,如图 6 所示,相较其他方法,我们的方法在均衡模态间差异方面更加有效。

图6. 使用不平衡多模态学习的方法前后模态间贡献差异比较3.2 样本级差异评估

此外,如图 7 中所示,我们的细粒度样本级方法可以很好得捕捉并相应均衡样本级别的模态贡献差异。虽然具有一定的计算成本,但能够很好解决细粒度的样本差异。

图7. 对图1(a/b)中两个样本的贡献评估

四、未来展望

在本文中,我们借助博弈论中的夏普利值理论,引入了一种样本级模态估值,以度量模态贡献,进而促进和改善模态之间的协同。本文提出了两种方法来提升低贡献模态被抑制的贡献,从而改善多模态合作。

但在本文中,暂未考虑模态之间自然存在的信息量的差异。例如,对于类别为 drawing picture 的音视频样本来说,视觉模态天然比音频模态具有更高的判别信息。因此,即使对音频模态加强学习,也无法使其贡献与视觉模态均等。因此,在未来的工作中,在均衡各个模态的学习时,需要进一步考虑模态信息量的天然差异。

参考文献

[1] https://zhuanlan.zhihu.com/p/507823626

[2] https://zhuanlan.zhihu.com/p/617466497

作者:卫雅珂 来源:公众号【PaperWeekly】

llustration From IconScout By Manypixels Gallery

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年纪大了要不要戒酒?行家:年过60喝酒要牢记,白酒“5不喝”

年纪大了要不要戒酒?行家:年过60喝酒要牢记,白酒“5不喝”

涛哥美食汇
2026-05-26 10:04:39
林俊杰百亿家产争夺战打响,林母公开站队!林俊杰不迁怒孩子暖心

林俊杰百亿家产争夺战打响,林母公开站队!林俊杰不迁怒孩子暖心

东方不败然多多
2026-05-29 14:04:34
西方人不解!为啥中国改朝换代那么多次,都非要承认自己是中国?

西方人不解!为啥中国改朝换代那么多次,都非要承认自己是中国?

鹤羽说个事
2026-05-28 22:56:57
湖北一富豪当街殴打迈巴赫车主,知情人称:那是他女儿,打死活该

湖北一富豪当街殴打迈巴赫车主,知情人称:那是他女儿,打死活该

黑猫故事所
2025-04-14 18:45:09
Lisa世界杯歌曲遭抵制,歌词无关世界杯,全是物化女性的纸醉金迷

Lisa世界杯歌曲遭抵制,歌词无关世界杯,全是物化女性的纸醉金迷

芊手若
2026-05-28 12:43:59
媒体称伊朗愿意将高浓缩铀转运至中国进行处理,国防部回应

媒体称伊朗愿意将高浓缩铀转运至中国进行处理,国防部回应

澎湃新闻
2026-05-28 17:06:26
泡泡玛特大涨!段永平发了个表情包

泡泡玛特大涨!段永平发了个表情包

中国基金报
2026-05-29 14:52:47
刘大锤终于说实话!黄晓明Baby离婚不是性格不合:只是爱不下去了

刘大锤终于说实话!黄晓明Baby离婚不是性格不合:只是爱不下去了

观察鉴娱
2026-05-29 16:02:59
2026年结束前,除了房子贬值外,我国还将迎来这5大“贬值潮”!

2026年结束前,除了房子贬值外,我国还将迎来这5大“贬值潮”!

职场资深秘书
2026-05-11 19:05:34
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

二胡的岁月如歌
2026-04-14 18:43:51
1992年,孔令侃在纽约公寓离世,双手始终牢牢握着一张女人的相片

1992年,孔令侃在纽约公寓离世,双手始终牢牢握着一张女人的相片

磊子讲史
2026-05-26 18:50:26
正式官宣!国务院放大招:城里有房家庭都乐开花,不仅宜居还增值

正式官宣!国务院放大招:城里有房家庭都乐开花,不仅宜居还增值

羽逸地之光
2026-05-29 16:07:54
文班BPM11.7,亚历山大仅4.2!数据揭秘,两人西决表现差距有多大

文班BPM11.7,亚历山大仅4.2!数据揭秘,两人西决表现差距有多大

老梁体育漫谈
2026-05-30 00:38:59
见过夫妻不和的,第一次见夫妻不熟的!网友:我不记得老公的名字

见过夫妻不和的,第一次见夫妻不熟的!网友:我不记得老公的名字

阿康四岁啦
2026-05-28 14:59:19
27年情谊说散就散,同甘共苦比登天还难,现实实在太讽刺

27年情谊说散就散,同甘共苦比登天还难,现实实在太讽刺

历史小胡
2026-05-28 19:46:34
兰州相亲现场:35+女士站成排,男士都绕着走,评论区全是大实话

兰州相亲现场:35+女士站成排,男士都绕着走,评论区全是大实话

谭谈社会
2026-05-24 23:20:37
603255及实控人,被证监会立案

603255及实控人,被证监会立案

中国基金报
2026-05-29 23:10:59
今天,你爷爷的爷爷都涨停了

今天,你爷爷的爷爷都涨停了

趋势巡航
2026-05-29 14:51:54
国外葬礼上棺材底突然崩裂,遗体当众滚落,家属崩溃大哭,抬棺者手忙脚乱

国外葬礼上棺材底突然崩裂,遗体当众滚落,家属崩溃大哭,抬棺者手忙脚乱

都市快报橙柿互动
2026-05-30 00:14:05
印度外交部:印度和中国在解决边境争端问题上取得进展

印度外交部:印度和中国在解决边境争端问题上取得进展

俄罗斯卫星通讯社
2026-05-29 15:10:02
2026-05-30 01:15:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2394文章数 596关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
时尚
手机
艺术
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

推广中奖名单-更新至2026年4月28日推广

手机要闻

华为双箭齐发:Mate80系列618官降500元,阔比例直板新机曝光!

艺术要闻

吴湖帆小品册页

军事要闻

中方公布参加香会阵容 几大议题受到关注

无障碍浏览 进入关怀版