网易首页 > 网易号 > 正文 申请入驻

CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同

0
分享至

不平衡多模态学习问题(imbalanced multimodal learning problem)在近年已经引起了广泛关注。但在现有方法中,该样本级的模态差异并未被关注,也难以被观测。如何评估并缓解这种细粒度的样本级模态差异是亟待解决的问题。因此,本文聚焦于多模态合作学习的新视角--样本级的模态评估与协同。

本文提出了样本级采样方法,结合细粒度模态贡献差异评估的结果,通过针对性采样的策略,促进样本级模态差异的缓解。通过针对性采样策略增强对低贡献模态的学习,从何使得模态贡献更加均衡,达到了更好的多模态合作效果。

论文题目: Enhancing Multimodal Cooperation via Sample-level Modality Valuation 论文链接: https://arxiv.org/pdf/2309.06255 代码链接: https://github.com/GeWu-Lab/Valuate-and-Enhance-Multimodal-Cooperation

一、概述:样本级多模态差异的评估与解决

不平衡多模态学习问题(imbalanced multimodal learning problem)在近年已经引起了广泛关注。具体来说,在多模态学习中,往往采用联合训练的方式对各个模态同时进行学习。而模态间在特性、信息量等方面的差异导致在联合训练中,往往存在更易于学习的模态,模型对其的偏好主导了训练进程,导致其他模态未能被充分学习,抑制多模态学习的性能。

对于这一问题,近年来已经有许多研究者从优化、目标函数等方面给出了不同的解决方案(包括本实验室的论文:CVPR 2022 [1],ICASSP 2023 [2] 及 ICLR 2024)。在现有的方法中,往往从数据集整体的角度考虑这一问题,即对整个数据集而言,某个模态总是易学习、被模型所偏好的。

但在实际场景中,模态间的差异在样本间很可能不同。例如在图 1(a) 和 (b) 中,我们给出了两个同属于类别“motorcycling”的音视频样本。对于图 1(a) 的样本来说,摩托车较远,其视觉信息并不明显。而对于图 1(b) 的样本来说,其视觉信息为摩托车的近距影像,视觉信息明确且清晰。因此,可以想见,在对这两个样本的分类中,前者将主要依靠音频信息,而后者视觉信息明确,主要依赖视觉信息。

但在现有方法中,该样本级的模态差异并未被关注,也难以被观测。如何评估并缓解这种细粒度的样本级模态差异是亟待解决的问题。因此,本文聚焦于多模态合作学习的新视角--样本级的模态评估与协同

图1. 样本级模态差异示例

在本文中,我们首先提出基于夏普利值(Shapley value)的细粒度模态差异评估方法,该方法能够在样本级别评估各个模态对于最终正确预测的贡献。根据图 1(c) 所示,对于刚才提到的两个样本,其模态间对最终正确预测的贡献差异的确恰恰相反:即使是同一类别的样本,都可能会发生样本间模态贡献差异不同的现象。

此外,通过对数据集中所有样本某模态的贡献取均值,我们的方法依然也可以验证数据集级别上的模态差异。例如,根据图 1(d) 所示,在代表性多模态数据集(Kinetics Sounds 和 UCF-101)上,模态整体的差异明显存在。在 Kinectics Sounds 数据集上,音频模态在所有样本的平均贡献高于视觉模态。在 UCF-101 数据集上,RGB 模态在所有样本的平均贡献高于光流模态。

进一步的,为了更好评估细粒度模态间差异,我们提出了整体均衡但存在样本级模态差异的 MM-Debiased 数据集。该数据集有音频和视觉两个模态。根据图 1(d) 所示,在所有样本的贡献均值上,音频和视觉模态较为均衡。

在图 2 中,我们给出了现有不平衡学习方法在不同数据集上相对 Concatenation baseline 的效果增益。不出意外的是,虽然现有不平衡学习方法在典型多模态数据集,例如 Kinetics Sounds 上取得了增益,但在整体模态贡献均衡的 MM-Debiased 数据集上并未有效果的提升,甚至导致模型效果下降。

图2. 不平衡学习方法在不同数据集上相对Concatenation baseline的效果增益

因此,本文提出了样本级采样方法,结合细粒度模态贡献差异评估的结果,通过针对性采样的策略,促进样本级模态差异的缓解。具体来说,如图 3 所示,当两个模态合作完成预测时,通过评估我们发现,其中某个模态为低贡献模态,对正确预测并未作出足够贡献,说明多模态间合作存在不均衡,低贡献模态的学习需要针对性增强。

因此,我们通过针对性采样策略增强对低贡献模态的学习,从何使得模态贡献更加均衡,达到了更好的多模态合作效果。根据图 2 所示,我们的方法在典型多模态数据集 Kinetics Sounds 以及整体模态贡献均衡的 MM-Debiase 数据集上都取得了良好的效果。

图3. 评估并针对性增强低贡献学习,以达到更均衡的模态贡献及更好的模态间合作

二、细粒度模态贡献差异评估

本节介绍所提出的基于夏普利值(Shapley value)的细粒度模态差异评估方法。对于 是一个有 个模态的样本。其真实标签为 。记 是一个由样本 所有模态输入构成的有限非空集合。将多模态模型记做 。

假设 为由输入模态构成的集合, 。那么,当采用 作为输入时,多模态模型的预测标签记做 。函数 为多模态预测结果到其收益(benefits)之间的映射:

边际贡献 度量了当引入模态 后,多模态预测的收益的变化量。对模态 在所有可能的排列 中的边际贡献取平均,得到其对样本 的贡献为:

需要注意的是,所有模态贡献的总和 实际上就是以所有模态作为输入时正确预测的收益。因此,对于以所有模态为输入的一般多模态模型来说,当一种模态的贡献增加时,其他模态的贡献也会相应减少。借助该细粒度模态贡献评估指标,我们就可以合理地观察每个样本中各个模态的贡献。

2.1 重采样增强策略

根据此前在不同数据集上对模态贡献的估计(如图 1 所示),多模态数据集中往往存在低贡献模态 ,对多模态模型的预测贡献不足。根据本文分析,提升低贡献模态的判别性可以扩大其贡献。

因此,我们提出在训练过程中,有针对性地对各个样本的低贡献模态进行重采样,提升对低贡献模态的学习。具体来说,为了确保基本的辨别能力,我们首先对多模态模型进行几轮 warmup。而后,在每一个 epoch 之前进行一次细粒度模态贡献估计,观察各个样本中各个模态的贡献,进而在该 epoch 的训练中对低贡献模态的输入重新采样,最终有针对性地提高对低贡献模态的学习。

在本文中,我们提供了精细高效的样本级重采样方法和低耗但有效的模态级重采样方法。

2.2 样本级重采样

经过细粒度模态贡献评估后,每个样本的低贡献模态 就能被很好地区分出来,我们就能在样本级对其学习进行促进。具体的重采样频数由当前epoch其贡献值 动态决定。具体来说,对于特定样本 ,模态 的重采样频数为:

其中 为单调递增函数。对低贡献低模态的重采样频数与其贡献值成反比,即贡献值越低,重采样频数越高。在重新采样过程中,我们只采样低贡献模态,其他模态的输入会被置 0,以确保有针对性的学习。

图4. 样本级重采样方法2.3 模态级重采样

虽然样本级模态估值可以提供精细的单模态贡献,但当数据集规模相当大时,逐个样本进行贡献评估可能会产生较高的额外计算成本。因此,我们还提出了更高效的模态级方法来降低计算成本。如图 1(d) 所示,除了样本之间的贡献差异外,低贡献模态的现象也具有数据集级偏好。因此,我们提出了模态级再采样策略,即随机抽取训练样本的子集进行模态贡献估值来近似估计平均单模态贡献,以减少额外的计算成本。

具体来说,我们在训练集中随机抽取包含 个样本的子集,借此模态的平均贡献可以被近似估计。具有较低平均贡献的模态 可以被识别出来。而后,其他模态保持不变,在训练过程中以特定概率 对样本 中的模态 进行动态重新采样:

其中 。首先,将具有较低平均贡献模态 与其他模相比的平均贡献差异首先进行归一化,然后送入输出值介于 0 与 1 之间的单调递增函数 。

图5. 模态级重采样方法

三、部分实验结果展示

3.1 与其他不平衡多模态学习方法的比较

我们在多个不同的数据集上与其他不平衡多模态学习方法进行了比较。我们的方法具有明显优势,尤其是在整体模态差异不明显但仍具有样本间模态差异的 MM-Debiased 数据集上。

表1. 和其他不平衡多模态学习方法的比较

同时,如图 6 所示,相较其他方法,我们的方法在均衡模态间差异方面更加有效。

图6. 使用不平衡多模态学习的方法前后模态间贡献差异比较3.2 样本级差异评估

此外,如图 7 中所示,我们的细粒度样本级方法可以很好得捕捉并相应均衡样本级别的模态贡献差异。虽然具有一定的计算成本,但能够很好解决细粒度的样本差异。

图7. 对图1(a/b)中两个样本的贡献评估

四、未来展望

在本文中,我们借助博弈论中的夏普利值理论,引入了一种样本级模态估值,以度量模态贡献,进而促进和改善模态之间的协同。本文提出了两种方法来提升低贡献模态被抑制的贡献,从而改善多模态合作。

但在本文中,暂未考虑模态之间自然存在的信息量的差异。例如,对于类别为 drawing picture 的音视频样本来说,视觉模态天然比音频模态具有更高的判别信息。因此,即使对音频模态加强学习,也无法使其贡献与视觉模态均等。因此,在未来的工作中,在均衡各个模态的学习时,需要进一步考虑模态信息量的天然差异。

参考文献

[1] https://zhuanlan.zhihu.com/p/507823626

[2] https://zhuanlan.zhihu.com/p/617466497

作者:卫雅珂 来源:公众号【PaperWeekly】

llustration From IconScout By Manypixels Gallery

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
“吃到一万四再让我服务!”上海一网红餐厅服务员被曝辱骂顾客,老板:非常震惊,已开除;网友吵翻

“吃到一万四再让我服务!”上海一网红餐厅服务员被曝辱骂顾客,老板:非常震惊,已开除;网友吵翻

环球网资讯
2026-01-16 12:37:07
一旦国家开启一级战备,老百姓需牢记三点,关键时刻能保命

一旦国家开启一级战备,老百姓需牢记三点,关键时刻能保命

一网打尽全球焦点
2026-01-07 19:22:18
俄罗斯人一口咬定,成飞和沈飞放飞的,绝对不是六代机

俄罗斯人一口咬定,成飞和沈飞放飞的,绝对不是六代机

流史岁月
2026-01-16 11:41:55
大连十处道路交通技术监控设备重启执法

大连十处道路交通技术监控设备重启执法

半岛晨报
2026-01-16 18:07:31
贺娇龙追悼会举行!丈夫悲痛送送别妻子,主编曝光坠马原因

贺娇龙追悼会举行!丈夫悲痛送送别妻子,主编曝光坠马原因

坠入二次元的海洋
2026-01-17 03:16:43
你我贷搞连坐式催收 江西一公司员工欠债多部门被迫拔掉电话线

你我贷搞连坐式催收 江西一公司员工欠债多部门被迫拔掉电话线

信网
2026-01-16 16:18:59
山东92岁老人“煤球渣补桥”引关注,村民称村上已开始修补;街办:已向上级打报告申请修缮

山东92岁老人“煤球渣补桥”引关注,村民称村上已开始修补;街办:已向上级打报告申请修缮

大风新闻
2026-01-16 11:55:14
王毅挂断电话,伊朗援兵终于赶到,特朗普最后一刻喊停,不打了?

王毅挂断电话,伊朗援兵终于赶到,特朗普最后一刻喊停,不打了?

知鉴明史
2026-01-16 15:56:06
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
点火试验成功!零下30℃实现稳定运行

点火试验成功!零下30℃实现稳定运行

环球网资讯
2026-01-15 21:53:10
多哈赛女单八强对阵出炉,蒯曼抗日,陈熠轻松,平野美宇怼美女!

多哈赛女单八强对阵出炉,蒯曼抗日,陈熠轻松,平野美宇怼美女!

小鬼头体育
2026-01-17 03:46:56
环沪惨案十周年:部分购房者实在太短视了

环沪惨案十周年:部分购房者实在太短视了

环线房产咨询
2026-01-16 19:13:11
修电池白送顶配!七年前旧MacBook进苹果售后:免费换回M4 Max旗舰

修电池白送顶配!七年前旧MacBook进苹果售后:免费换回M4 Max旗舰

快科技
2026-01-16 11:26:47
36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

毒sir财经
2025-10-12 20:07:17
找对象的最佳时期,一生只有三次

找对象的最佳时期,一生只有三次

聚焦最新动态
2025-12-25 20:38:36
何晴之子许何发文回应:父亲许亚军跟继母张澍才是妈妈最大的依靠

何晴之子许何发文回应:父亲许亚军跟继母张澍才是妈妈最大的依靠

民间平哥
2026-01-14 16:22:37
日本AV女演员生存实录:日工作14小时,她们最后都嫁给了谁?

日本AV女演员生存实录:日工作14小时,她们最后都嫁给了谁?

蔚蓝的珊瑚海
2025-12-30 23:01:24
闫学晶一家三口现身机场!疑似遇到麻烦,老公不停打电话面露难色

闫学晶一家三口现身机场!疑似遇到麻烦,老公不停打电话面露难色

阿纂看事
2026-01-15 15:56:31
砸 1 亿欧!曼联瞄准西甲天才中场,为卡里克量身打造重建核心

砸 1 亿欧!曼联瞄准西甲天才中场,为卡里克量身打造重建核心

澜归序
2026-01-17 03:56:06
2026-01-17 05:59:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

房产
数码
艺术
本地
公开课

房产要闻

喜封金顶 臻境初呈丨中粮·铂悦壹号3#楼封顶大吉!

数码要闻

熊猫MX34U7 34英寸带鱼屏显示器发布,售价1299元

艺术要闻

齐白石画头毛驴当马卖,卖了1300万,网友:笑喷了!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版