网易首页 > 网易号 > 正文 申请入驻

帝国理工大学提出DyMo:让多模态模型学会选择,突破模态缺失难题

0
分享至



论文第一作者为帝国理工大学 BioMedIA 实验室博士研究生杜思逸(个人主页:https://siyi-wind.github.io),研究方向为多模态学习与医疗影像,曾在 ICLR、CVPR、ECCV、MICCAI 等学术会议上发表文章。

通讯作者为帝国理工大学电子与电气工程系和 I-X 系 的秦宸副教授(实验室主页:https://cq615.github.io)。她的研究方向涉及深度学习、医学图像分析、和计算机视觉。已在顶级同行评审工程和医学成像期刊和会议论文集上发表了 70 多篇论文,并担任 MICCAI 2022-24 的区域主席以及多个国际研讨会的组织和计划委员会成员。

多模态学习(Multimodal Learning)正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态,模型能够获得更全面的信息,从而显著提升性能。

然而,在真实世界中,一个关键问题几乎不可避免:「模态缺失(Missing Modality)」。例如:医学诊断中,部分检查未完成;自动驾驶中,某些传感器失效;多模态数据库中,部分字段缺失。

现有的不完整多模态学习方法通常采取两种策略,要么直接丢弃缺失模态(无恢复方法,recovery-free),从而可能损失重要的任务相关信息;要么尝试恢复缺失模态(recovery-based,基于恢复方法),但这又可能引入无关噪声。我们将这一矛盾称为「丢弃 - 插补困境」(discarding-imputation dilemma)

为了解决这一问题,帝国理工大学的研究团队引入一个全新的视角:不盲目丢弃,也不盲目使用恢复模态,而是在推理时动态识别并融合可靠的恢复模态,突破传统「丢弃或插补」的二元限制。为此,作者设计了一种新的推理阶段动态模态选择框架DyMo

DyMo 从信息论的角度出发,理论性地建立信息量和任务损失之间的联系,提出用于指导模态选择过程的奖励函数。此外,作者还设计了一种灵活的多模态网络结构,可兼容任意模态组合,并配套提出了专门的训练策略,以学习鲁棒的多模态表示。在多个自然图像与医学影像数据集上的实验表明,DyMo 在各种模态缺失场景下均显著优于现有方法。该工作已被机器学习顶级会议 ICLR 2026 接收。



  • 论文标题:Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
  • 论文作者:Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin
  • 作者单位:英国帝国理工大学
  • 论文链接:https://openreview.net/forum?id=PWhDUWRVhM
  • 代码链接:https://github.com//siyi-wind/DyMo

丢弃 vs 恢复的困境

针对模态缺失问题,现有方法主要分为两类:

  • 基于恢复的方法(recovery-based methods),这些方法先补全模态,再进行模态融合。
  • 无恢复方法(recovery-free methods),这类方法直接忽略缺失模态,仅使用可用模态进行预测。

但在现实场景中,不同模态对任务的重要性往往存在显著差异。这种差异主要来源于:(i)各模态包含的任务相关信息强度不同,(ii)各模态中包含的噪声程度不同。



图 1。(a–b) “丢弃–插补困境” 的直观证据:(a-1) vs (a-2) 无恢复方法(recovery-free methods)由于直接忽略缺失但高度任务相关的模态(如 {M, T}),只能学习到判别能力较弱的特征表示;(b) 基于恢复的方法(recovery-based methods)产生不可靠的重建结果,例如低保真重建(橙色)或语义错位(黄色)。(c) DyMo 能够通过动态融合任务相关且可靠的恢复模态来有效解决这一困境,并在多个数据集上显著提升性能:如在 PolyMNIST、MST 和 CelebA 数据集上,分类准确率分别提高了 1.61%、1.68% 和 3.88%(见论文表 1)。

当高度关键的模态缺失时,传统的无需恢复方法只能依赖剩余信息较弱的模态,从而导致模型判别能力下降 (如图 1(a))。虽然恢复方法试图通过重建缺失模态来解决这一问题,但恢复质量往往不稳定(如图 1(b)),可能生成低保真恢复(low-fidelity),即图像模糊或失真,或者语义错位(semantic misalignment):恢复内容与真实标签不一致。将这些不可靠模态用于融合,反而会引入与任务无关的噪声,干扰模型决策。

DyMo:推理阶段动态模态选择框架

围绕「丢弃–插补困境」,作者提出了一种全新的解决思路 —— DyMo:一种推理阶段动态模态选择框架。其核心思想不是简单「丢弃」或「强行恢复」,而是在推理阶段自适应地选择并融合可靠的恢复模态,最大化多模态任务相关信息(图 1(c))。文章具体贡献如下:

  • 首次系统性提出并刻画「丢弃–插补困境」,引入动态神经网络机制(dynamic neural networks)来打破这一结构性两难。
  • 提出 DyMo,其核心创新包括:(1)基于多模态任务相关信息增益的动态模态选择算法,(2)支持任意模态组合的多模态网络结构,(3)专门的训练策略让模型能够学习鲁棒的潜在表示。
  • DyMo 在 5 个多样化数据集(包括自然图像和医学影像)上达到 SOTA 性能。
  • DyMo 易于使用(可与多种模态恢复方法结合),且动态算法无需额外复杂结构开销,方便部署。

支持任意模态组合的网络架构



图 2。用于任意模态的多模态网络结构。

DyMo 多模态网络结构的目标是:无论输入模态是否完整,都能生成可靠的预测结果,并为后续的动态模态选择提供基础。整体架构主要由三个部分组成:单模态编码器进行特征提取;多模态 Transformer 建模跨模态关系;线性分类器使用 [CLS] token 的表示进行预测。

方法核心:推理阶段动态模态选择与融合

1. MTIR (multimodal task-relevant information reward)多模态任务相关信息奖励: DyMo 的核心是一个奖励函数: MTIR,用于估计每一个恢复模态带来的多模态任务相关信息增益。更直观的说:

  • reward > 0: 该模态提供了有用信息,应当融合
  • reward = 0: 该模态可能是低保真度恢复,信息很少,价值有限
  • reward < 0: 该模态可能是语义不一致恢复,反而会误导模型





从该公式中,可以得到一个关键的结论:降低任务损失,能够提高任务相关信息的下界,因此,DyMo 使用一个简单但有效的 proxy:

用交叉熵损失的下降来估计任务相关信息增益

























训练策略





辅助缺失不可知对比损失:旨在进一步增强类内聚类和类间分离。





实验结果

作者使用 5 个不同的数据集(包含图像,文本,表格模态)进行实验,包括三个模拟数据集:PolyMNIST, MST, CelebA,和两个大的真实数据集:自然图像 - 表格数据集 DVM 和医学图像 - 表格数据集 UK Biobank (UKBB)。

对于 DyMo 中的恢复方法,三个模拟数据集使用 VAE 类方法,两个真实数据集使用 MAE 类方法。在消融实验部分作者还包含了更多的恢复方法。模型在完整的数据集上进行训练,并在各种缺失场景下进行评估:(i)对于 PolyMNIST,作者设置随机缺失一定比例的模态; (ii) 对于 MST 和 CelebA,作者测试了缺失模式的不同组合; (iii) 对于 DVM 和 UKBB,作者评估了全表格和表格内(即模态内)缺失。

DyMo 超越过去的先进模型

DyMo 与先进的动态 / 静态模态融合方法,基于恢复的方法,和无恢复方法进行比较。实验结果表明,DyMo 在缺失模态场景下实现了巨大的性能飞跃,特别是在严重模态缺失场景。比如,在 PolyMNIST 数据集上,当 80% 模态缺失时,DyMo 相比最先进动态融合方法,准确率提升高达13.12%,展现出极强的鲁棒性。

此外,实验还显示了「丢弃 - 插补困境」的存在:(1)无恢复方法在高度任务相关模态缺失时会出现显著性能下降。例如,在 MST 数据集上,当缺失模态为 {M, T} 而非 {S, T} 时,MUSE 的分类准确率下降了高达 61.18%。(2)基于恢复的方法在严重模态缺失场景下同样面临挑战。例如,在 PolyMNIST 数据集上,当缺失率从 η = 0 增加到 η = 0.8 时,OnlineMAE 的准确率下降了 9.91%,表明恢复过程中生成了不可靠的模态。相比现有方法,DyMo 能够有效突破这一困境,在各种严重模态缺失场景下均取得显著性能优势。



图 3。和静态 / 动态模态融合方法比较。



图 4。和无恢复方法,基于恢复方法比较。

可视化与样例分析

作者的隐层特征表示可视化和样例分析展示了 DyMo 能够有效选择可靠的恢复模态,并提升模型性能。



图 5。DyMo 在 MST 数据集上的隐层特征表示 t-SNE 可视化,对比了不同模态使用策略的效果:(a-1) 仅使用原始可观测模态;(a-2) 直接融合所有恢复模态(不加筛选);(a-3) 融合由 DyMo 自动选择的恢复模态。



图 6。PolyMNIST 数据集上的案例分析:黄色表示原始可观测模态,蓝色表示由 DyMo 自动选择用于融合的模态。

讨论与总结

DyMo 提供了一个新的视角,问题不再是「如何恢复所有模态」,而是「哪些恢复模态值得信任」

通过在推理阶段动态选择可靠模态,DyMo 成功突破了传统「丢弃或插补」的二元限制,为不完整多模态学习提供了一种更加灵活和鲁棒的解决方案。

未来方向:

  • 动态选择是否需要扩展到训练阶段
  • 如何扩展到分类以外的任务
  • 如何更加可靠和高效,或者与多模态大语言模型(MLLMs)进行结合

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CCTV直播!国乒1人出局!王曼昱战强敌 张本智和爆大冷?朱雨玲遭遇韩莹 冠军赛首日赛程

CCTV直播!国乒1人出局!王曼昱战强敌 张本智和爆大冷?朱雨玲遭遇韩莹 冠军赛首日赛程

好乒乓
2026-03-10 11:00:08
国际油价突破110美元,对中国经济冲击有多大?

国际油价突破110美元,对中国经济冲击有多大?

牲产队
2026-03-09 20:01:31
博纳影业爆雷!于冬欠赌场473万,去年亏损14亿

博纳影业爆雷!于冬欠赌场473万,去年亏损14亿

光影新天地
2026-03-10 11:29:53
交通运输部约谈马士基集团和地中海航运公司

交通运输部约谈马士基集团和地中海航运公司

界面新闻
2026-03-10 10:21:01
央企大瘦身要来了,从77行业退出,大合并,大重组来了!

央企大瘦身要来了,从77行业退出,大合并,大重组来了!

环球通信
2026-03-09 19:02:07
不怕被报复?伊朗女足5人摘下头巾!获准留在澳洲 球员家人遭逮捕

不怕被报复?伊朗女足5人摘下头巾!获准留在澳洲 球员家人遭逮捕

念洲
2026-03-10 07:46:07
伊朗称不再发射弹头不足一吨重导弹

伊朗称不再发射弹头不足一吨重导弹

财联社
2026-03-10 03:17:16
韩股暴涨再度熔断 原油大跌近10%

韩股暴涨再度熔断 原油大跌近10%

每日经济新闻
2026-03-10 09:44:59
地产大佬一个个在香港隔岸观火

地产大佬一个个在香港隔岸观火

包邮区
2026-03-09 11:37:16
小时候课本上猛夸的3个历史人物,长大后才发现:他们坏到骨子里

小时候课本上猛夸的3个历史人物,长大后才发现:他们坏到骨子里

收藏大视界
2026-03-07 18:11:42
震惊!男友父母花近1000万买新房,女子要加她的名字,然后退婚了

震惊!男友父母花近1000万买新房,女子要加她的名字,然后退婚了

火山詩话
2026-03-10 06:57:22
伊各方誓言赢得战争,美总统发出矛盾信息,哈梅内伊次子当选伊朗最高领袖

伊各方誓言赢得战争,美总统发出矛盾信息,哈梅内伊次子当选伊朗最高领袖

环球网资讯
2026-03-10 06:43:10
伊朗革命卫队:摧毁近10部美国先进雷达

伊朗革命卫队:摧毁近10部美国先进雷达

极目新闻
2026-03-10 11:44:22
“政务龙虾”已深圳上岗,如何避免“越界闯祸”?官方:通过沙箱和受限账号小范围运行

“政务龙虾”已深圳上岗,如何避免“越界闯祸”?官方:通过沙箱和受限账号小范围运行

红星新闻
2026-03-09 22:52:15
在医院做检查的尴尬瞬间!网友:在护士眼里那就是块肉

在医院做检查的尴尬瞬间!网友:在护士眼里那就是块肉

带你感受人间冷暖
2026-03-09 00:05:09
特朗普称美国正在调查伊朗小学遇袭事件

特朗普称美国正在调查伊朗小学遇袭事件

新华社
2026-03-10 08:03:03
已有8人逃离!曝伊朗女足已提前奔赴机场 澳政府在机场做最后挽留

已有8人逃离!曝伊朗女足已提前奔赴机场 澳政府在机场做最后挽留

风过乡
2026-03-10 13:02:25
一张图看懂:穆杰塔巴有哪些亲属在美以袭击中丧生

一张图看懂:穆杰塔巴有哪些亲属在美以袭击中丧生

网易新闻出品
2026-03-09 22:07:03
打乱套了!俄罗斯公开支持伊朗,乌克兰军队将赴中东协助美以作战

打乱套了!俄罗斯公开支持伊朗,乌克兰军队将赴中东协助美以作战

史政先锋
2026-03-09 19:30:53
网上支付退货要现金未果后续:现场脱衣闹场,原因曝光全家丢人

网上支付退货要现金未果后续:现场脱衣闹场,原因曝光全家丢人

离离言几许
2026-03-09 22:39:35
2026-03-10 14:31:01
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12456文章数 142579关注度
往期回顾 全部

科技要闻

“龙虾”狂欢 卖“饲料”先挣钱了?

头条要闻

媒体:伊各方誓言赢得战争 美国现在即使想退出也很难

头条要闻

媒体:伊各方誓言赢得战争 美国现在即使想退出也很难

体育要闻

韩国女足羡慕的奢侈品,为何选择中国女足

娱乐要闻

肖战首夺SMG视帝,孙俪四封视后创历史

财经要闻

全民"养龙虾"背后 第一批受害者浮现

汽车要闻

蔚来换电和理想5C,谁能硬刚,比亚迪兆瓦闪充?

态度原创

游戏
家居
旅游
手机
教育

索尼终于等到的"大作"!曝《星空》PS5版禁令3.17解除

家居要闻

自然肌理 温度质感婚房

旅游要闻

陕西兴平茂陵霍去病墓:碑文被游客摸秃:网友喊话多读点历史

手机要闻

苹果印度制造再提速:iPhone年产量激增53%达5500万部全球占比25%

教育要闻

不读书不拿文凭,将来你拿什么和别人比?

无障碍浏览 进入关怀版