网易首页 > 网易号 > 正文 申请入驻

TPAMI 2025 | 可见光融合红外红外,实现医学/遥感场景全拿下!多模态制导图像融合新框架

0
分享至

来源:市场资讯

(来源:小白学视觉)

在计算机视觉领域,图像融合始终是极具价值的研究方向——无论是军事侦察中可见光与红外图像的互补融合,还是医学诊断里不同模态影像的信息整合,亦或是遥感领域的全色锐化、高光谱与多光谱图像融合,优质的融合算法都能让合成图像更全面、精准地还原场景信息。

近期,一篇发表于TPAMI 2025的研究论文《An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance》带来了颠覆性突破:研究者摒弃了依赖下游任务、GAN、扩散模型等复杂框架的传统思路,首次系统性整合全局语言描述与目标级语义掩码作为多模态引导,结合轻量化的RWKV线性注意力骨干网络,打造出RWKVFusion框架,在可见光-红外、多聚焦、多曝光、医学、高光谱-多光谱、全色锐化六大图像融合任务中均斩获SOTA性能!

论文信息

题目: An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance

一种利用统一语言和掩码引导的高效图像融合网络

作者: Zi-Han Cao, Yu-Jie Liang, Liang-Jian Deng, Gemine Vivone

一、传统图像融合的痛点:效率与引导不可兼得

图像融合的核心目标是整合不同传感器/成像参数下的图像互补信息,但现有方法始终存在两大瓶颈:

引导方式受限:多数深度融合框架要么依赖融合损失函数单一约束,要么借助语义分割、扩散先验等引入额外训练开销,极少有研究探索语言和语义掩码的引导价值;

计算成本高昂:传统CNN感受野有限,ViT类模型的自注意力机制存在二次计算开销,面对高分辨率图像时内存和算力压力陡增,即便结合卷积与注意力的混合架构,也难以平衡性能与效率。

正是瞄准这些痛点,RWKVFusion框架应运而生——既解决了“融合引导不足”的问题,又实现了“线性复杂度+全局感受野”的高效推理。

二、RWKVFusion核心架构:多模态引导+高效骨干双管齐下

先来看RWKVFusion的整体框架(图1),整个框架分为两大分支:融合分支(高效多模态网络)和语义分支(提供语言+掩码语义信息),输入不同模态图像后,结合语言描述T和掩码M的引导,最终输出高质量融合图像。


图1

1. 语义分支:语言+掩码,给融合加双重视觉引导

语义分支是RWKVFusion的“指挥中枢”,核心作用是为融合过程注入高层语义信息:

  • 语言描述生成:借助预训练的Florence模型生成图像描述,再通过T5模型编码为文本特征T,实现全局层面的语义引导;

  • 语义掩码生成:基于用户/Florence提供的提示,通过DINO完成开放集检测,再进行掩码分割得到目标级掩码M。

这里要解决一个关键问题:不同传感器图像的语义内容不一致,会导致掩码质量不佳。为此研究者提出基于IoU的掩码合并算法(图7),自动融合不同模态的掩码,生成更准确、鲁棒的语义掩码,为融合提供可靠的物体级引导。


图7

2. 融合分支:RWKV骨干网络,高效处理多模态特征

融合分支的核心是RWKVFusion主干网络(图5),这是一个多尺度编码器-解码器架构,而非简单的平坦架构,能更好地捕捉不同尺度的图像特征:


图5

(1)双向RWKV(BRWKV):线性复杂度的全局注意力

原始RWKV是为语言建模设计的因果序列模型,研究者通过高效二维图像扫描策略(ESS) 将其改造为双向版本:

  • 把2D图像通过水平、垂直(可叠加翻转、对角线)扫描转换为1D序列,既保留图像的空间结构,又适配RWKV的序列处理特性;

  • BRWKV分为空间混合和通道混合模块:空间混合建模令牌间的全局关系,通道混合增强特征的非线性交互,整体复杂度随序列长度线性增长,对比标准注意力、窗口注意力、VMamba等(表1),在参数量、时间/空间消耗上优势显著。

(2)多模态融合模块(MFM):跨模态信息深度融合

为了让语言、掩码和图像特征高效交互,研究者设计了MFM模块(图5(c)),通过三条路径引导融合:

原始信息补充:对图像模态特征和网络前层特征进行门控处理,保留基础特征信息;

掩码引导:将掩码特征与图像特征逐元素相乘,让网络聚焦于掩码标注的目标区域;

语言引导:将图像特征与文本特征交替拼接,通过空间混合和MLP实现跨模态信息交换。

从特征可视化结果(图6)能清晰看到:掩码引导的特征(X_mask)精准聚焦目标区域,语言引导后的特征()具备全局响应,语义和目标级信息被有效注入融合过程。


图6

(3)损失函数:适配不同融合任务

针对有监督(全色锐化、HMIF)和无监督(VIF、MFF、MEF、MIF)任务,研究者设计了差异化的损失函数:

  • 有监督任务:结合L1损失和SSIM损失,保证融合图像与真实值的像素和结构相似度;

  • 无监督任务:整合强度损失、SSIM损失和梯度损失,兼顾融合图像与输入模态的像素一致性、结构相似性,以及边缘细节的保留。

三、六大任务全面验证:性能与效率双领先

为了验证RWKVFusion的有效性,研究者在六大图像融合任务、十余种公开数据集上展开了全面实验,对比了分解方法、任务设计方法、基于先验的方法、架构设计方法、模态引导方法等数十种SOTA方案。

1. 可见光-红外(VIF)与医学图像融合(MIF)

在MSRS、M3FD、TNO(VIF)和Medical Harvard(MIF)数据集上,RWKVFusion在MI、VIF、SF等8项指标中,7项取得最佳结果(表2)。视觉效果上(图8上两行),相比U2Fusion、DeFuse等方法,RWKVFusion能清晰还原烟雾遮挡的目标,同时避免颜色失真;医学图像融合中,除LPIPS外所有指标均最优,仅比最佳值低0.04,兼顾细节与全局一致性。

2. 多曝光(MEF)与多聚焦(MFF)图像融合

在SICE、MEFB(MEF)和MFI-WHU、RealMFF(MFF)数据集上,RWKVFusion在8项指标中6-7项领先。定性对比中(图8中下部):MEF任务里,该方法能平衡高低曝光区域的亮度;MFF任务中,可精准保留前景标志文字等细节,保真度远超ZMFF、TC-MOA等方法。


图8

3. 全色锐化与高光谱-多光谱(HMIF)融合

全色锐化任务中,RWKVFusion在WV3、GF2、QB数据集的降分辨率和全分辨率评估中均达SOTA,误差图(图9左)显示其残差亮度最低,能同时保留全色图像的精细结构和多光谱图像的光谱信息;HMIF任务中,在Chikusei和Pavia数据集上所有指标领先,且仅用DHIF 8.41%的参数、0.67%的FLOPs,效率优势拉满(表5)。


图9

四、消融研究:关键设计的有效性验证

为了明确各模块的贡献,研究者开展了系列消融实验:

BRWKV vs 其他注意力:替换为Flash Attention、Flatten Attention、Window Attention、VMamba后,RWKVFusion在几乎所有指标上领先,窗口化BRWKV虽性能略降,但仍优于窗口注意力,适合资源受限场景;

扫描策略对比:不同扫描方向(2次/4次/8次)的实验表明,默认的2次扫描(水平+垂直翻转交替)在性能和效率间实现最优平衡,过多扫描会增加计算成本,且可能破坏空间感知。

五、总结:图像融合的新范式

RWKVFusion的核心价值在于:

提出多模态引导新范式,首次将全局语言描述与目标级语义掩码结合,为图像融合提供语义+对象级双重指导;

打造高效线性注意力骨干网络,解决了传统注意力二次开销的问题,兼顾全局感受野与低计算成本;

全任务适配性强,在六大融合任务中均实现SOTA,且参数量和FLOPs远低于同类方法。

这一研究不仅为图像融合提供了全新的技术思路,也为多模态信息在低层视觉任务中的应用开辟了新方向,未来有望在遥感、医疗、军事等领域落地实用化的高效融合方案。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:人工智能0基础学习攻略手册

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火箭惨败出局!乌度卡场下频频摇头 范乔丹气笑了 三分28中5铁哭

火箭惨败出局!乌度卡场下频频摇头 范乔丹气笑了 三分28中5铁哭

颜小白的篮球梦
2026-05-02 12:17:12
云台山一游客不慎将大疆运动相机掉入水中,工作人员仅用10秒打捞上岸并拒绝500元感谢费:服务不分大小

云台山一游客不慎将大疆运动相机掉入水中,工作人员仅用10秒打捞上岸并拒绝500元感谢费:服务不分大小

大象新闻
2026-05-02 11:46:04
雷迪克:无论怎么争论,詹姆斯都拥有NBA历史最伟大的职业生涯

雷迪克:无论怎么争论,詹姆斯都拥有NBA历史最伟大的职业生涯

懂球帝
2026-05-02 13:14:49
宋轶整容失败认不出!脸变宽嘴变大颧骨变高,猛一看还以为是易梦玲

宋轶整容失败认不出!脸变宽嘴变大颧骨变高,猛一看还以为是易梦玲

八卦王者
2026-05-02 10:59:45
吴宜泽艾伦打破单局时长历史纪录,老球王怒了:这是斯诺克的耻辱

吴宜泽艾伦打破单局时长历史纪录,老球王怒了:这是斯诺克的耻辱

杨华评论
2026-05-02 02:40:37
拒黑八!活塞24分逆转魔术3-3拖进抢七 坎宁安32+10创纪录

拒黑八!活塞24分逆转魔术3-3拖进抢七 坎宁安32+10创纪录

醉卧浮生
2026-05-02 09:38:56
中国或将迎来空前死亡高峰?专家拆解核心诱因!

中国或将迎来空前死亡高峰?专家拆解核心诱因!

王姐懒人家常菜
2026-05-01 15:07:06
全球卖疯的无人机,北京为何禁售?

全球卖疯的无人机,北京为何禁售?

碳基打工人
2026-05-01 02:41:19
参加“朝鲜式社会主义理论与实践高级讲习班”,能学到啥东西?

参加“朝鲜式社会主义理论与实践高级讲习班”,能学到啥东西?

深度报
2026-05-01 22:52:33
惨无人道!以军用军犬强奸巴勒斯坦囚犯,全程录像,受害者:想死

惨无人道!以军用军犬强奸巴勒斯坦囚犯,全程录像,受害者:想死

史行途
2026-05-01 12:29:39
黑八!黑八没了!末节8分!史上最荒唐季后赛

黑八!黑八没了!末节8分!史上最荒唐季后赛

篮球实战宝典
2026-05-02 10:04:33
44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

TVB剧评社
2026-05-01 21:24:01
巴勒斯坦公布选举结果,哈马斯被排除在外,加沙18年统治正式落幕

巴勒斯坦公布选举结果,哈马斯被排除在外,加沙18年统治正式落幕

流史岁月
2026-05-01 12:00:22
日本著名马桶公司TOTO杀入芯片行业大获成功

日本著名马桶公司TOTO杀入芯片行业大获成功

爆角追踪
2026-05-01 19:37:18
上海申花遭暴击!盖伊左脚跟腱断裂,将接受手术,或长期缺席

上海申花遭暴击!盖伊左脚跟腱断裂,将接受手术,或长期缺席

奥拜尔
2026-05-02 10:36:52
五一假期第1天,社会上就出现了4个“反常现象”,风向真的变了

五一假期第1天,社会上就出现了4个“反常现象”,风向真的变了

青杉依旧啊啊
2026-05-02 02:01:50
3亿美元!央视不买世界杯的转播权,没想到球迷一边倒的支持

3亿美元!央视不买世界杯的转播权,没想到球迷一边倒的支持

魔都姐姐杂谈
2026-05-02 08:44:52
又一反华势力曝光,试图“给钱”让中国青年“躺平”

又一反华势力曝光,试图“给钱”让中国青年“躺平”

深度报
2026-05-01 22:43:31
山西猥亵当事人法官已被免职

山西猥亵当事人法官已被免职

界面新闻
2026-05-02 10:23:49
吴亦凡二审维持13年!继续在里面踩缝纫机当班长,网友神评笑死个人

吴亦凡二审维持13年!继续在里面踩缝纫机当班长,网友神评笑死个人

八卦王者
2026-05-01 14:05:38
2026-05-02 14:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3095713文章数 7069关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子被诊断为疑似肝癌 辗转其他医院检查均无癌症依据

头条要闻

男子被诊断为疑似肝癌 辗转其他医院检查均无癌症依据

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

亲子
数码
时尚
旅游
本地

亲子要闻

萌星秀秀:小萌星甜甜朗诵唐诗三首

数码要闻

快睿推出H系列L型热管风冷,至高200W解热能力

聪明女人衣服从来不买太多!这三种精品提前准备好,耐穿又实用

旅游要闻

“五一”美团小团游订单增27%,新疆、云南、北京居热度Top3

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版