来源:市场资讯
(来源:小白学视觉)
在计算机视觉领域,图像融合始终是极具价值的研究方向——无论是军事侦察中可见光与红外图像的互补融合,还是医学诊断里不同模态影像的信息整合,亦或是遥感领域的全色锐化、高光谱与多光谱图像融合,优质的融合算法都能让合成图像更全面、精准地还原场景信息。
近期,一篇发表于TPAMI 2025的研究论文《An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance》带来了颠覆性突破:研究者摒弃了依赖下游任务、GAN、扩散模型等复杂框架的传统思路,首次系统性整合全局语言描述与目标级语义掩码作为多模态引导,结合轻量化的RWKV线性注意力骨干网络,打造出RWKVFusion框架,在可见光-红外、多聚焦、多曝光、医学、高光谱-多光谱、全色锐化六大图像融合任务中均斩获SOTA性能!
论文信息
题目: An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance
一种利用统一语言和掩码引导的高效图像融合网络
作者: Zi-Han Cao, Yu-Jie Liang, Liang-Jian Deng, Gemine Vivone
一、传统图像融合的痛点:效率与引导不可兼得
图像融合的核心目标是整合不同传感器/成像参数下的图像互补信息,但现有方法始终存在两大瓶颈:
引导方式受限:多数深度融合框架要么依赖融合损失函数单一约束,要么借助语义分割、扩散先验等引入额外训练开销,极少有研究探索语言和语义掩码的引导价值;
计算成本高昂:传统CNN感受野有限,ViT类模型的自注意力机制存在二次计算开销,面对高分辨率图像时内存和算力压力陡增,即便结合卷积与注意力的混合架构,也难以平衡性能与效率。
正是瞄准这些痛点,RWKVFusion框架应运而生——既解决了“融合引导不足”的问题,又实现了“线性复杂度+全局感受野”的高效推理。
二、RWKVFusion核心架构:多模态引导+高效骨干双管齐下
先来看RWKVFusion的整体框架(图1),整个框架分为两大分支:融合分支(高效多模态网络)和语义分支(提供语言+掩码语义信息),输入不同模态图像后,结合语言描述T和掩码M的引导,最终输出高质量融合图像。
![]()
图1
1. 语义分支:语言+掩码,给融合加双重视觉引导
语义分支是RWKVFusion的“指挥中枢”,核心作用是为融合过程注入高层语义信息:
语言描述生成:借助预训练的Florence模型生成图像描述,再通过T5模型编码为文本特征T,实现全局层面的语义引导;
语义掩码生成:基于用户/Florence提供的提示,通过DINO完成开放集检测,再进行掩码分割得到目标级掩码M。
这里要解决一个关键问题:不同传感器图像的语义内容不一致,会导致掩码质量不佳。为此研究者提出基于IoU的掩码合并算法(图7),自动融合不同模态的掩码,生成更准确、鲁棒的语义掩码,为融合提供可靠的物体级引导。
![]()
图7
2. 融合分支:RWKV骨干网络,高效处理多模态特征
融合分支的核心是RWKVFusion主干网络(图5),这是一个多尺度编码器-解码器架构,而非简单的平坦架构,能更好地捕捉不同尺度的图像特征:
![]()
图5
(1)双向RWKV(BRWKV):线性复杂度的全局注意力
原始RWKV是为语言建模设计的因果序列模型,研究者通过高效二维图像扫描策略(ESS) 将其改造为双向版本:
把2D图像通过水平、垂直(可叠加翻转、对角线)扫描转换为1D序列,既保留图像的空间结构,又适配RWKV的序列处理特性;
BRWKV分为空间混合和通道混合模块:空间混合建模令牌间的全局关系,通道混合增强特征的非线性交互,整体复杂度随序列长度线性增长,对比标准注意力、窗口注意力、VMamba等(表1),在参数量、时间/空间消耗上优势显著。
(2)多模态融合模块(MFM):跨模态信息深度融合
为了让语言、掩码和图像特征高效交互,研究者设计了MFM模块(图5(c)),通过三条路径引导融合:
原始信息补充:对图像模态特征和网络前层特征进行门控处理,保留基础特征信息;
掩码引导:将掩码特征与图像特征逐元素相乘,让网络聚焦于掩码标注的目标区域;
语言引导:将图像特征与文本特征交替拼接,通过空间混合和MLP实现跨模态信息交换。
从特征可视化结果(图6)能清晰看到:掩码引导的特征(X_mask)精准聚焦目标区域,语言引导后的特征()具备全局响应,语义和目标级信息被有效注入融合过程。
![]()
图6
(3)损失函数:适配不同融合任务
针对有监督(全色锐化、HMIF)和无监督(VIF、MFF、MEF、MIF)任务,研究者设计了差异化的损失函数:
有监督任务:结合L1损失和SSIM损失,保证融合图像与真实值的像素和结构相似度;
无监督任务:整合强度损失、SSIM损失和梯度损失,兼顾融合图像与输入模态的像素一致性、结构相似性,以及边缘细节的保留。
三、六大任务全面验证:性能与效率双领先
为了验证RWKVFusion的有效性,研究者在六大图像融合任务、十余种公开数据集上展开了全面实验,对比了分解方法、任务设计方法、基于先验的方法、架构设计方法、模态引导方法等数十种SOTA方案。
1. 可见光-红外(VIF)与医学图像融合(MIF)
在MSRS、M3FD、TNO(VIF)和Medical Harvard(MIF)数据集上,RWKVFusion在MI、VIF、SF等8项指标中,7项取得最佳结果(表2)。视觉效果上(图8上两行),相比U2Fusion、DeFuse等方法,RWKVFusion能清晰还原烟雾遮挡的目标,同时避免颜色失真;医学图像融合中,除LPIPS外所有指标均最优,仅比最佳值低0.04,兼顾细节与全局一致性。
2. 多曝光(MEF)与多聚焦(MFF)图像融合
在SICE、MEFB(MEF)和MFI-WHU、RealMFF(MFF)数据集上,RWKVFusion在8项指标中6-7项领先。定性对比中(图8中下部):MEF任务里,该方法能平衡高低曝光区域的亮度;MFF任务中,可精准保留前景标志文字等细节,保真度远超ZMFF、TC-MOA等方法。
![]()
图8
3. 全色锐化与高光谱-多光谱(HMIF)融合
全色锐化任务中,RWKVFusion在WV3、GF2、QB数据集的降分辨率和全分辨率评估中均达SOTA,误差图(图9左)显示其残差亮度最低,能同时保留全色图像的精细结构和多光谱图像的光谱信息;HMIF任务中,在Chikusei和Pavia数据集上所有指标领先,且仅用DHIF 8.41%的参数、0.67%的FLOPs,效率优势拉满(表5)。
![]()
图9
四、消融研究:关键设计的有效性验证
为了明确各模块的贡献,研究者开展了系列消融实验:
BRWKV vs 其他注意力:替换为Flash Attention、Flatten Attention、Window Attention、VMamba后,RWKVFusion在几乎所有指标上领先,窗口化BRWKV虽性能略降,但仍优于窗口注意力,适合资源受限场景;
扫描策略对比:不同扫描方向(2次/4次/8次)的实验表明,默认的2次扫描(水平+垂直翻转交替)在性能和效率间实现最优平衡,过多扫描会增加计算成本,且可能破坏空间感知。
五、总结:图像融合的新范式
RWKVFusion的核心价值在于:
提出多模态引导新范式,首次将全局语言描述与目标级语义掩码结合,为图像融合提供语义+对象级双重指导;
打造高效线性注意力骨干网络,解决了传统注意力二次开销的问题,兼顾全局感受野与低计算成本;
全任务适配性强,在六大融合任务中均实现SOTA,且参数量和FLOPs远低于同类方法。
这一研究不仅为图像融合提供了全新的技术思路,也为多模态信息在低层视觉任务中的应用开辟了新方向,未来有望在遥感、医疗、军事等领域落地实用化的高效融合方案。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:人工智能0基础学习攻略手册
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.