TIP 2025 | 语义交互 + 动态融合双 buff！AU-Net 让多模态配准融合更精准高效|卷积|尺度|深度思考模型

TIP 2025 | 语义交互 + 动态融合双 buff！AU-Net 让多模态配准融合更精准高效

分享至

文章来源：计算机书童。

在计算机视觉领域，多模态图像配准与融合技术一直是研究热点。无论是安防监控、医疗影像还是遥感探测，如何将可见光、红外等不同模态的图像精准对齐并有效融合，始终是提升场景理解能力的关键。近期，一篇题为《AU-Net: Adaptive Unified Network for Joint Multi-Modal Image Registration and Fusion》的论文提出了全新解决方案，让我们一起来揭开这项创新研究的神秘面纱。

论文信息题目：AU-Net: Adaptive Unified Network for Joint Multi-Modal Image Registration and Fusion 自适应统一网络：用于联合多模态图像配准与融合作者：Ming Lu, Min Jiang, Xuefeng Tao, Jun Kong 源码：https://github.com/luming1314/AU-Net 传统方法的瓶颈：为何1+1≠2？

长期以来，联合多模态图像配准与融合（JMIRF）领域存在两大痛点：

效率低下 ：传统方法多采用"先配准后融合"的级联模式，两个模块独立训练、依次执行，运行时间简单叠加，未充分挖掘结构共享潜力
协同不足 ：即使是最新研究，也仅实现像素级联合训练（PLJT），本质仍是模块的简单组合，无法实现配准与融合的深度协同增强

如图1所示，现有方法存在明显局限：
图1：(a)单独训练模式 (b)像素级联合训练模式 (c)本文提出的特征级联合训练模式

核心创新：特征级联合训练（FLJT）范式

论文提出的特征级联合训练（FLJT） 彻底打破传统框架，通过三个维度实现突破：

统一网络架构 ：将配准与融合模块深度整合，共享特征提取结构，避免冗余计算
分层语义交互 ：在多尺度特征层面实现配准与融合的双向反馈，跨层传递语义信息
动态协同学习 ：通过对称结构设计，使配准精度提升与融合质量优化形成正向循环

AU-Net总体框架：四模块协同工作

AU-Net的整体架构如图2所示，采用对称设计实现双向处理流程：
图2：AU-Net整体框架图，包含四大核心模块

1. 共享特征提取模块

基于倒置金字塔结构设计（图3），通过四个子模块层实现多尺度特征提取：
图3：共享特征提取模块的层级结构

layer-0：采用权重不共享设计，提取全尺度模态自适应特征
layer-1至layer-3：权重共享的下采样子模块，生成1/2、1/4、1/8尺度特征
创新点：通过单次特征提取同时服务于配准和融合任务，大幅提升效率

2. 配准模块

采用多尺度特征级配准策略，通过三个子配准单元实现分层优化（图4）：
图4：单个子配准模块的工作流程

核心机制：先通过上一层变形场进行粗配准，再计算局部相关体积实现精细调整
优势：相比传统像素级配准，特征级配准更鲁棒，能捕捉语义层面的对应关系
处理流程：从最粗尺度（1/8）到全尺度（1x）逐步优化变形场，实现渐进式对齐

3. 融合模块

创新设计多模态尺度感知动态卷积（MSDConv），实现自适应特征融合（图5、6）：图5：子融合模块的特征聚合流程

图6：多模态尺度感知动态卷积的注意力机制

动态卷积特性：根据输入特征动态调整卷积核权重，实现模态和尺度双维度自适应
注意力机制：通过四个维度（空间、输入通道、输出通道、内核数量）的注意力标量优化特征聚合
融合策略：采用逐元素最大操作实现多尺度特征的渐进式融合

4. 图像到图像转换模块

基于去噪扩散概率模型（DDPMs）实现双向跨模态转换（图7）：
图7：基于DDPMs的图像转换流程

双向转换：同时支持红外→可见光和可见光→红外转换，提供额外监督信号
创新设计：采用"缓存方案"规避DDPMs迭代计算的高开销，训练时缓存转换结果，推理时移除转换模块
核心价值：减少模态分布差距，使单模态评估指标可用于跨模态配准训练

实验验证：全面超越SOTA方法配准性能评估

在NirScene和RoadScene数据集上的定性结果（图8）显示：
图8：不同方法的配准结果对比（红色/黄色框为关键区域）

AU-Net在复杂场景中表现出更优的对齐精度，尤其在局部细节区域（如行人头部、建筑物边缘）有效避免了伪影和不自然变形。定量评估中，在MSE、MAE、NCC等五项指标中均排名第一，充分验证了特征级联合训练的优势。

融合性能评估

联合配准与融合的定性结果（图9）表明：
图9：不同方法的融合结果对比

AU-Net生成的融合图像具有三个显著优势：

完全消除视差导致的重叠伪影
更好保留多模态图像的互补信息（如天空对比度、细节纹理）
有效抑制对齐区域的不自然变形

定量评估中，AU-Net在空间频率（SF）、平均梯度（AG）等七项指标中表现卓越，尤其在未训练的RoadScene数据集上仍保持优异性能，证明了模型的强泛化能力。

总结与展望

AU-Net通过特征级联合训练范式，实现了多模态图像配准与融合的深度统一，其创新点可概括为：

首次提出FLJT范式，打破传统级联模式的局限
动态融合模块实现跨模态、跨尺度的自适应特征聚合
双向扩散转换机制有效缩小模态差距，提供额外监督

这项研究不仅为多模态图像处理提供了新范式，其特征共享和动态适应的设计思想，也为其他联合任务（如分割与检测、重建与增强）提供了重要借鉴。未来，随着模态种类的增加和应用场景的拓展，AU-Net的设计理念有望在更广泛的计算机视觉任务中发挥价值。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.