网易首页 > 网易号 > 正文 申请入驻

旋转多尺度交互网络RMSIN,只需1080ti完美解决遥感图像指向性分割

0
分享至

这篇论文介绍了一项新的任务——指向性遥感图像分割(RRSIS),以及一种新的方法——旋转多尺度交互网络(RMSIN)。RRSIS旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新的大规模RRSIS数据集(RRSIS-D),其中涵盖了多种空间分辨率的图像和具有尺度和角度多样性的分割目标(已公开!)。本文提出多尺度交互模块和旋转卷积(已开源!),以处理遥感图像的复杂性。实验证明,RMSIN方法在RRSIS任务上表现优于当前最先进的方法,为未来的研究提供了有力的基线。(1080ti即可跑!)

论文题目: Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 论文地址: https://arxiv.org/abs/2312.12470 代码地址: https://github.com/Lsan2401/RMSIN
一、动机

指向性遥感图像分割(RRSIS)是计算机视觉与自然语言处理相结合的前沿技术,旨在根据文本描述实现遥感图像中目标对象的像素级定位。然而,RRSIS任务的发展受到现有数据集规模和范围有限的制约。由于遥感图像具有俯瞰拍摄的特殊视角,和自然图片存在巨大的语义差距;且其目标物体具有丰富的尺度和角度变化,这极大提高数据集标注的所需难度。其所需要的人力和时间成本限制现有数据集的规模的扩大,现存数据集不足以将模型训练到关键任务的实际运用所需的精度水平。

此外,现有的基于自然图像指向性分割(RIS)方法应用于遥感图像时面临着局限性。如图 1 所示,遥感图像普遍存在多样的大尺度空间变化和多个方向出现的物体,这样巨大的语义差异使得训练于自然图像的SOTA方法在遥感图像上表现不佳。当前的 RIS 方法通常着重于实现视觉和语言特征的对齐,这些方法在边界清晰的上下文中具有良好的表现,但在面对遥感图像的混乱和非结构化性质时精度明显下降,在 RRSIS 任务中性能差距明显。这突出表明需要一种更稳健、更广泛的针对遥感图像的方法。

针对上述问题,我们构建了一个全新的大规模RRSIS数据集RRSIS-D,该数据集的规模是其前身的三倍,不仅涵盖了多种空间分辨率的图像,而且分割目标也具有显著的尺度和角度多样性。同时我们提出了旋转多尺度交互网络(RMSIN),其包含多尺度交互模块和旋转卷积,以应对 RRSIS 的复杂性。具体来说,我们的贡献可总结为:


  • 我们构建了新的指向性遥感图像分割benchmark数据集RRSIS-D。其利用 SAM 强大的分割功能,再进行手动校准,具有空间分辨率和物体方向的巨大变化。新数据集为传统RIS方法向遥感领域迁移应用奠定基础。



  • 我们提出了旋转多尺度交互网络(RMSIN),以应对遥感图像中普遍存在的多空间尺度和方向所带来的挑战。



  • 我们设计了层内尺度交互模块和层间尺度交互模块来处理不同尺度内和跨尺度的细粒度信息。同时,我们在分割的解码器端引入了旋转自适应卷积来增强模型的鲁棒性,以应对 RRSIS 中无处不在的旋转现象。



  • 广泛的实验证明了我们提出的RMSIN优于当前SOTA方法,在一系列评估指标上持续获得更高的性能,为RRSIS之后的研究提供有力的基线。


二、数据集

我们提出一个新的专为指向性遥感图像分割大规模数据集RRSIS-D。Segment Anything Model(SAM)实现了卓越的分割性能,受此激励,我们采用一种半自动方法实现数据集的标注,利用边界框和 SAM 生成像素级掩码,从而在标注过程中节约成本。

数据集RRSIS-D由17402个图像-描述-掩码对组成,所有图像的分辨率统一为高 800px、宽 800px,包含20个遥感场景多个物体类别,图像描述由7种属性组成。图2列举了数据集掩码占图像总尺寸的比例(θ),并列举了具有代表性的数据集实例,可以看出分割目标涉及极大、极小的显著尺度变换的目标。丰富种类的图片使得数据集具有挑战性。

三、方法

RMSIN模型的流程如图3所示。对于给定输入图像 和描述 ,首先描述 通过文本backbone 转换为文本特征 。同时,图像通过复合尺度交互编码器(Compounded Scale Interaction Encoder,CSIE)进行处理并与文本特征交互,生成具有充分语义的跨多个尺度的融合特征。

CSIE由尺度内交互模块(Intra-scale Interaction Module,IIM)和跨尺度交互模块(Cross-scale Interaction Module,CIM)组成,在编码器的每层,都会应用尺度内交互分支来增强局部视觉建模,而对称的视觉-语言融合分支则会对视觉和语言特征进行调整,以改进后续的图像特征提取。随后,编码器每层的特征都会传递给CIM,该模块通过多尺度注意(Multi-scale Attention)促进信息交互和空间关系优化。最后,我们提出了基于自适应旋转卷积(ARC)的定向感知解码器(OAD),通过对 CSIE 多个阶段的特征进行并行推理来生成分割掩码。

尺度内交互模块(Intra-scale Interaction Module)

编码器每层通过尺度内交互模块(IIM)进一步挖掘每个尺度内的丰富信息,促进视觉和语言模式之间的交互。具体来说,IIM基于四个阶段的层次结构( ),通过文本backbone获取文本特征 (其中 表示通道数)和通过视觉backbone获得视觉特征 后,IIM 在阶段 的特征 经过降采样和MLP的组合以缩小尺度并统一特征维度,得到 。经过下采样的特征被送入两个分支,分别用于增强视觉先验和融合多模态信息。

多感受野分支(Various Receptive)

特征 通过 个不同卷积核大小的卷积分支进行变换,以产生具有不同感受野的特征,可表述为:

其中, 表示卷积的第 个分支, 表示Sigmoid函数。公式即表达利用不同的卷积设置来平衡所有像素之间的权重 。权重通过以下方式来增强特征:

输出由视觉门 (Vision Gate)进行正则化调节后作为原始图像特征的局部细粒度信息的补充特征。

跨模态对齐分支(Cross-modal Alignment)

跨模态对齐分支是专为多模态特征对齐设计的,这是使模型能够理解自然语言的关键。具体来说,在输入 和语言特征 的情况下,首先使用 作为Query,以 作为Key和Value,实现缩放点积注意力,从而获得多模态特征:

随后,将注意力 与 结合起来,得到语言引导的图像特征:

与 的输出操作类似,得到的输出由语言门 (Language Gate)调节并加到原始图像特征中,作为补充的语言特征。语言门 的结构与视觉门相同。因此,尺度内交互模块在 阶段的整体输出特性可以表示为:


跨尺度交互模块(Cross-scale Interaction Module)

基于通过尺度内特征交互获得在语言特征的引导下的局部多尺度特征,我们提出跨尺度交互模块以进一步加强粗粒度和细粒度特征间的交互,以应对遥感图像中的大尺度变化。具体来说,该模块将尺度内交互模块每层的输出,即之前提到的 作为输入,并执行多阶段交互。首先进行多尺度特征组合,将特征 在空间维度降采样到相同大小,并沿通道维度进行拼接,得到多尺度特征 。 随后被输入到不同的感受野以实现深度多尺度交互,通过大小和步长不同的被调整到不同的尺度,其定义如下:

其中, 是调整的尺度数, 是第 个深度卷积的卷积核大小, 和 是 的高度和权重。以此得到 集合,就可以在空间维度上对所有元素进行扁平化处理,并将它们拼接成一个序列的多尺度感知特征

以原特征 作为Query,以多尺度感知特征 作为Key和Value执行跨尺度注意力:

为了更好地保留局部细节,在跨尺度注意力输出中并行加入局部关系补偿,得到跨尺度注意力的最终输出:

其中, DWConv(⋅) 表示深度卷积, Hardswish(⋅) 为激活函数,以增强多尺度局部信息的提取。最终,对于来自 的每个部分,都会执行来自 相应部分的感知门正则化,以获得跨尺度交互的权重, 该权重被视为尺度内特征模块输出的辅助残差。感知门的输出被用于后续解码器的最终掩码预测。

自适应旋转动态卷积

考虑到遥感图像中的目标实例通常会呈现不同的方向,使用静态的水平卷积核生成掩码可能会导致精度缺失。受旋转物体检测的启发,我们提出使用自适应旋转动态卷积的分割解码器中,以实现更好的掩码预测。自适应旋转卷积从输入特征中捕捉角度信息,并动态地重参数化卷积核权重参数,以过滤冗余特征。

具体来说,它通过Routing Block提取方向特征,根据输入预测 个角度和相应的权重。 由于静态卷积核权重可以看作是从特征映射齐次方程的二维核空间以特定方向采样点采样得到的值。因此,卷积核的旋转就是旋转-重采样的过程。具体来说,卷积核权重 根据预测的角度重参数化(Rotate Block)如下所示:

其中, 是原始卷积核采样点的坐标, 是围绕坐标原点进行旋转仿射变换的旋转矩阵的逆矩阵。最后,用得到的卷积核对特征进行过滤,并进行加权求和运算,即可以生成方向感知的卷积特征。

则自顶向下的掩码预测整体过程可总结如下:

其中, Seg(⋅) 指的是包括 3×3 卷积层、Batch Normalization层和ReLU激活函数的非线性模块,以增强分割特征空间的非线性。而 Proj(⋅) 为线性变换函数,用于将最终特征 映射到二分类的掩码。值得注意的是, 输入自适应旋转动态卷积ARC中获得优化特征 ,以利用特征空间中的方向信息,从而消除冗余,提高边界细节的准确性。

四、实验

在实验中,我们在 RRSIS-D 数据集上比较了 RMSIN 与现有最先进的自然图像参考图像分割方法的性能。为了进行公平比较,我们遵循了这些方法的原始实现细节。在验证集中,RMSIN 在每个指标上都优于所有比较方法。值得注意的是,与最近表现最好的 LAVT 方法相比,RMSIN 将 mIoU 提高了 3.54%。在处理非常小或旋转物体等复杂情况时,这种显著提升尤为明显,在 P@0.5、P@0.6 和 P@0.7 中分别提高了 5.12%、4.71% 和 4.25%。这些结果突出表明,RMSIN 能够捕捉到详细的局部信息和特定方向信息,从而实现更准确的分割。

消融

我们在 RRSIS-D 上进行了各种消融实验,以评估我们提出的网络中关键组件的功效。

可视化

为了直观了解我们设计的模型,我们将预测结果与基线进行了定性比较。如图4所示,我们的模型在根据表情精确识别各种比例的目标方面表现出了卓越的能力。此外,它还能在嘈杂的背景中定位微小尺度的物体,并稳健地预测不同角度出现的物体。与此相反,基线模型生成的预测遮罩却存在缺陷,包括部分缺失和明显偏移。

在图5中,我们可视化了在 ARC 和 CSIE 的消融作用下,RMSIN 在训练过程中生成的特征图。很明显,在比例交互和旋转卷积的帮助下,RMSIN 可以准确捕捉边界信息。有了 CSIE 的比例交互和 ARC 的方向提取,RMSIN 可以更敏锐地聚焦于所指的目标。与第一行相比,CSIE 提供了更精确的深层语义,而 ARC 则提供了空间先验,这对旋转物体分割非常重要。

五、结论

在本文中,我们介绍了旋转多尺度交互网络(RMSIN),这是一种解决 RRSIS 中复杂空间尺度和方向问题的新型解决方案。RMSIN 中引入的 "内尺度交互模块 "和 "跨尺度交互模块 "专门应对航空图像中不同空间尺度的挑战。此外,RMSIN 还集成了自适应旋转卷积功能,为有效处理此类图像的不同方向特征提供了强大的解决方案。在我们新开发的综合性 RRSIS-D 数据集上进行的广泛验证不仅证明了 RMSIN 的卓越性能,还为未来研究树立了新的标杆。

更多细节请参考原文!

Illustration From IconScout By Manypixels Gallery

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海统治力:时隔24年+第4次进总决赛 20分逆转近29战28胜冲冠

上海统治力:时隔24年+第4次进总决赛 20分逆转近29战28胜冲冠

醉卧浮生
2026-05-22 21:27:20
3比1!史上最荒唐半决赛!北京队彻底沦为笑柄

3比1!史上最荒唐半决赛!北京队彻底沦为笑柄

篮球实战宝典
2026-05-22 21:43:59
美伊接近达成协议草案曝光:立即全面和无条件地实现停火,保障霍尔木兹和阿曼湾等处航行自由

美伊接近达成协议草案曝光:立即全面和无条件地实现停火,保障霍尔木兹和阿曼湾等处航行自由

每日经济新闻
2026-05-22 20:29:31
3分钟大定20万台、18小时锁单24万台:小米YU7卖爆了!10个月交付23.2万台

3分钟大定20万台、18小时锁单24万台:小米YU7卖爆了!10个月交付23.2万台

快科技
2026-05-21 20:17:26
美国最担心的事发生?沙特有了危机感,请来“中械师”守护领空

美国最担心的事发生?沙特有了危机感,请来“中械师”守护领空

空天力量
2026-05-22 17:19:43
美俄刚走,荷兰就“憋不住”,光刻机巨头,公开给中国递了句软话

美俄刚走,荷兰就“憋不住”,光刻机巨头,公开给中国递了句软话

清沐执笔
2026-05-22 16:14:17
马斯克从中国回去后,发了一个火车站的视频,播放量炸了!

马斯克从中国回去后,发了一个火车站的视频,播放量炸了!

安安说
2026-05-22 10:52:49
极目调查丨“少震之地”柳州遭遇331年来最强震:存缺陷的自建房暴露安全软肋,一些房子无立柱,有居民坦言“没考虑防震”

极目调查丨“少震之地”柳州遭遇331年来最强震:存缺陷的自建房暴露安全软肋,一些房子无立柱,有居民坦言“没考虑防震”

极目新闻
2026-05-22 22:03:08
两天摔了两架,还都是中系战机!巴基斯坦这次也慌了

两天摔了两架,还都是中系战机!巴基斯坦这次也慌了

阿龙聊军事
2026-05-23 02:02:09
U17国足虽败犹荣!3球落后拒绝崩盘,险压哨绝平,媒体人点赞

U17国足虽败犹荣!3球落后拒绝崩盘,险压哨绝平,媒体人点赞

奥拜尔
2026-05-23 03:05:59
“必须严查!”近日报道,江苏南京,25岁女孩因私处肿痛就医

“必须严查!”近日报道,江苏南京,25岁女孩因私处肿痛就医

周哥一影视
2026-05-22 01:38:24
曼城官方:阿提哈德北看台命名为瓜迪奥拉看台,并为他立雕像

曼城官方:阿提哈德北看台命名为瓜迪奥拉看台,并为他立雕像

懂球帝
2026-05-22 20:07:40
“目前为止,看过最好的民国史!”

“目前为止,看过最好的民国史!”

尚曦读史
2026-05-21 07:06:34
看完国足2-3输日本后,让球迷认清三个事实,日本籍主帅变阵错误

看完国足2-3输日本后,让球迷认清三个事实,日本籍主帅变阵错误

侃球熊弟
2026-05-23 01:38:59
揭秘“崩老头”骗局全流程,打打字竟然可以轻松月入过万!

揭秘“崩老头”骗局全流程,打打字竟然可以轻松月入过万!

爆角追踪
2026-05-22 15:11:02
人不会平白无故患带状疱疹!医生强调:得带状疱疹多半有这5共性

人不会平白无故患带状疱疹!医生强调:得带状疱疹多半有这5共性

芹姐说生活
2026-05-22 16:21:49
伊朗“最大内鬼”,原来是他?

伊朗“最大内鬼”,原来是他?

中国新闻周刊
2026-05-22 21:03:52
北京被淘汰两焦点画面!翟晓川痛哭,赵睿面对谩骂全程微笑!

北京被淘汰两焦点画面!翟晓川痛哭,赵睿面对谩骂全程微笑!

篮球资讯达人
2026-05-23 00:04:28
美国158万人研究发现:长期用西地那非的人群,死亡风险或可降低

美国158万人研究发现:长期用西地那非的人群,死亡风险或可降低

思思夜话
2026-05-22 15:41:03
周琦斗志遭质疑:最后两场仅7分与6分 下半场0分提前下场认输

周琦斗志遭质疑:最后两场仅7分与6分 下半场0分提前下场认输

醉卧浮生
2026-05-22 21:40:17
2026-05-23 06:08:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2385文章数 596关注度
往期回顾 全部

科技要闻

雷军:输给特斯拉不丢人

头条要闻

伊朗前总统内贾德被指是"最大内鬼" 其目前下落不明

头条要闻

伊朗前总统内贾德被指是"最大内鬼" 其目前下落不明

体育要闻

最糟糕裁判?他想要退役当市长

娱乐要闻

周也恋情曝光!对象身份不简单

财经要闻

富途拟被罚18.5亿元 老虎 长桥也回应了

汽车要闻

11万级直接上四驱 银河星耀7限时权益价9.88万起

态度原创

本地
艺术
健康
旅游
数码

本地新闻

用云锦的方式,打开江苏南京

艺术要闻

八大山人那些涂鸦的画

外泌体 ≠ 生长因子!它们之间究竟有何区别?

旅游要闻

楚雄双柏爱尼山乡观鸟经济带动生态旅游开门红

数码要闻

OPPO Enco Air5s耳机规格公布,5月25日发布

无障碍浏览 进入关怀版