文章来源:遥感与深度学习。
RS DL
![]()
题目:SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation
论文:https://arxiv.org/abs/2504.19839
代码与模型:https://github.com/BinSpa/SRMF
年份:2025
作者:Yulong Guo (共一), Zilun Zhang (共一), Yongheng Shang, Tiancheng Zhao, Shuiguang Deng, Yingchun Yang, Jianwei Yin
单位:浙江大学
原作者审阅认证
摘要
超高分辨率(UHR)遥感图像的语义分割在实际应用中常面临显著长尾分布:城市/农田等“头部”类别像素极多,而车站/公园/温室等“尾部”类别样本稀缺,导致模型对少数类识别不稳。SRMF提出从“数据-模型”双端出发:一方面以多尺度锚定区域采样(MSAR)替代常见的随机/中心裁剪,显著丰富单次训练样本的空间语境;另一方面以语义重排序与重采样(SRR-TA)在批内平衡类别,并首次在无需逐图文本标注的前提下引入遥感领域VLM文本先验进行像素级文本-视觉融合,缓解类内差异大、类间差异小带来的混淆。
![]()
(FBP数据集像素分布示例图)
创新点
MSAR(Multi-Scale Anchored Region Sampling):多尺度锚定区域采样,兼顾局部细节与更大环境语境,避免多尺度中心裁剪的样本重复与局部特化。
SRR-TA(Semantic Reranking & Resampling for Training Augmentation):基于SAM-HQ预分割得到的区域,按“主类别+类别丰富度”排序,优先采样尾部类,实现批内类别平衡。
通用表征知识注入:汇总遥感常见地物类目,利用GeoRSCLIP等领域VLM提取文本特征,与视觉特征做余弦相似度融合,增强尾部类区分度且不依赖逐图文本标注。
![]()
(SRMF整体架构)
方法架构
1 MSAR:多尺度锚定区域采样
先从原图随机裁出锚定区域(h×w),再在2/3/4倍尺度窗口中搜集包含该锚区的候选块,随机采样后缩放回(h×w)并与锚区拼接成训练图。该策略提升锚区的“出现位置多样性”和“上下文多样性”,在不改变图像标签体系的条件下增广场景语境。
![]()
(MSAR架构)
2 SRR-TA:语义重排序与重采样
在每张UHR图像上用SAM-HQ生成多尺度掩膜与边界框,计算“主类别”“类别丰富度”,对区域打分排序,训练时优先抽取尾部类区域并保留地面采样距离(GSD)的一致性,形成兼顾上下文与少数类的批数据。
![]()
(在FBP数据集上生成的boxes示例)
3 文本-视觉融合(通用表征知识注入)
将K个遥感地物文本描述经领域VLM的文本编码器得到Rt(K×d),将视觉主干输出Ri(h×w×c)经线性映射到d维并与Rt计算像素级余弦相似度,把得到的相似度图与Ri拼接后送入解码器进行像素分类。该像素级注入把“类语义中心”灌注到每个位置,适合尾部类特征聚合。
实验与结果
数据集:URUR(7前景类)、GID(5类)、FBP(24前景类),均为UHR遥感分割常用基准。
指标:mIoU;整图采用滑窗(512×512,stride 341)预测并还原。
总体效果:在URUR/GID/FBP上相较强基线稳定提升,并对“少数类”如barren land、pond、railway station等显著降低混淆。
消融:MSAR优于随机/中心多尺度裁剪;保持GSD在尾部类采样中尤为关键;仅使用文本先验即可带来稳定增益,简单线性映射即可对齐多模态特征。
![]()
(主实验)
![]()
(消融实验)
![]()
![]()
设计抉择与经验
为何MSAR有效?——在固定输入大小下扩大地面覆盖范围,引入更丰富的跨类邻接关系,有助于学习可分判的上下文。
为何要保持GSD?——有助于尾部类在更广空间内被抽样到;破坏GSD会使极少类样本进一步稀释。
为何文本先验优于“生成图像先验”?——文本语义更具泛化与压缩性;合成航拍视觉与卫星视角存在域差异,难以提供稳定增益。
代码: https://github.com/BinSpa/SRMF (含训练与推理脚本)
建议流程:先进行SAM-HQ批量掩膜预提取→构建SRR-TA优先队列→按MSAR策略生成训练批→注入文本先验→标准分割训练与滑窗推理。
@article{Guo2025SRMF,
title={SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation},
author={Guo, Yulong and Zhang, Zilun and Shang, Yongheng and Zhao, Tiancheng and Deng, Shuiguang and Yang, Yingchun and Yin, Jianwei},
journal={arXiv preprint arXiv:2504.19839},
year={2025}
结语
SRMF以简洁、可落地的数据采样与多模态注入方案,有效缓解UHR遥感分割中的长尾难题并提升尾部类表现。欢迎关注项目仓库获取代码与数据,亦欢迎学术引用与合作交流。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.