网易首页 > 网易号 > 正文 申请入驻

西安交大研究团队:让卫星遥感图像识别如同人眼观察般智能

0
分享至


这项由西安交通大学的李凯宇、张盛琪等研究人员与中科院合作完成的研究发表于2025年12月,题为《SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images》。该研究首次将最新的SAM 3模型应用到遥感图像的开放词汇语义分割任务中,为卫星和航拍图像的自动识别带来了突破性进展。有兴趣深入了解的读者可以通过arXiv编号2512.08730v1查询完整论文。

当我们在手机地图上放大查看某个区域时,能够轻松识别出建筑物、道路、森林和农田。然而对于计算机来说,让它从卫星图像中准确识别并分割出这些不同的地物类型,一直是一个巨大挑战。传统的图像识别系统就像一个只认识固定几种物品的机器人,遇到训练时没见过的新类别就束手无策。而西安交大的这个研究团队却找到了让机器具备类似人类视觉系统灵活性的方法,能够理解和分割任何用文字描述的地物类型,无需重新训练。

这项研究的核心创新在于巧妙地运用了最新发布的SAM 3模型。SAM 3就像一个多才多艺的视觉助手,它不仅能够精确勾画物体边界,还能理解文字描述并找到对应的视觉内容。研究团队发现,遥感图像中的地物具有明显的双重特性:既有像建筑物、车辆这样边界清晰的独立物体,也有像道路、农田这样连续分布的区域。针对这一特点,他们设计了双头融合策略,让系统同时发挥精确识别小目标和完整覆盖大区域的能力。

一、遥感图像识别的独特挑战与机遇

在地球观测领域,卫星和航拍图像的自动分析一直面临着独特的困难。这些图像覆盖的地理范围广阔,包含的地物类型复杂多样,而且随着应用场景的变化,需要识别的目标类别也在不断扩展。传统的图像分割方法就像只认识特定商品的收银员,只能识别训练时见过的固定类别,遇到新的地物类型就无能为力。

更加困难的是,遥感图像具有与普通照片截然不同的特征。从高空俯视地面时,同类地物往往密集分布,比如停车场里密密麻麻的汽车,或者住宅区里排列整齐的房屋。这些密集的小目标对传统识别算法来说是个噩梦,因为它们容易粘连在一起,难以准确分割。与此同时,道路、农田、森林这些大面积的连续区域又需要保持完整性,不能被切得支离破碎。

西安交大的研究团队深入分析了这些挑战,发现问题的症结在于现有方法大多基于CLIP模型。CLIP原本是为整张图片的分类任务设计的,就像一个只会给照片贴标签的助手,当被强行用于像素级的精细分割时,往往力不从心,产生的边界模糊不清。为了弥补这个缺陷,许多研究者尝试将多个不同的模型拼接在一起,形成复杂的流水线系统,但这种做法不仅计算成本高昂,而且容易在模块间的衔接处出现问题。

研究团队意识到,解决这个问题需要一个统一的、专门设计的模型架构。恰好在这时,Meta公司发布了SAM 3模型,这个新模型具备了统一处理分割和识别任务的能力。SAM 3的架构设计就像一个多功能工具箱,不仅包含了精确的实例分割头,还有专门的语义分割头,更重要的是还有一个存在性判断头,能够预测某个概念是否在图像中存在。

二、双头融合:平衡精度与完整性的智慧

遥感图像中的地物可以大致分为两大类:一类是像建筑物、车辆、船只这样的可数对象,它们有着清晰的边界,每个都是独立的个体;另一类是像道路、农田、水体这样的无定形区域,它们以连续的形式存在,更注重区域的完整性而非个体的边界。这种天然的二元性给自动识别带来了两难困境:用于识别可数对象的方法往往会把连续区域切得支离破碎,而用于识别连续区域的方法又容易忽略小目标或者把它们的边界搞得模糊不清。

研究团队发现,SAM 3的解耦架构完美地对应了这种二元性。模型的Transformer解码器专门负责处理离散的实例,它能够像经验丰富的侦探一样,在复杂的场景中准确定位每一个独立的目标,即使在密集排列的情况下也能将它们逐一识别出来。而语义分割头则像一位细心的画家,专注于描绘大面积区域的连续性和完整性,确保道路不会断断续续,农田不会被莫名其妙地分割成碎片。

为了让这两个"专家"发挥各自的优势,研究团队设计了一个巧妙的融合策略。他们首先让Transformer解码器处理那些可数对象,产生多个候选实例,然后通过加权聚合的方式将这些分散的预测整合成统一的类别图。这个过程就像将多个专家的意见综合起来形成最终决策,每个专家的发言权重取决于其置信度。

接下来是关键的融合步骤。研究团队采用了最大值融合策略,让实例聚合结果与语义分割结果在每个像素位置上"比赛",选择置信度更高的预测作为最终结果。这种策略的妙处在于,它能够自动选择最适合当前像素的预测方式:对于那些边界清晰的小目标,实例分割的结果通常更可靠;而对于大面积的连续区域,语义分割的结果则更胜一筹。

三、存在性过滤:解决全球词汇与局部视野的矛盾

遥感图像分析面临的另一个独特挑战是词汇规模与视野范围的严重不匹配。当我们要求系统识别地表覆盖类型时,可能会提供一个包含全球所有地物类型的庞大词汇表,其中包括各种气候带的植被、不同类型的建筑、各种地质特征等等。然而,任何一张具体的遥感图像都只覆盖地球表面的一个很小区域,可能只有几百米见方的范围。这就造成了一个尴尬的局面:系统需要在成百上千个候选类别中做选择,但其中绝大多数在当前图像中根本不存在。

这种情况就像让一个人在一间普通的卧室里寻找大象、鲸鱼和北极熊一样荒谬。由于遥感图像中经常存在纹理相似的不同地物,比如裸露的土地可能看起来像运动场,干涸的河床可能被误认为是道路,系统很容易被这些不相关但视觉相似的类别所迷惑,产生大量的误检测。

SAM 3模型的存在性判断头为解决这个问题提供了绝佳的工具。这个特殊的模块专门负责预测某个概念在图像中存在的全局概率,就像一个经验丰富的侦探在进入犯罪现场前先整体评估一下可能发生的案件类型。研究团队巧妙地利用这个存在性分数来过滤那些明显不可能出现的类别。

具体的过滤过程采用软门控机制,将每个类别的分割概率图与对应的存在性分数相乘。这样一来,那些系统判断为"在当前图像中不太可能存在"的类别,其分割结果会被大幅抑制,而真正存在的类别则得到相应的增强。这种机制不是简单粗暴地完全排除某些类别,而是根据存在概率进行连续的调整,既避免了误杀,又有效减少了误检。

四、实验验证:在多样化场景中的卓越表现

为了全面验证这套方法的有效性,研究团队在17个不同的遥感数据集上进行了大规模实验。这些数据集涵盖了从高分辨率卫星图像到无人机航拍的各种场景,包括城市、农村、海洋、山地等多种地理环境,以及不同的成像条件和分辨率水平。

在多类别语义分割任务中,SegEarth-OV3展现出了令人瞩目的性能。在平均指标上,它达到了53.4%的mIoU,比之前最好的训练无关方法CorrCLIP提升了12.7个百分点。更令人惊讶的是,在某些数据集上,这个完全不需要训练的方法甚至超越了使用完整训练数据的监督学习基线。比如在UDD5数据集上达到71.7%的mIoU,在VDD数据集上达到64.5%的mIoU,分别超过了对应的监督基线56.5%和62.9%。

这种看似不可思议的结果实际上揭示了一个重要现象:SAM 3这样的大规模预训练模型蕴含的丰富语义知识和强大的泛化能力,在某些情况下能够超越在特定数据集上训练的专门模型。这就像一个博览群书的学者在回答专业问题时,有时反而比只读过教科书的学生表现更好。

在建筑物提取任务中,SegEarth-OV3的表现更加突出。在WHU-Aerial数据集上达到86.9%的IoU,比之前的最佳方法SegEarth-OV提升了37.7个百分点;在Inria数据集上达到72.4%的IoU,提升了27.8个百分点。这样的提升幅度在学术界是极其罕见的,表明双头融合策略确实有效解决了建筑物这类小目标的精确分割问题。

道路提取任务同样验证了方法的有效性。道路作为典型的连续线性地物,对分割的连续性要求很高,传统方法往往容易产生断裂。SegEarth-OV3在CHN6-CUG数据集上达到49.6%的IoU,在保持道路连续性的同时实现了显著的性能提升。

五、消融实验:验证每个组件的价值

为了深入理解各个技术组件的贡献,研究团队进行了详细的消融实验。他们分别测试了仅使用实例头、仅使用语义头,以及双头融合的完整方案,结果清晰地展现了融合策略的价值。

在LoveDA这个包含多种地物类型的复杂数据集上,仅使用实例头获得32.2%的mIoU,仅使用语义头获得35.4%的mIoU,而双头融合方案达到47.4%的mIoU,比最好的单头方案提升了12.0个百分点。这个结果生动地说明了两个头部确实具有互补性:实例头善于处理离散目标但在连续区域上表现不佳,语义头能够保持区域完整性但在小目标上力不从心,两者结合恰好取长补短。

更有趣的是在不同类型数据集上的表现差异。在以建筑物提取为主的xBD数据集上,实例头表现相对更好,达到61.4%的IoU,而语义头只有44.9%,这符合建筑物作为离散实例的特征。但即使在这种情况下,双头融合仍然能够进一步提升到64.3%,表明两个头部的结合即使在偏向某一类型的任务中也有价值。

研究团队还专门分析了存在性过滤机制的效果。通过对比有无存在性过滤的结果,他们发现这个看似简单的机制在包含大量类别的场景中作用显著。当系统需要在众多候选类别中进行选择时,存在性分数能够有效抑制那些不存在的类别,避免了大量的误检测,使得分割结果更加清晰和准确。

六、通用性验证:在自然图像上的表现

为了验证方法的通用性,研究团队还在标准的自然图像数据集上进行了测试,包括Pascal VOC20、COCO Stuff和Cityscapes。令人惊喜的是,SegEarth-OV3在这些通用数据集上同样表现出色,证明了其不仅仅是针对遥感图像的专门方案,而是一个具有广泛适用性的通用方法。

在Pascal VOC20上,SegEarth-OV3达到96.8%的mIoU,不仅超过了之前最好的训练无关方法CorrCLIP的91.8%,甚至超越了需要训练的CAT-Seg方法的94.6%。在Cityscapes这个以街景理解为主的数据集上,方法达到69.7%的mIoU,比之前的最佳结果提升了18.6个百分点,这样的提升幅度在该领域是前所未有的。

这些结果表明,虽然研究团队是为了解决遥感图像的特殊挑战而设计这套方法,但其核心思想——利用SAM 3的解耦架构来处理不同类型的视觉内容——具有更广泛的适用性。这种通用性使得该方法不仅在遥感领域有价值,在其他计算机视觉应用中也有很大的推广潜力。

七、技术细节与实现要点

在具体实现上,研究团队采用了SAM 3的Perception Encoder-Large+骨干网络,将输入图像统一调整到1008×1008的分辨率。文本提示直接从类别名称生成,比如"building"、"road"等,对于某些类别还会添加同义词来增强鲁棒性。

系统的推理流程相对简洁高效。对于词汇表中的每个类别,模型依次生成存在性分数、语义概率图和实例预测集合。实例聚合通过加权最大值操作完成,权重来自各实例的置信度分数。双头融合采用逐像素的最大值选择策略,确保每个位置都采用最可靠的预测。最后,存在性过滤通过软门控机制调节各类别的输出强度。

值得注意的是,整个系统不需要任何测试时间的训练或微调,完全依赖SAM 3的预训练权重。这种训练无关的特性使得方法具有很好的实用性,用户可以直接将其应用到新的遥感数据上,无需收集标注数据进行重新训练。

八、对未来的启示与影响

这项研究的意义远超技术本身,它展示了如何巧妙地将通用视觉基础模型适配到特定领域的挑战上。SAM 3作为一个在自然图像上训练的通用模型,通过合适的适配策略能够在遥感图像这样的专门领域中发挥出色的性能,这为其他领域的研究提供了有价值的借鉴。

从应用前景来看,这套方法有望大大降低遥感图像分析的门槛。传统的遥感图像处理需要专门的数据标注和模型训练,成本高昂且周期较长。而训练无关的开放词汇方法让用户能够通过简单的文本描述就实现复杂的图像分析任务,极大地提高了效率和灵活性。

在城市规划领域,规划师可以快速分析不同时期的卫星图像,了解土地利用的变化趋势。在环境监测中,研究人员可以灵活地定义关注的地物类型,比如特定类型的植被或者污染区域,而无需重新训练模型。在灾害应急响应中,救援人员可以快速评估受灾区域的建筑损毁情况和道路通行状况。

更重要的是,这种开放词汇的能力使得系统能够适应不断变化的分析需求。随着新的地物类型的出现或者分析目标的调整,用户只需要更新文本描述即可,而无需重新收集数据和训练模型。这种灵活性对于快速发展的地球观测应用来说具有重要价值。

从技术发展角度来看,这项研究也为视觉基础模型在专门领域的应用提供了新的思路。通过深入分析领域特有的挑战并设计相应的适配策略,研究人员可以充分发挥这些大规模预训练模型的潜力,而无需从头开始构建专门的模型。

说到底,西安交大这个研究团队的工作展示了一种优雅的解决方案:既充分利用了最新视觉基础模型的强大能力,又针对遥感图像的特殊挑战设计了巧妙的适配策略。双头融合策略解决了不同类型地物的分割需求,存在性过滤机制缓解了开放词汇设置下的误检测问题。实验结果不仅在遥感领域达到了新的性能标杆,在通用图像数据集上的优异表现也证明了方法的广泛适用性。

这项研究为遥感图像分析带来了新的可能性,让计算机能够像人类一样灵活地理解和分析地球表面的各种地物。随着技术的进一步发展和应用的推广,我们有理由期待遥感图像分析变得更加智能化和普及化,为地球观测和环境监测提供更强大的技术支撑。无论是城市规划师、环境研究者,还是普通关心环境变化的公众,都将从这种更加智能和灵活的地球观测技术中受益。

Q&A

Q1:SegEarth-OV3相比传统遥感图像识别方法有什么优势?

A:传统方法只能识别训练时见过的固定类别,就像只认识特定商品的收银员。SegEarth-OV3可以通过文字描述识别任何地物类型,无需重新训练。更重要的是,它解决了遥感图像中密集小目标容易粘连、大面积区域容易破碎的问题,通过双头融合策略同时保证了精确度和完整性。

Q2:双头融合策略具体是如何工作的?

A:SAM 3模型有两个"专家":实例分割头专门处理像建筑物、车辆这样边界清晰的独立物体,语义分割头负责道路、农田这样的连续区域。双头融合就是让这两个专家在每个像素位置"比赛",选择置信度更高的预测结果,这样既能精确识别小目标,又能保持大区域的完整性。

Q3:为什么SegEarth-OV3在某些数据集上能超越需要训练的监督学习方法?

A:这主要因为SAM 3是在海量数据上预训练的大规模模型,蕴含了非常丰富的语义知识和强大的泛化能力。就像博览群书的学者有时比只读教科书的学生回答问题更好一样,SAM 3的广博知识在某些情况下能够超越在特定小数据集上训练的专门模型,特别是在数据量有限的遥感领域。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军三角洲部队跨国精准突击背后……

美军三角洲部队跨国精准突击背后……

新民周刊
2026-01-06 19:49:56
看懂史上真实的慈安,才明白慈禧为何绞尽脑汁,一辈子都斗不过她

看懂史上真实的慈安,才明白慈禧为何绞尽脑汁,一辈子都斗不过她

近史谈
2026-01-06 16:28:59
田朴珺拿走人脉,王石只剩年龄

田朴珺拿走人脉,王石只剩年龄

深水财经社
2026-01-05 21:19:06
有人预测:从2026年开始,存款超过50万以上家庭,会面对三大问题

有人预测:从2026年开始,存款超过50万以上家庭,会面对三大问题

蜉蝣说
2025-12-31 11:03:55
《南京照相馆》落选奥斯卡,内地电影连输21次,老导演揭示原因

《南京照相馆》落选奥斯卡,内地电影连输21次,老导演揭示原因

光影新天地
2026-01-06 17:22:34
台湾省境内几乎不产石油,大量依赖进口,为何油价比国内低?

台湾省境内几乎不产石油,大量依赖进口,为何油价比国内低?

史怌的生活科普
2025-12-28 13:13:36
41岁吕一疑似婚变!北京小家重装依旧老土,老公生活痕迹全被抹掉

41岁吕一疑似婚变!北京小家重装依旧老土,老公生活痕迹全被抹掉

娱圈小愚
2026-01-07 09:51:58
台儿庄战役真相:29万中国军队包围3万日军,打完伤亡却高达5万

台儿庄战役真相:29万中国军队包围3万日军,打完伤亡却高达5万

史韵流转
2026-01-07 09:54:39
就在刚刚,14家A股上市公司发布重大利空消息,看看都有哪些?

就在刚刚,14家A股上市公司发布重大利空消息,看看都有哪些?

股市皆大事
2026-01-07 07:06:33
300亿大案!公安部出手,这帮吃人不吐骨头的“吸血鬼”终于凉了

300亿大案!公安部出手,这帮吃人不吐骨头的“吸血鬼”终于凉了

泠泠说史
2026-01-06 18:56:19
坚持北伐不拆队,记者:快船队已决定在交易市场中当买家引援

坚持北伐不拆队,记者:快船队已决定在交易市场中当买家引援

懂球帝
2026-01-07 14:40:15
马筱梅首晒孕晚期写真!宝宝性别引热议,衣服和婴儿房暴露太多!

马筱梅首晒孕晚期写真!宝宝性别引热议,衣服和婴儿房暴露太多!

古希腊掌管月桂的神
2026-01-06 16:58:12
砸75亿成一座空城?湖南北部最大的烂尾“古城”,荒草旺盛!

砸75亿成一座空城?湖南北部最大的烂尾“古城”,荒草旺盛!

GA环球建筑
2026-01-07 17:52:42
新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社
2026-01-06 17:32:44
美防长放话:采取前所未有的措施

美防长放话:采取前所未有的措施

环球时报国际
2026-01-07 00:08:45
记者:湖人未将艾顿视为长期的中锋人选,他不是东契奇的空接搭档

记者:湖人未将艾顿视为长期的中锋人选,他不是东契奇的空接搭档

懂球帝
2026-01-07 13:58:45
演都不演了!田朴珺承认嫌王石烦,她给所有的老夫少妻都提了个醒

演都不演了!田朴珺承认嫌王石烦,她给所有的老夫少妻都提了个醒

涵豆说娱
2026-01-04 18:40:14
揭秘尼姑庵的黑暗面:尼姑平均年龄不到25,香客人来人往究竟为何

揭秘尼姑庵的黑暗面:尼姑平均年龄不到25,香客人来人往究竟为何

丰谭笔录
2026-01-06 11:40:49
外媒爆:美国正将委内瑞拉内政部长、防长视为潜在目标

外媒爆:美国正将委内瑞拉内政部长、防长视为潜在目标

环球网资讯
2026-01-07 11:27:06
300八路军被2千伪军围困芦苇荡,17岁卫生员无意间一句话迎来转机

300八路军被2千伪军围困芦苇荡,17岁卫生员无意间一句话迎来转机

卡西莫多的故事
2025-12-22 09:50:12
2026-01-07 18:28:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6804文章数 546关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

艺术
旅游
本地
时尚
公开课

艺术要闻

David Grossmann:不一样的风景画

旅游要闻

安徽省怀远县白乳泉新年游园会暨2026年文商旅促消费活动圆满收官

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

看起来很好亲的唇,能养出来?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版