网易首页 > 网易号 > 正文 申请入驻

X-SAM:统一图像分割多模态大模型,20+图像分割数据集上均达SoTA

0
分享至

本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。

背景与动机

Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越,但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。多模态大语言模型(MLLMs)虽在图像描述、视觉问答等任务中表现出色,但输出局限于文本生成,无法直接处理像素级视觉任务,这一根本性限制阻碍了通用化模型的发展。

中山大学、鹏城实验室、美团联合提出X-SAM—— 一个统一的图像分割多模态大模型,将分割范式从 「分割万物」扩展到 「任意分割」。X-SAM 引入了统一框架,使 MLLMs 具备高级像素级感知理解能力。研究团队提出了视觉定位分割(Visual Grounded Segmentation, VGS)新任务,通过交互式视觉提示分割所有实例对象,赋予 MLLMs 视觉定位的像素级理解能力。为支持多样化数据源的有效训练,X-SAM 采用统一训练策略,支持跨数据集联合训练。实验结果显示,X-SAM 在广泛的图像分割基准测试中达到最先进性能,充分展现了其在多模态像素级视觉理解方面的优越性。

  • 论文地址:https://arxiv.org/pdf/2508.04655
  • 代码地址:https://github.com/wanghao9610/X-SAM
  • Demo地址: http://47.115.200.157:7861

方法设计

X-SAM 设计了通用输入格式和统一输出表示:

1)文本查询输入(Text Query)

  • 适用于通用分割、开放词汇分割、指代分割、GCG 分割、推理分割
  • 采用特殊短语标记 < p > 和 标注类别 / 短语 / 句子
  • 格式化为:""
  • category/phrase/sentence

2)视觉查询输入(Vision Query)

  • 适用于交互式分割和 VGD 分割任务
  • 支持点、涂鸦、边界框、掩码等多种视觉提示形式
  • 使用专用标记 < region > 表示视觉提示
  • 格式化为:""

3)统一输出表示

  • 引入特殊标记 < SEG > 表示分割结果
  • 标记间的潜在语言嵌入作为分割解码器的条件嵌入

X-SAM 采用端到端的统一分割 MLLM 架构,包含以下核心组件:

1)双编码器设计(Dual Encoders)

  • 图像编码器:采用 SigLIP2-so400m 提取全局图像特征,提升图像理解能力。
  • 分割编码器:采用 SAM-L 提取细粒度图像特征,提升图像分割效果。

2)双映射器架构(Dual Projectors)

为增强 LLM 的图像理解能力,X-SAM 采用特征融合策略。

  • 分割特征投影:利用像素重排(pixel-shuffle)操作减少空间尺寸,通过 MLP 投影到语言嵌入空间
  • 图像特征投影:直接通过 MLP 投影与分割特征连接后输入 LLM

3)分割连接器(Segmentation Connector)

针对图像分割任务对细粒度多尺度特征的需求,设计了分割连接器,为分割解码器提供丰富的多尺度信息。

  • 下采样路径:通过 0.5 倍像素重排生成 1/32 尺度特征;
  • 上采样路径:通过 2.0 倍像素重排生成 1/8 尺度特征;
  • 原始特征:保持 1/16 尺度特征。

4)统一分割解码器(Segmentation Decoder)

替换 SAM 原始解码器,采用 Mask2Former 解码器架构。

  • 模块优势:支持单次分割所有对象,克服 SAM 单对象分割限制。
  • 模块特点:引入潜在背景嵌入表示所有任务的 "忽略" 类别,实现一个解码器适配所有分割任务。

X-SAM 采用三阶段渐进式训练策略来优化多样化图像分割任务的性能:

1)第一阶段:分割器微调(Segmentor Fine-tuning)

2)第二阶段:对齐预训练(Alignment Pre-training)

3)第三阶段:混合微调(Mixed Fine-tuning)

针对训练数据集规模差异(0.2K 到 665K 样本),X-SAM 采用数据集平衡重采样策略:

其中 t 为控制过采样比例的超参数,f_d 为数据集 d 的频率。在混合训练过程中,根据 r_d 对数据集 d 进行重采样,改善在少样本数据集上的性能。

实验结果

综合性能指标

X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能。

部分关键任务性能指标

指代分割任务:

对话生成分割任务:

视觉定位分割任务:

图文理解任务:

可视化结果展示

总结与展望

X-SAM 作为首个真正统一的分割多模态大语言模型,成功实现了从「segment anything」到「any segmentation」的重要跨越。通过创新的 VGD 分割任务、统一架构设计和渐进式训练策略,X-SAM 在保持各项任务竞争性能的同时,实现了更广泛的任务覆盖范围,为图像分割研究开辟了新方向,并为构建通用视觉理解系统奠定了重要基础。未来研究方向可以聚焦于视频领域的扩展。一是与 SAM2 集成实现图像和视频的统一分割,进一步扩展应用范围;二是将 VGD 分割扩展到视频中,引入视频中的时序信息,构建创新的视频分割任务,为视频理解技术发展提供新的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

懂球帝
2026-03-26 12:27:11
押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

小舟谈历史
2026-03-25 06:28:02
台退将提出要求:台湾可以和平回归,但大陆必须要答应2个条件!

台退将提出要求:台湾可以和平回归,但大陆必须要答应2个条件!

百态中的情感起伏
2026-02-16 01:27:29
做人一定不要像张雪峰

做人一定不要像张雪峰

罗sir财话
2026-03-24 21:59:56
东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

懂球帝
2026-03-26 14:13:09
唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

阿龙美食记
2026-03-24 09:50:48
乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

项鹏飞
2026-03-26 21:13:57
陕西关中行政区划调整的构想

陕西关中行政区划调整的构想

普陀动物世界
2026-03-26 12:44:53
张雪峰妻子李丽婧的相关消息引发关注

张雪峰妻子李丽婧的相关消息引发关注

静水流深003
2026-03-26 12:19:49
运势封神!3.30-4.5三大星座事业翻身,之前没白熬,接好运

运势封神!3.30-4.5三大星座事业翻身,之前没白熬,接好运

别人都叫我阿螫
2026-03-25 14:34:30
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
真正的双赢!两大全明星一换一,一人完美融入,另一人则重获新生

真正的双赢!两大全明星一换一,一人完美融入,另一人则重获新生

大卫的篮球故事
2026-03-25 21:47:25
为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

番外行
2026-03-14 08:55:36
欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

21世纪经济报道
2026-03-26 19:46:02
3月26日俄乌:乌克兰的猛烈回击

3月26日俄乌:乌克兰的猛烈回击

山河路口
2026-03-26 17:32:00
核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

国是直通车
2026-03-22 16:00:02
全是智商税!这5个被吹爆的“网红产物”,谁买谁后悔

全是智商税!这5个被吹爆的“网红产物”,谁买谁后悔

家居设计师苏哥
2026-03-24 13:47:31
知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

游民星空
2026-03-26 17:09:32
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

小光侃娱乐
2026-03-26 06:55:03
2026-03-26 23:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
数码
本地
亲子
房产

艺术要闻

哪一座桥不是风景?

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

你好,我是馒头,快开门!

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版