网易首页 > 网易号 > 正文 申请入驻

X-SAM:统一图像分割多模态大模型,20+图像分割数据集上均达SoTA

0
分享至



本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。

背景与动机

Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越,但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。多模态大语言模型(MLLMs)虽在图像描述、视觉问答等任务中表现出色,但输出局限于文本生成,无法直接处理像素级视觉任务,这一根本性限制阻碍了通用化模型的发展。

中山大学、鹏城实验室、美团联合提出X-SAM—— 一个统一的图像分割多模态大模型,将分割范式从 「分割万物」扩展到 「任意分割」。X-SAM 引入了统一框架,使 MLLMs 具备高级像素级感知理解能力。研究团队提出了视觉定位分割(Visual Grounded Segmentation, VGS)新任务,通过交互式视觉提示分割所有实例对象,赋予 MLLMs 视觉定位的像素级理解能力。为支持多样化数据源的有效训练,X-SAM 采用统一训练策略,支持跨数据集联合训练。实验结果显示,X-SAM 在广泛的图像分割基准测试中达到最先进性能,充分展现了其在多模态像素级视觉理解方面的优越性。



  • 论文地址:https://arxiv.org/pdf/2508.04655
  • 代码地址:https://github.com/wanghao9610/X-SAM
  • Demo地址: http://47.115.200.157:7861

方法设计

X-SAM 设计了通用输入格式和统一输出表示:

1)文本查询输入(Text Query)

  • 适用于通用分割、开放词汇分割、指代分割、GCG 分割、推理分割
  • 采用特殊短语标记 < p > 和 标注类别 / 短语 / 句子
  • 格式化为:""
  • category/phrase/sentence

2)视觉查询输入(Vision Query)

  • 适用于交互式分割和 VGD 分割任务
  • 支持点、涂鸦、边界框、掩码等多种视觉提示形式
  • 使用专用标记 < region > 表示视觉提示
  • 格式化为:""

3)统一输出表示

  • 引入特殊标记 < SEG > 表示分割结果
  • 标记间的潜在语言嵌入作为分割解码器的条件嵌入

X-SAM 采用端到端的统一分割 MLLM 架构,包含以下核心组件:



1)双编码器设计(Dual Encoders)

  • 图像编码器:采用 SigLIP2-so400m 提取全局图像特征,提升图像理解能力。
  • 分割编码器:采用 SAM-L 提取细粒度图像特征,提升图像分割效果。

2)双映射器架构(Dual Projectors)

为增强 LLM 的图像理解能力,X-SAM 采用特征融合策略。

  • 分割特征投影:利用像素重排(pixel-shuffle)操作减少空间尺寸,通过 MLP 投影到语言嵌入空间
  • 图像特征投影:直接通过 MLP 投影与分割特征连接后输入 LLM

3)分割连接器(Segmentation Connector)

针对图像分割任务对细粒度多尺度特征的需求,设计了分割连接器,为分割解码器提供丰富的多尺度信息。

  • 下采样路径:通过 0.5 倍像素重排生成 1/32 尺度特征;
  • 上采样路径:通过 2.0 倍像素重排生成 1/8 尺度特征;
  • 原始特征:保持 1/16 尺度特征。

4)统一分割解码器(Segmentation Decoder)

替换 SAM 原始解码器,采用 Mask2Former 解码器架构。

  • 模块优势:支持单次分割所有对象,克服 SAM 单对象分割限制。
  • 模块特点:引入潜在背景嵌入表示所有任务的 "忽略" 类别,实现一个解码器适配所有分割任务。

X-SAM 采用三阶段渐进式训练策略来优化多样化图像分割任务的性能:

1)第一阶段:分割器微调(Segmentor Fine-tuning)



2)第二阶段:对齐预训练(Alignment Pre-training)



3)第三阶段:混合微调(Mixed Fine-tuning)



针对训练数据集规模差异(0.2K 到 665K 样本),X-SAM 采用数据集平衡重采样策略:



其中 t 为控制过采样比例的超参数,f_d 为数据集 d 的频率。在混合训练过程中,根据 r_d 对数据集 d 进行重采样,改善在少样本数据集上的性能。

实验结果

综合性能指标

X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能。



部分关键任务性能指标

指代分割任务:



对话生成分割任务:



视觉定位分割任务:



图文理解任务:



可视化结果展示





总结与展望

X-SAM 作为首个真正统一的分割多模态大语言模型,成功实现了从「segment anything」到「any segmentation」的重要跨越。通过创新的 VGD 分割任务、统一架构设计和渐进式训练策略,X-SAM 在保持各项任务竞争性能的同时,实现了更广泛的任务覆盖范围,为图像分割研究开辟了新方向,并为构建通用视觉理解系统奠定了重要基础。未来研究方向可以聚焦于视频领域的扩展。一是与 SAM2 集成实现图像和视频的统一分割,进一步扩展应用范围;二是将 VGD 分割扩展到视频中,引入视频中的时序信息,构建创新的视频分割任务,为视频理解技术发展提供新的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特斯拉授予高级副总裁朱晓彤超52万股股票期权:行权价435.8美元,完全归属要等五年后

特斯拉授予高级副总裁朱晓彤超52万股股票期权:行权价435.8美元,完全归属要等五年后

新浪财经
2026-01-13 21:28:27
宣布独立,成立一个新的:高都丽共和国!

宣布独立,成立一个新的:高都丽共和国!

百态人间
2026-01-13 16:35:22
痴人说梦:俄高层要求4月前拿下顿巴斯,世界最先进战车入列乌军

痴人说梦:俄高层要求4月前拿下顿巴斯,世界最先进战车入列乌军

史政先锋
2026-01-13 19:34:38
马斯克:现在学医毫无意义,钱很快消失,将发射8000颗太阳能卫星

马斯克:现在学医毫无意义,钱很快消失,将发射8000颗太阳能卫星

影像温度
2026-01-13 09:12:41
梅德韦杰夫调侃:美国再不抓紧,格陵兰就要入俄了 捍卫格陵兰,欧盟北约还能做些啥?

梅德韦杰夫调侃:美国再不抓紧,格陵兰就要入俄了 捍卫格陵兰,欧盟北约还能做些啥?

红星新闻
2026-01-13 13:34:29
重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

天天热点见闻
2026-01-13 05:15:58
王石田朴珺运动照流出!网友:这老头,太不容易了……

王石田朴珺运动照流出!网友:这老头,太不容易了……

麦杰逊
2026-01-13 12:09:35
伊朗抗议血腥镇压:数百青年头颈中枪殒命,23岁女大学生遗体被扣

伊朗抗议血腥镇压:数百青年头颈中枪殒命,23岁女大学生遗体被扣

译言
2026-01-13 11:00:50
特朗普突发!10分钟,直线涨停

特朗普突发!10分钟,直线涨停

中国基金报
2026-01-13 16:19:12
呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

好贤观史记
2026-01-13 18:08:50
吉利官宣退出伊朗市场

吉利官宣退出伊朗市场

齐鲁壹点
2026-01-13 22:00:10
大V建议没钱取暖的河北农村老人可以到海南云南两广旅居过冬

大V建议没钱取暖的河北农村老人可以到海南云南两广旅居过冬

西虹市闲话
2026-01-13 13:46:51
孝感市委原书记潘启胜傍上蒋超良细节:一系列大项目都交给蒋超良五弟

孝感市委原书记潘启胜傍上蒋超良细节:一系列大项目都交给蒋超良五弟

澎湃新闻
2026-01-13 21:50:26
立讯最新回应:闻泰印度资产被查封,已无法转让

立讯最新回应:闻泰印度资产被查封,已无法转让

第一财经资讯
2026-01-13 19:48:09
改完行程后,王毅被高规格接待,中方坐上专车,美国威胁非洲小国

改完行程后,王毅被高规格接待,中方坐上专车,美国威胁非洲小国

时时有聊
2026-01-13 21:14:16
出差前我在妻子睡衣上撒了荧光粉,回来后,打开紫光灯妻子腿软了

出差前我在妻子睡衣上撒了荧光粉,回来后,打开紫光灯妻子腿软了

清茶浅谈
2026-01-13 21:21:11
“有钱人的冬天是这样的”,网友:破防了!贫穷限制了我的想象

“有钱人的冬天是这样的”,网友:破防了!贫穷限制了我的想象

夜深爱杂谈
2026-01-13 20:23:18
全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

华人星光
2026-01-12 13:14:21
长春居民因客厅放床被停燃气20天

长春居民因客厅放床被停燃气20天

极目新闻
2026-01-13 09:51:51
不折腾:一种深刻的稳态

不折腾:一种深刻的稳态

疾跑的小蜗牛
2026-01-13 21:39:10
2026-01-14 04:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12110文章数 142536关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

特朗普:已取消所有与伊朗官员的会谈

头条要闻

特朗普:已取消所有与伊朗官员的会谈

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

游戏
艺术
家居
房产
健康

《生化危机 安魂曲》新发布会官宣 / Steam 推理游戏节开幕

艺术要闻

461米!14亿美元!越南第一高楼,形如“竹捆”

家居要闻

现代简逸 寻找生活的光

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

血常规3项异常,是身体警报!

无障碍浏览 进入关怀版