网易首页 > 网易号 > 正文 申请入驻

X-SAM:统一图像分割多模态大模型,20+图像分割数据集上均达SoTA

0
分享至

本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。

背景与动机

Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越,但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。多模态大语言模型(MLLMs)虽在图像描述、视觉问答等任务中表现出色,但输出局限于文本生成,无法直接处理像素级视觉任务,这一根本性限制阻碍了通用化模型的发展。

中山大学、鹏城实验室、美团联合提出X-SAM—— 一个统一的图像分割多模态大模型,将分割范式从 「分割万物」扩展到 「任意分割」。X-SAM 引入了统一框架,使 MLLMs 具备高级像素级感知理解能力。研究团队提出了视觉定位分割(Visual Grounded Segmentation, VGS)新任务,通过交互式视觉提示分割所有实例对象,赋予 MLLMs 视觉定位的像素级理解能力。为支持多样化数据源的有效训练,X-SAM 采用统一训练策略,支持跨数据集联合训练。实验结果显示,X-SAM 在广泛的图像分割基准测试中达到最先进性能,充分展现了其在多模态像素级视觉理解方面的优越性。

  • 论文地址:https://arxiv.org/pdf/2508.04655
  • 代码地址:https://github.com/wanghao9610/X-SAM
  • Demo地址: http://47.115.200.157:7861

方法设计

X-SAM 设计了通用输入格式和统一输出表示:

1)文本查询输入(Text Query)

  • 适用于通用分割、开放词汇分割、指代分割、GCG 分割、推理分割
  • 采用特殊短语标记 < p > 和 标注类别 / 短语 / 句子
  • 格式化为:""
  • category/phrase/sentence

2)视觉查询输入(Vision Query)

  • 适用于交互式分割和 VGD 分割任务
  • 支持点、涂鸦、边界框、掩码等多种视觉提示形式
  • 使用专用标记 < region > 表示视觉提示
  • 格式化为:""

3)统一输出表示

  • 引入特殊标记 < SEG > 表示分割结果
  • 标记间的潜在语言嵌入作为分割解码器的条件嵌入

X-SAM 采用端到端的统一分割 MLLM 架构,包含以下核心组件:

1)双编码器设计(Dual Encoders)

  • 图像编码器:采用 SigLIP2-so400m 提取全局图像特征,提升图像理解能力。
  • 分割编码器:采用 SAM-L 提取细粒度图像特征,提升图像分割效果。

2)双映射器架构(Dual Projectors)

为增强 LLM 的图像理解能力,X-SAM 采用特征融合策略。

  • 分割特征投影:利用像素重排(pixel-shuffle)操作减少空间尺寸,通过 MLP 投影到语言嵌入空间
  • 图像特征投影:直接通过 MLP 投影与分割特征连接后输入 LLM

3)分割连接器(Segmentation Connector)

针对图像分割任务对细粒度多尺度特征的需求,设计了分割连接器,为分割解码器提供丰富的多尺度信息。

  • 下采样路径:通过 0.5 倍像素重排生成 1/32 尺度特征;
  • 上采样路径:通过 2.0 倍像素重排生成 1/8 尺度特征;
  • 原始特征:保持 1/16 尺度特征。

4)统一分割解码器(Segmentation Decoder)

替换 SAM 原始解码器,采用 Mask2Former 解码器架构。

  • 模块优势:支持单次分割所有对象,克服 SAM 单对象分割限制。
  • 模块特点:引入潜在背景嵌入表示所有任务的 "忽略" 类别,实现一个解码器适配所有分割任务。

X-SAM 采用三阶段渐进式训练策略来优化多样化图像分割任务的性能:

1)第一阶段:分割器微调(Segmentor Fine-tuning)

2)第二阶段:对齐预训练(Alignment Pre-training)

3)第三阶段:混合微调(Mixed Fine-tuning)

针对训练数据集规模差异(0.2K 到 665K 样本),X-SAM 采用数据集平衡重采样策略:

其中 t 为控制过采样比例的超参数,f_d 为数据集 d 的频率。在混合训练过程中,根据 r_d 对数据集 d 进行重采样,改善在少样本数据集上的性能。

实验结果

综合性能指标

X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能。

部分关键任务性能指标

指代分割任务:

对话生成分割任务:

视觉定位分割任务:

图文理解任务:

可视化结果展示

总结与展望

X-SAM 作为首个真正统一的分割多模态大语言模型,成功实现了从「segment anything」到「any segmentation」的重要跨越。通过创新的 VGD 分割任务、统一架构设计和渐进式训练策略,X-SAM 在保持各项任务竞争性能的同时,实现了更广泛的任务覆盖范围,为图像分割研究开辟了新方向,并为构建通用视觉理解系统奠定了重要基础。未来研究方向可以聚焦于视频领域的扩展。一是与 SAM2 集成实现图像和视频的统一分割,进一步扩展应用范围;二是将 VGD 分割扩展到视频中,引入视频中的时序信息,构建创新的视频分割任务,为视频理解技术发展提供新的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
魂归故里,长眠桑梓!张雪峰安葬地选址原因披露

魂归故里,长眠桑梓!张雪峰安葬地选址原因披露

史海流年号
2026-03-29 12:14:27
沙特油轮绕开霍尔木兹抵达日本:世界油阀,被一脚踹开了!

沙特油轮绕开霍尔木兹抵达日本:世界油阀,被一脚踹开了!

老马拉车莫少装
2026-03-29 11:19:25
巴曙松妻子失联,曾任中国人民银行领导

巴曙松妻子失联,曾任中国人民银行领导

新浪财经
2026-03-29 11:13:55
Deepseek现在怎么没声音了,梁文峰的低调错失了宝贵的发展时机?

Deepseek现在怎么没声音了,梁文峰的低调错失了宝贵的发展时机?

上林院
2026-03-29 10:30:20
突然集体拉升!霍尔木兹海峡,大消息!以军参谋长说以军常规部队已崩溃

突然集体拉升!霍尔木兹海峡,大消息!以军参谋长说以军常规部队已崩溃

证券时报e公司
2026-03-28 22:22:58
麻将、关系、性生活是县城的底色!

麻将、关系、性生活是县城的底色!

黯泉
2026-03-28 15:09:09
张雪峰追悼会现场画面流出:前妻和现任均现身,11女儿哭倒在现场

张雪峰追悼会现场画面流出:前妻和现任均现身,11女儿哭倒在现场

博士观察
2026-03-28 10:31:10
辞职3个月!张水华5次参赛3次夺冠:奖金达22万 曾担心养不活自己

辞职3个月!张水华5次参赛3次夺冠:奖金达22万 曾担心养不活自己

风过乡
2026-03-29 10:35:56
2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

就一点
2026-03-28 17:42:50
我国曾仅500多只!15年江苏农民工捡走死的,说要“回家炖一锅”

我国曾仅500多只!15年江苏农民工捡走死的,说要“回家炖一锅”

云景侃记
2026-03-28 19:30:10
CCTV5直播国足VS喀麦隆!谢文能火线复出 邵佳一高位逼抢打平当赢

CCTV5直播国足VS喀麦隆!谢文能火线复出 邵佳一高位逼抢打平当赢

刀锋体育
2026-03-29 12:55:45
这4个小时是“黄金睡眠时间”,错过了很难补回来

这4个小时是“黄金睡眠时间”,错过了很难补回来

齐鲁壹点
2026-03-07 05:15:12
向华强谈张雪峰突然离世,直言其饮食不健康,重油重盐有大问题

向华强谈张雪峰突然离世,直言其饮食不健康,重油重盐有大问题

娱乐E君
2026-03-27 12:47:59
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

谈史论天地
2026-03-29 16:10:03
享界汽车就“S9‘麋鹿测试’视频”发布声明:经核实,相关测试存在恶意、刻意操控行为,已固定相关证据,并对涉嫌机构及账号采取维权行动

享界汽车就“S9‘麋鹿测试’视频”发布声明:经核实,相关测试存在恶意、刻意操控行为,已固定相关证据,并对涉嫌机构及账号采取维权行动

潇湘晨报
2026-03-29 14:11:09
“我有自己的指标!”上海知名演员催母亲体检被怼:撒向大海,我最喜欢

“我有自己的指标!”上海知名演员催母亲体检被怼:撒向大海,我最喜欢

上观新闻
2026-03-29 18:06:13
人民日报也发了粉底液将军,居然有粉丝去冲人民日报,劝都劝不住

人民日报也发了粉底液将军,居然有粉丝去冲人民日报,劝都劝不住

芊手若
2026-03-29 04:06:34
中国警告美国:勿将冲突战乱引入亚太

中国警告美国:勿将冲突战乱引入亚太

参考消息
2026-03-29 16:18:54
网友:为啥现在的女人一年四季都戴口罩…终于懂了

网友:为啥现在的女人一年四季都戴口罩…终于懂了

丫头舫
2026-03-29 10:15:29
春天买鱼,这3种鱼全是野生海鱼,不能人工养殖,肉质鲜嫩营养高

春天买鱼,这3种鱼全是野生海鱼,不能人工养殖,肉质鲜嫩营养高

阿龙美食记
2026-03-27 16:09:42
2026-03-29 19:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12620文章数 142599关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

美军地面战"数周速决"方案披露 欲复刻"42天灭伊"神话

头条要闻

美军地面战"数周速决"方案披露 欲复刻"42天灭伊"神话

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

房产
旅游
本地
数码
公开课

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

旅游要闻

​倒计时 3 天|春假趣大墅・石韵研学游

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

数码要闻

DDR5内存数月来首次大降价!幕后推手曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版