网易首页 > 网易号 > 正文 申请入驻

X-SAM:统一图像分割多模态大模型,20+图像分割数据集上均达SoTA

0
分享至

本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。

背景与动机

Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越,但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。多模态大语言模型(MLLMs)虽在图像描述、视觉问答等任务中表现出色,但输出局限于文本生成,无法直接处理像素级视觉任务,这一根本性限制阻碍了通用化模型的发展。

中山大学、鹏城实验室、美团联合提出X-SAM—— 一个统一的图像分割多模态大模型,将分割范式从 「分割万物」扩展到 「任意分割」。X-SAM 引入了统一框架,使 MLLMs 具备高级像素级感知理解能力。研究团队提出了视觉定位分割(Visual Grounded Segmentation, VGS)新任务,通过交互式视觉提示分割所有实例对象,赋予 MLLMs 视觉定位的像素级理解能力。为支持多样化数据源的有效训练,X-SAM 采用统一训练策略,支持跨数据集联合训练。实验结果显示,X-SAM 在广泛的图像分割基准测试中达到最先进性能,充分展现了其在多模态像素级视觉理解方面的优越性。

  • 论文地址:https://arxiv.org/pdf/2508.04655
  • 代码地址:https://github.com/wanghao9610/X-SAM
  • Demo地址: http://47.115.200.157:7861

方法设计

X-SAM 设计了通用输入格式和统一输出表示:

1)文本查询输入(Text Query)

  • 适用于通用分割、开放词汇分割、指代分割、GCG 分割、推理分割
  • 采用特殊短语标记 < p > 和 标注类别 / 短语 / 句子
  • 格式化为:""
  • category/phrase/sentence

2)视觉查询输入(Vision Query)

  • 适用于交互式分割和 VGD 分割任务
  • 支持点、涂鸦、边界框、掩码等多种视觉提示形式
  • 使用专用标记 < region > 表示视觉提示
  • 格式化为:""

3)统一输出表示

  • 引入特殊标记 < SEG > 表示分割结果
  • 标记间的潜在语言嵌入作为分割解码器的条件嵌入

X-SAM 采用端到端的统一分割 MLLM 架构,包含以下核心组件:

1)双编码器设计(Dual Encoders)

  • 图像编码器:采用 SigLIP2-so400m 提取全局图像特征,提升图像理解能力。
  • 分割编码器:采用 SAM-L 提取细粒度图像特征,提升图像分割效果。

2)双映射器架构(Dual Projectors)

为增强 LLM 的图像理解能力,X-SAM 采用特征融合策略。

  • 分割特征投影:利用像素重排(pixel-shuffle)操作减少空间尺寸,通过 MLP 投影到语言嵌入空间
  • 图像特征投影:直接通过 MLP 投影与分割特征连接后输入 LLM

3)分割连接器(Segmentation Connector)

针对图像分割任务对细粒度多尺度特征的需求,设计了分割连接器,为分割解码器提供丰富的多尺度信息。

  • 下采样路径:通过 0.5 倍像素重排生成 1/32 尺度特征;
  • 上采样路径:通过 2.0 倍像素重排生成 1/8 尺度特征;
  • 原始特征:保持 1/16 尺度特征。

4)统一分割解码器(Segmentation Decoder)

替换 SAM 原始解码器,采用 Mask2Former 解码器架构。

  • 模块优势:支持单次分割所有对象,克服 SAM 单对象分割限制。
  • 模块特点:引入潜在背景嵌入表示所有任务的 "忽略" 类别,实现一个解码器适配所有分割任务。

X-SAM 采用三阶段渐进式训练策略来优化多样化图像分割任务的性能:

1)第一阶段:分割器微调(Segmentor Fine-tuning)

2)第二阶段:对齐预训练(Alignment Pre-training)

3)第三阶段:混合微调(Mixed Fine-tuning)

针对训练数据集规模差异(0.2K 到 665K 样本),X-SAM 采用数据集平衡重采样策略:

其中 t 为控制过采样比例的超参数,f_d 为数据集 d 的频率。在混合训练过程中,根据 r_d 对数据集 d 进行重采样,改善在少样本数据集上的性能。

实验结果

综合性能指标

X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能。

部分关键任务性能指标

指代分割任务:

对话生成分割任务:

视觉定位分割任务:

图文理解任务:

可视化结果展示

总结与展望

X-SAM 作为首个真正统一的分割多模态大语言模型,成功实现了从「segment anything」到「any segmentation」的重要跨越。通过创新的 VGD 分割任务、统一架构设计和渐进式训练策略,X-SAM 在保持各项任务竞争性能的同时,实现了更广泛的任务覆盖范围,为图像分割研究开辟了新方向,并为构建通用视觉理解系统奠定了重要基础。未来研究方向可以聚焦于视频领域的扩展。一是与 SAM2 集成实现图像和视频的统一分割,进一步扩展应用范围;二是将 VGD 分割扩展到视频中,引入视频中的时序信息,构建创新的视频分割任务,为视频理解技术发展提供新的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方消息:92号汽油每升下调0.75元,零点之后即开始调整

官方消息:92号汽油每升下调0.75元,零点之后即开始调整

沙雕小琳琳
2026-07-03 17:28:47
末代皇后婉容私人相册:眼神越来越绝望,私生子被溥仪丢进锅炉里

末代皇后婉容私人相册:眼神越来越绝望,私生子被溥仪丢进锅炉里

历史龙元阁
2026-07-03 16:30:08
1-2,河南3连败重陷保级困境,叶力江低级失误 王国明神扑难救主

1-2,河南3连败重陷保级困境,叶力江低级失误 王国明神扑难救主

替补席看球
2026-07-03 22:09:15
AI为啥老是生产同一张看久了让人生理性厌恶的脸?

AI为啥老是生产同一张看久了让人生理性厌恶的脸?

果壳
2026-07-02 13:01:05
身体有哪些小众但巨臭的地方?网友:17年终于找到同伙了!

身体有哪些小众但巨臭的地方?网友:17年终于找到同伙了!

另子维爱读史
2026-07-02 20:57:27
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
美国警告基辅:未来72小时,俄罗斯'榛树'导弹将至

美国警告基辅:未来72小时,俄罗斯'榛树'导弹将至

一念痴狂
2026-07-02 20:14:06
存款大局要定了?2026年7月后,居民储蓄或将迎来三大不可逆变局

存款大局要定了?2026年7月后,居民储蓄或将迎来三大不可逆变局

墨兰史书
2026-07-04 04:20:05
水泥封杀丈夫,强酸融情夫命根,勾魂夺命“黑寡妇”有何致命魅力

水泥封杀丈夫,强酸融情夫命根,勾魂夺命“黑寡妇”有何致命魅力

易玄
2026-07-03 02:07:16
莫迪喊高市早苗"妹妹",高市笑着回应:你叫我漂亮妹妹,网友:幼稚!国际交往不是过家家

莫迪喊高市早苗"妹妹",高市笑着回应:你叫我漂亮妹妹,网友:幼稚!国际交往不是过家家

每日经济新闻
2026-07-03 19:44:59
朱少醒悄悄清仓,百亿私募逆势重仓,一场AI应用的世纪豪赌!

朱少醒悄悄清仓,百亿私募逆势重仓,一场AI应用的世纪豪赌!

价值事务所所长
2026-07-04 00:17:55
7月主线已经换了,资金正在涌入这些新方向!

7月主线已经换了,资金正在涌入这些新方向!

亿通电子游戏
2026-07-03 21:04:12
西安赛格商户严鹏坠亡,女儿发布讣告!记者暗访,真相呼之欲出

西安赛格商户严鹏坠亡,女儿发布讣告!记者暗访,真相呼之欲出

火山詩话
2026-07-03 09:09:30
伊朗举行已故最高领袖葬礼,何维代表中方出席,沙特代表团意外现身,伊方再提海峡“共管”

伊朗举行已故最高领袖葬礼,何维代表中方出席,沙特代表团意外现身,伊方再提海峡“共管”

华尔街见闻官方
2026-07-04 03:43:15
死守二十天终落败,城内守军全部阵亡,顿巴斯决战箭在弦上

死守二十天终落败,城内守军全部阵亡,顿巴斯决战箭在弦上

安珈使者啊
2026-07-03 09:27:41
数据与冠军难换真心:勒布朗·詹姆斯与洛杉矶之间那道过不去的坎

数据与冠军难换真心:勒布朗·詹姆斯与洛杉矶之间那道过不去的坎

快乐加载中21
2026-07-04 00:55:55
这场殊死搏斗的2-1,诞生5个不争的事实,尤其是第3个,关于C罗

这场殊死搏斗的2-1,诞生5个不争的事实,尤其是第3个,关于C罗

画夕
2026-07-03 12:51:57
比葡萄牙惊险晋级更可怕的是,C罗赛后发言,一句话有抢功嫌疑

比葡萄牙惊险晋级更可怕的是,C罗赛后发言,一句话有抢功嫌疑

赫岝乡村摄影
2026-07-04 02:04:02
业绩增长62204%?半导体下周稳了?

业绩增长62204%?半导体下周稳了?

风风顺
2026-07-04 03:00:04
李冰冰开出12万月薪招保姆。其中一位保姆应聘,将菜里里外外洗了5、6遍,才给李冰冰看。没想到,李冰冰只看了一眼...

李冰冰开出12万月薪招保姆。其中一位保姆应聘,将菜里里外外洗了5、6遍,才给李冰冰看。没想到,李冰冰只看了一眼...

大爱三湘
2026-07-03 22:27:15
2026-07-04 05:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13427文章数 142686关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

埃及点球5-3澳大利亚晋级16强 将战阿根廷vs佛得角胜者

头条要闻

埃及点球5-3澳大利亚晋级16强 将战阿根廷vs佛得角胜者

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
教育
时尚
房产
本地

亲子要闻

新生儿奶粉口碑最好的推荐!新手爸妈别乱买,主流靠谱品牌全梳理

教育要闻

国家免费给孩子补课了

从港姐冠军到浪姐黑马,她的满分状态居然藏在水里

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

本地新闻

国内足球之旅?这座小城给你高分答案

无障碍浏览 进入关怀版