网易首页 > 网易号 > 正文 申请入驻

X-SAM:统一图像分割多模态大模型,20+图像分割数据集上均达SoTA

0
分享至

本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。

背景与动机

Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越,但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。多模态大语言模型(MLLMs)虽在图像描述、视觉问答等任务中表现出色,但输出局限于文本生成,无法直接处理像素级视觉任务,这一根本性限制阻碍了通用化模型的发展。

中山大学、鹏城实验室、美团联合提出X-SAM—— 一个统一的图像分割多模态大模型,将分割范式从 「分割万物」扩展到 「任意分割」。X-SAM 引入了统一框架,使 MLLMs 具备高级像素级感知理解能力。研究团队提出了视觉定位分割(Visual Grounded Segmentation, VGS)新任务,通过交互式视觉提示分割所有实例对象,赋予 MLLMs 视觉定位的像素级理解能力。为支持多样化数据源的有效训练,X-SAM 采用统一训练策略,支持跨数据集联合训练。实验结果显示,X-SAM 在广泛的图像分割基准测试中达到最先进性能,充分展现了其在多模态像素级视觉理解方面的优越性。

  • 论文地址:https://arxiv.org/pdf/2508.04655
  • 代码地址:https://github.com/wanghao9610/X-SAM
  • Demo地址: http://47.115.200.157:7861

方法设计

X-SAM 设计了通用输入格式和统一输出表示:

1)文本查询输入(Text Query)

  • 适用于通用分割、开放词汇分割、指代分割、GCG 分割、推理分割
  • 采用特殊短语标记 < p > 和 标注类别 / 短语 / 句子
  • 格式化为:""
  • category/phrase/sentence

2)视觉查询输入(Vision Query)

  • 适用于交互式分割和 VGD 分割任务
  • 支持点、涂鸦、边界框、掩码等多种视觉提示形式
  • 使用专用标记 < region > 表示视觉提示
  • 格式化为:""

3)统一输出表示

  • 引入特殊标记 < SEG > 表示分割结果
  • 标记间的潜在语言嵌入作为分割解码器的条件嵌入

X-SAM 采用端到端的统一分割 MLLM 架构,包含以下核心组件:

1)双编码器设计(Dual Encoders)

  • 图像编码器:采用 SigLIP2-so400m 提取全局图像特征,提升图像理解能力。
  • 分割编码器:采用 SAM-L 提取细粒度图像特征,提升图像分割效果。

2)双映射器架构(Dual Projectors)

为增强 LLM 的图像理解能力,X-SAM 采用特征融合策略。

  • 分割特征投影:利用像素重排(pixel-shuffle)操作减少空间尺寸,通过 MLP 投影到语言嵌入空间
  • 图像特征投影:直接通过 MLP 投影与分割特征连接后输入 LLM

3)分割连接器(Segmentation Connector)

针对图像分割任务对细粒度多尺度特征的需求,设计了分割连接器,为分割解码器提供丰富的多尺度信息。

  • 下采样路径:通过 0.5 倍像素重排生成 1/32 尺度特征;
  • 上采样路径:通过 2.0 倍像素重排生成 1/8 尺度特征;
  • 原始特征:保持 1/16 尺度特征。

4)统一分割解码器(Segmentation Decoder)

替换 SAM 原始解码器,采用 Mask2Former 解码器架构。

  • 模块优势:支持单次分割所有对象,克服 SAM 单对象分割限制。
  • 模块特点:引入潜在背景嵌入表示所有任务的 "忽略" 类别,实现一个解码器适配所有分割任务。

X-SAM 采用三阶段渐进式训练策略来优化多样化图像分割任务的性能:

1)第一阶段:分割器微调(Segmentor Fine-tuning)

2)第二阶段:对齐预训练(Alignment Pre-training)

3)第三阶段:混合微调(Mixed Fine-tuning)

针对训练数据集规模差异(0.2K 到 665K 样本),X-SAM 采用数据集平衡重采样策略:

其中 t 为控制过采样比例的超参数,f_d 为数据集 d 的频率。在混合训练过程中,根据 r_d 对数据集 d 进行重采样,改善在少样本数据集上的性能。

实验结果

综合性能指标

X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能。

部分关键任务性能指标

指代分割任务:

对话生成分割任务:

视觉定位分割任务:

图文理解任务:

可视化结果展示

总结与展望

X-SAM 作为首个真正统一的分割多模态大语言模型,成功实现了从「segment anything」到「any segmentation」的重要跨越。通过创新的 VGD 分割任务、统一架构设计和渐进式训练策略,X-SAM 在保持各项任务竞争性能的同时,实现了更广泛的任务覆盖范围,为图像分割研究开辟了新方向,并为构建通用视觉理解系统奠定了重要基础。未来研究方向可以聚焦于视频领域的扩展。一是与 SAM2 集成实现图像和视频的统一分割,进一步扩展应用范围;二是将 VGD 分割扩展到视频中,引入视频中的时序信息,构建创新的视频分割任务,为视频理解技术发展提供新的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广西7人被控制,涉案工具全扣押!

广西7人被控制,涉案工具全扣押!

930老友记
2026-04-11 22:49:08
哈佛研究:让孩子“疯跑”,才是对大脑顶级的投资

哈佛研究:让孩子“疯跑”,才是对大脑顶级的投资

枕边聊育儿
2026-04-02 10:57:59
1270万毕业生求职路:表演式招聘下,真心找工作的人该何去何从?

1270万毕业生求职路:表演式招聘下,真心找工作的人该何去何从?

复转这些年
2026-04-11 21:28:21
在日外国人注意!日本在留手续手续费大幅上调即将在2026年度内生效

在日外国人注意!日本在留手续手续费大幅上调即将在2026年度内生效

东京在线
2026-04-11 21:50:38
中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

奇思妙想生活家
2026-04-09 07:49:40
去了一趟非洲的农村,回来后才敢讲,那里的贫困,是无声的震撼

去了一趟非洲的农村,回来后才敢讲,那里的贫困,是无声的震撼

千秋文化
2026-04-07 10:47:30
神秘“华人”爆料,某岛上钱色交易不值一提,深层次的秘密才可怕

神秘“华人”爆料,某岛上钱色交易不值一提,深层次的秘密才可怕

林林故事揭秘
2024-12-25 12:24:41
Tucker被特朗普骂"低智商"后,反手甩出90年代白宫电话录音

Tucker被特朗普骂"低智商"后,反手甩出90年代白宫电话录音

热搜摘要官
2026-04-11 08:02:41
从“顶级粉头”到阶下囚!徐某身份曝光:不是路人,是跳水圈“大人物”

从“顶级粉头”到阶下囚!徐某身份曝光:不是路人,是跳水圈“大人物”

动物奇奇怪怪
2026-04-11 17:59:14
她因长得漂亮,被日本兵拖进炮楼,一晚上遭受50多个鬼子的折磨

她因长得漂亮,被日本兵拖进炮楼,一晚上遭受50多个鬼子的折磨

凡人聊史
2026-04-11 03:06:57
突发!证券股两大利好齐发,周一大涨定了?

突发!证券股两大利好齐发,周一大涨定了?

风风顺
2026-04-12 00:00:04
新加坡网友发帖:“我接受不了自己以游客身份进入中国”。

新加坡网友发帖:“我接受不了自己以游客身份进入中国”。

荆楚寰宇文枢
2026-04-11 17:21:54
韩鹏懂得变通,陈泽仕彭啸更有斗志 泰山务实战术 下场踢残阵海港

韩鹏懂得变通,陈泽仕彭啸更有斗志 泰山务实战术 下场踢残阵海港

替补席看球
2026-04-11 21:56:33
本想提前练兵却差点意外翻船,强如第三的深圳也没轻视对手的资本

本想提前练兵却差点意外翻船,强如第三的深圳也没轻视对手的资本

曦言说
2026-04-12 00:50:01
当不成首相了?中方通告全世界,高市早苗被催下台,日本必输无疑

当不成首相了?中方通告全世界,高市早苗被催下台,日本必输无疑

小兰聊历史
2026-04-11 09:55:47
又砍下33+7+7!抱歉卡尔马龙:你从历史第一变成了历史第二

又砍下33+7+7!抱歉卡尔马龙:你从历史第一变成了历史第二

篮球大视野
2026-04-11 17:19:07
女优玥伶揭麻豆传媒内幕逼演毁三观剧本:乱伦还涉未成年

女优玥伶揭麻豆传媒内幕逼演毁三观剧本:乱伦还涉未成年

孤独的独角兽影视
2026-04-10 10:10:16
陈丽华追悼会曝光,原来无儿无女的迟重瑞,早已被安排好“退路”

陈丽华追悼会曝光,原来无儿无女的迟重瑞,早已被安排好“退路”

青梅侃史啊
2026-04-09 19:57:58
只要和平不要统一吗?其实郑丽文已经回答了,她还要当台湾领导人

只要和平不要统一吗?其实郑丽文已经回答了,她还要当台湾领导人

影孖看世界
2026-04-11 14:06:58
第二批集训名单公布!庄宇珊三队友入选,女排世界第一备战新赛季

第二批集训名单公布!庄宇珊三队友入选,女排世界第一备战新赛季

跑者排球视角
2026-04-11 21:13:46
2026-04-12 05:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12729文章数 142623关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

美国提过分要求 美伊谈判双方严重分歧披露

头条要闻

美国提过分要求 美伊谈判双方严重分歧披露

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

亲子
健康
旅游
公开课
军事航空

亲子要闻

响应深圳卫健委号召,应强制不再打算生育的国男结扎

干细胞抗衰4大误区,90%的人都中招

旅游要闻

[视频]多元业态融合 打造文旅消费新热点

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版