中山大学联合鹏城实验室、美团推出X2SAM|蒙版|编码器|sam|知名企业

分享至

这项由中山大学、鹏城实验室与美团联合开展的研究，以预印本形式于2026年4月27日发布在arXiv平台，编号为arXiv:2605.00891v1。感兴趣的读者可通过该编号检索完整论文。

手机里的相机每天拍下无数张照片和视频，人们早已习惯了用AI来识别照片里的猫咪、帮照片中的人物换个背景，或者给视频打上自动字幕。然而，当你真正去看这些AI的"眼睛"时，会发现一件有些奇怪的事——大多数厉害的AI要么只会"看图说话"，要么只会"圈出目标"，却很少有谁能同时把这两件事做得既好又快，更别说同时应对图片和视频了。

这正是这项研究要解决的问题。研究团队开发了一个名为X2SAM的系统。这个名字里的"X2"可以理解为"任意到任意"——任意的指令，对应任意类型的图像分割任务，既能处理静止的图片，也能处理动态的视频，且二者共用同一套大脑。

一、为什么我们需要一个"全能选手"？

在AI视觉领域，有一类非常重要的任务叫做"图像分割"——通俗地说，就是让AI把画面中每一个像素都归类，精确地圈出"哪些像素属于猫咪"、"哪些像素属于背景"。这就好比一幅填色画，AI需要把每个区域都精确地涂上对应的颜色，而不仅仅是在画上贴一个标签说"这里有只猫"。

目前已有两类工具各自做这件事。一类是专门生成高质量像素级蒙版的"分割基础模型"，比如SAM和SAM2。SAM就像一把精准的美工刀，你用鼠标在图上点一个点，它就能把那个物体精确地裁出来。但问题是，它只认识鼠标点击、方框之类的"物理手势"，完全不懂语言。你不能跟它说"帮我把视频里那只一直在白墙旁来回走动的人圈出来"——它根本听不懂。

另一类是多模态大语言模型（可以把它理解为"能看图的ChatGPT"），比如LLaVA、Qwen-VL等。这类模型语言理解能力极强，你说什么它都能听懂，但它的输出是文字，不是精确的像素蒙版。它能告诉你"这张图里有一只橙色的猫坐在沙发上"，却无法精确地圈出那只猫的每一根胡须。

在这两类工具之间，有一批"缝合怪"式的研究试图把二者合并，比如LISA、GLaMM等，它们让语言模型去驱动分割模型，实现"用语言描述、用像素呈现"的效果。然而这些模型大多只能处理静态图片，碰到视频就束手无策；或者能处理视频，却不支持视觉提示（也就是说，你没法用鼠标框一个区域告诉它"帮我追踪这个东西"）。

真正的痛点就在这里：没有一个模型能同时做到——理解复杂语言指令、接受鼠标框选之类的视觉提示、处理图片、处理视频，并且把所有这些任务统一在一个框架里，生成时间上连贯的像素蒙版。X2SAM正是为了填补这个空缺而生。

二、X2SAM能干什么？一场覆盖14种任务的"全科体检"

为了让读者有直观感受，可以把X2SAM想象成一位具备"全科能力"的视觉助手，它能接受各种形式的指令，然后在图片或视频上精确地圈出你关心的内容。

这位助手能做的事情，可以从图片和视频两个维度各列举七种能力来理解。在图片维度，它可以做通用分割（把图里所有人、车、树都分类圈出来）、开放词汇分割（圈出任意你说出名字的东西，包括它从没专门训练过的类别）、指代分割（根据"左边那个穿红衣服的人"这样的描述圈出目标）、推理分割（根据"能用来倒进玻璃杯里的东西"这样需要推断的描述找到目标）、接地对话生成（一边描述画面一边在对应的词语上标出蒙版）、交互式分割（你鼠标点一个点或画一个框，它就圈出那个区域）、视觉接地分割（你给它看一张参考图里的某个区域，它在目标图里找到对应物体并圈出来）。

在视频维度，这七种能力全部对应地延伸过来，而且因为视频是连续的帧序列，每种能力还需要额外处理时间上的连贯性——也就是说，第一帧圈出来的那只猫，在后续几十帧里也要被精准地持续追踪。

研究团队还专门提出了一项新任务：视频视觉接地分割（V-VGD）。这个任务的设定是这样的：你在视频的第一帧上用鼠标框出一个目标，系统需要自动追踪这个目标，在整个视频的每一帧里都生成精确的蒙版。这个任务没有现成的数据集，研究团队从两个已有的视频数据集（YT-VIS19和VIPSeg）出发，构建了YT19-VGD和VIPSeg-VGD两个新数据集，并以此建立了V-VGD基准测试体系。

三、X2SAM是怎么工作的？一套协同配合的"视觉大脑"

X2SAM的内部结构可以用一个由四个核心部件组成的团队来理解，每个部件各司其职，却又紧密协作。

第一个部件是"全局视觉理解大脑"，由视觉编码器和大语言模型组成。研究团队采用了Qwen3-VL-4B作为这个部件的基础，这是一个同时能看图和理解语言的预训练模型。它负责把输入的图片或视频转换成模型能理解的语义表示，就像把一幅画翻译成一段详尽的文字描述一样。当你给出一条指令——无论是"圈出左边那个拿雨伞的人"，还是"找出视频里总是靠着白墙走来走去的那个人"——这个大脑负责读懂你的意图，并产生一个特殊的指令信号，告诉后续的蒙版生成部件"你该去找什么"。这个指令信号就是所谓的"SEG潜在嵌入"，可以把它理解为一张含有目标语义信息的"寻找令"。

第二个部件是"精细像素特征提取器"，也就是蒙版编码器，它来自SAM2的架构。与大语言模型处理的"粗粒度"语义不同，蒙版编码器专门提取图像的高分辨率、细粒度特征——边缘、纹理、局部形状这些信息。它就像一台高倍放大镜，专门盯着像素层面的细节，确保最终生成的蒙版边缘足够精确。

第三个部件是"蒙版解码器"，负责把"寻找令"和像素特征合并，生成最终的二值蒙版（即每个像素属于目标还是背景的判断）。研究团队在这里做了一项关键的改进：引入了"Token-to-Image Attention"（词元到图像注意力）机制。通俗地说，这个机制让语言模型产生的"寻找令"能够直接与空间像素特征"对话"，而不是仅仅作为一个外部条件附加进来。这样做的效果是让语义信息和空间信息深度融合，生成的蒙版不仅形状准确，而且语义对齐更好。为了让这个新机制不破坏早期训练的稳定性，研究团队采用了"零初始化"策略，也就是说在训练最开始时这个机制的影响权重为零，随着训练推进再逐渐发挥作用——这就像新员工入职时先观察、再逐渐参与，而不是第一天就大刀阔斧地改流程。

第四个部件是本研究最核心的创新之一：蒙版记忆模块。这个模块专门解决视频处理中的时间连贯性问题。处理视频的挑战在于，视频是一帧一帧的，而且相邻帧之间的内容变化可能很微妙，也可能很剧烈。如果每一帧都独立处理，生成的蒙版往往会"抖动"——前一帧把人圈准了，后一帧蒙版突然偏移，看起来像是在闪烁，极不稳定。

蒙版记忆模块的工作流程分四步进行，形成一个循环。当处理视频的某一帧时，它首先通过"记忆注意力"机制回顾已经处理过的历史帧的视觉特征，将历史信息与当前帧的视觉特征融合，生成时间上连贯的视觉表示。接着，蒙版解码器利用这个经过时间加权的表示生成当前帧的蒙版。蒙版生成后，"记忆编码器"把当前帧的视觉特征和蒙版预测结果合并，压缩成一个"引导视觉特征"存入记忆库。记忆库采用先进先出（FIFO）的策略管理存储空间——最多保存最近若干帧的信息，超出容量时自动丢弃最旧的帧。这就像一个人在看连续剧时，脑子里会自动保留最近几集的情节来帮助理解当前剧情，而不会无限制地记住每一集的每一个细节。

消融实验（即逐项验证各个组件效果的实验）显示，只加入单尺度的简单记忆特征提升有限，而加入蒙版引导和类别引导信息、以及多尺度特征后，视频指代分割的J&F指标从53.6大幅跳升至65.0，视频推理分割也从36.5升至53.5。这表明，让记忆模块"记住的不只是画面，还有之前圈出来的蒙版形状和语义类别"，才是时间连贯性的真正关键所在。

此外，研究团队还设计了一个"区域采样器"，用于处理视觉提示（即用户用鼠标在画面上点击或框选的区域）。它的工作原理是在用户指定的感兴趣区域内进行点采样，然后通过自适应池化汇聚成紧凑的区域级表示，注入到大语言模型中，让模型知道"用户关注的是这个特定区域"。这个模块没有可学习参数，既轻量又高效。

四、X2SAM是怎么训练出来的？一套精心设计的"联合训练食谱"

训练一个同时处理图片和视频、覆盖14种任务的模型，面临的最大挑战之一是计算资源管理。图片和视频的内存消耗差异极大——一个视频片段可能包含8帧甚至更多，内存占用是单张图片的数倍。如果简单地把图片和视频混在一起训练，要么内存爆炸，要么效率极低。

研究团队的训练分两个阶段进行。第一阶段叫做"无类别分割器训练"，目的是让蒙版解码器在接触任何语言指令之前，先学会纯粹的形状和边界感知能力。训练数据使用SAM的SA-1B数据集中的蒙版标注，完全不涉及任何类别标签，让解码器只关注"这个区域的轮廓是什么样的"。这一步就像在教一个画家先练好素描基础，再谈色彩和内容。消融实验表明，使用SAM完整的1B数据集（而非子集或COCO数据集）训练这个阶段，能在几乎所有后续任务上都取得更好的效果。

第二阶段是核心的"统一联合训练"，在图片和视频的混合数据上同时训练所有14种任务。为了解决图片和视频内存消耗不对称的问题，研究团队设计了一套"维度转换流水线"：对于视频输入，将时间维度和批次维度做转置，把一个包含T帧的视频拆解为T张独立的图片，用同一套图片级接口通过蒙版编码器处理，然后通过蒙版记忆模块串联起时间依赖关系，最后再把T帧的蒙版沿时间维度拼接回来。这样做的妙处在于，蒙版编码器不需要感知"它在处理视频"，只需要处理一张张图片，大大降低了工程复杂度。

批次管理上，视频数据的每设备批次大小固定为1，图片数据则通过批次乘数扩展为4倍，从而在相同的内存预算下让图片数据的GPU利用率更高。梯度累积策略也根据模态分开设置：图片每步更新一次，视频则累积多步后再更新，进一步平衡内存与训练稳定性。此外，一个专门设计的"时间感知采样器"把时间长度相同的视频片段分到同一批次，避免不必要的填充。

最终，统一联合训练仅需约3300 GPU小时，而对照实验中的"简单联合训练"需要约5200 GPU小时——节省了约36.5%的训练成本，同时在视频任务上还取得了更好的性能。

五、X2SAM的实验成绩单：在哪些地方表现突出？

研究团队在大量基准测试上对X2SAM进行了评估，与现有的专用模型和通用模型进行对比。

在图片分割任务上，X2SAM与同样基于图片的通用模型X-SAM相比总体保持竞争力。在图片通用分割（COCO全景分割PQ 54.1、实例分割mAP 45.8）和指代分割（RefCOCOg验证集cIoU 81.9，创下新的最优成绩）上表现稳健。特别值得注意的是，在图片开放词汇分割任务上，X2SAM取得了31.2 PQ，明显高于X-SAM的20.9 PQ，说明X2SAM的语言理解能力带来了更强的泛化能力。在推理分割任务上，X2SAM以64.5 cIoU和71.1 gIoU的成绩超越了HyperSeg（分别高出7.8和11.9个百分点），在测试集的短问题和长问题子集上都取得了当时最优成绩。

在视频分割任务上，X2SAM的优势更为显著。在视频指代分割任务中，X2SAM在Ref-YT21数据集上取得了78.5 J&F，在Ref-DV17数据集上取得了79.0 J&F，超越了此前领先的UniPixel-7B分别7.5和2.6个百分点。在视频推理分割方面，X2SAM在ReVOS数据集上取得了69.9 J&F，比HyperSeg高出14.2个百分点，甚至超越了专门针对视频指代任务设计的ReferFormer-B专用模型。在视频接地对话生成任务上，X2SAM的mIoU为75.8，比VideoGLaMM高出21.5个百分点，差距相当显著。

在视觉接地分割任务上，X2SAM在图片端与专用图片模型X-SAM相当（COCO点提示AP 45.9，框提示AP 48.5），在视频端则大幅超越了SAM2-H。具体来说，在YT-VIS19数据集的框提示设置下，X2SAM取得了74.4 AP，而SAM2-H仅为54.0 AP；在更复杂的VIPSeg数据集上，X2SAM取得了57.8 AP，SAM2-H仅为40.4 AP。这一差距充分说明，当面对需要语言理解和时间追踪双重能力的任务时，纯粹依赖低级视觉提示的SAM2存在明显短板。

在域外泛化测试（即用从未见过的数据集测试）中，X2SAM在gRefCOCO（包含多目标和无目标表达式的泛化指代分割数据集）上超越了专用的非MLLM模型ReLA，也超越了PSALM和X-SAM等MLLM通用模型。在ADE20K的开放词汇分割测试中，X2SAM取得了31.2 PQ、38.2 mIoU和20.2 mAP，全面超越ODISE和X-SAM等对比方法。

此外，X2SAM还保留了出色的图片和视频对话能力，在MMBench、SEED-Bench等图片对话基准测试上取得了83.5和76.0的成绩，在VideoMME、MVBench、MLVU、LongVideoBench等视频对话基准测试上也表现优异，超越了Video-LLaVA、VideoChat2、VILA-1.5等专注对话的模型。这说明在为模型加入精细分割能力时，团队有效地防止了模型的通用对话能力退化。

六、X2SAM目前还有哪些不足和未来方向？

任何研究都有其边界，X2SAM也不例外。研究团队在论文中坦诚地指出了三点局限性。

第一，跨模态的统一训练仍然计算开销较大，尤其是视频数据的内存占用问题，即便有了现有的优化策略，训练成本依然不低，这对于资源有限的研究团队来说是一个门槛。

第二，固定大小的FIFO记忆库对于超长视频来说可能力不从心。如果目标在视频中经历了长时间遮挡、剧烈外观变化，或者消失很久后又重新出现，有限容量的记忆模块可能无法有效保存关键的历史信息，导致追踪失败。

第三，作为一个通用模型，X2SAM在某些高度专门化的单一任务上仍然落后于专用模型——比如专注于视频对象分割的SAM2-H，在YT-VOS19上的J&F为88.8，而X2SAM为74.0。这是通用性与专业性之间永恒的权衡取舍。

研究团队表示，未来工作将探索更高效的训练方法、更轻量的骨干网络，以及自适应的长时程记忆机制，以期在可扩展性和鲁棒性上进一步提升。

归根结底，X2SAM这项工作的核心价值在于证明了一件事：让AI同时看懂图片和视频、同时接受语言和视觉提示、同时处理从通用分类到复杂推理的各种任务，并不需要七八套独立的系统拼凑在一起——一个统一的框架，加上精心设计的记忆机制和训练策略，就可以做到。这种"大一统"的思路，不仅在工程上更整洁，在性能上也没有付出明显的代价，在很多任务上反而因为跨任务的知识共享而有所增益。

对普通用户而言，这意味着未来的AI视觉助手可能会变得更加全能——你可以直接对着监控视频说"帮我追踪那个红色背包的人"，或者对着一段家庭视频说"把两个孩子分别圈出来并标注他们的运动轨迹"，系统会自然地理解你的意图并生成精确的时间连贯蒙版，而不需要你先选模型、再选任务、再分别操作。

当然，从研究原型到日常可用的产品，还有相当长的路要走，但X2SAM的出现表明这条路的方向是清晰的。有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.00891查阅完整论文，代码也已在GitHub上以wanghao9610/X2SAM的地址开源。

Q&A

Q1：X2SAM和SAM2有什么区别，为什么不直接用SAM2？

A：SAM2是一个优秀的分割工具，但它只认识鼠标点击和方框这类"物理提示"，完全不理解语言。你没法跟SAM2说"圈出视频里一直在白墙旁走动的人"，它听不懂。X2SAM在SAM2的基础上加入了大语言模型，能理解复杂的文字描述甚至需要推理的指令，同时通过蒙版记忆模块保持视频中的时间连贯性。两者的适用场景不同，SAM2更像一把精准的剪刀，X2SAM更像一个能听懂指令的智能剪辑助手。

Q2：X2SAM的蒙版记忆模块是怎么保证视频中目标不丢失的？

A：蒙版记忆模块维护着一个"滚动记忆库"，保存最近若干帧（默认6帧）的视觉特征和蒙版信息。处理每一帧时，系统会先回顾这些历史记录，把历史信息与当前帧融合，生成时间上连贯的特征，再据此生成蒙版。处理完后，当前帧的信息又被存入记忆库，最旧的帧被自动丢弃。这种"向前看历史、向后传状态"的机制有效避免了逐帧独立处理时产生的蒙版抖动和目标丢失问题。

Q3：X2SAM需要多少GPU才能训练，普通研究团队能用吗？

A：X2SAM的完整训练在32块NVIDIA H800 GPU上进行，统一联合训练阶段总计约消耗3300 GPU小时。这对大多数高校实验室来说确实是不小的门槛。不过研究团队已经开源了代码和模型权重，普通研究人员可以直接使用预训练好的模型进行推理或在小数据集上微调，不需要从头复现完整训练流程。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.