网易首页 > 网易号 > 正文 申请入驻

打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

0
分享至



上下文分割(In-Context Segmentation)旨在通过参考示例指导模型实现对特定目标的自动化分割。尽管 SAM 凭借卓越的零样本泛化能力为此提供了强大的基础,但将其应用于此仍受限于提示(如点或框)构建,这样的需求不仅制约了批量推理的自动化效率,更使得模型在处理复杂的连续视频时,难以维持时空一致性。

北京邮电大学联合南洋理工大学等机构发表的 IEEE TPAMI 期刊论文《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》,不仅为图像和视频的上下文分割建立了统一的高效框架DC-SAM,还构建了首个视频上下文分割基准IC-VOS

研究团队巧妙地提出基于提示微调的 “循环一致性” 机制,通过正负双分支与循环一致性注意力的协同,配合 Mask-Tube 策略,实现了 SAM 与 SAM2 在图像及视频上下文分割任务上的统一与高效适配。

实验结果显示,DC-SAM 在多个基准测试中均取得了 SOTA 性能:在 COCO-20i 上达到 55.5 mIoU,在 Pascal-5i 上达到 73.0 mIoU;在新建的 IC-VOS 视频基准上,J&F 得分高达 71.52,显著优于现有方法。该篇论文已被IEEE TPAMI录用。



  • 论文标题:DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
  • 论文链接:https://arxiv.org/pdf/2504.12080
  • 代码链接:https://github.com/zaplm/DC-SAM

研究背景

近年来,以 SAM 和 SAM2 为代表的视觉基础模型凭借海量训练数据,展现了卓越的交互式分割能力,已成为医学影像、开放词汇分割等下游任务的强大基石。然而,尽管 SAM 在 “分割一切” 上表现出色,却缺乏 “上下文分割”(In-Context Segmentation)的能力 —— 即无法仅凭一张参考示例(Support Image)及其掩码,自动在查询图像(Query Image)中分割出同类目标。

为了弥补这一短板,早期的少样本学习方法多依赖度量学习,但泛化能力有限。虽然 SegGPT 等通用模型通过大规模图文对训练实现了上下文分割,但其计算资源消耗巨大。相比之下,提示微调(Prompt Tuning)提供了一条高效路径。然而,现有的 SAM 适配方法(如 VRP-SAM)主要依赖骨干网络提取的通用特征,忽略了 SAM 自身提示编码器(Prompt Encoder)的特征特性,且往往未能充分利用背景(负样本)信息来约束分割边界,导致生成的提示精度不足。

此外,视频领域的上下文分割研究尚处于空白阶段。现有的视频分割基准(如 DAVIS、MOSE)主要侧重于给定首帧掩码的半监督跟踪任务,缺乏评估 “基于参考示例进行视频分割” 能力的专用基准。

针对上述挑战,研究团队推出了首个视频上下文分割基准 IC-VOS,并同步提出了DC-SAM 框架。该框架旨在通过提示微调技术,将 SAM 与 SAM2 的能力无缝迁移至这一新任务,实现了统一高效的图像与视频上下文分割。



DC-SAM与现有方法的对比图。 a) 方法对比图,b) 预测可视化对比图,c)得分对比图。

IC-VOS:首个面向上下文视频分割的大规模基准数据集

在研究过程中,研究团队发现该领域缺乏一个专门用于评估 “上下文视频对象分割” 的统一基准。现有的 VOS 数据集大多侧重于第一帧掩码的追踪,而传统的 Few-shot 图像数据集则完全丢失了时间维度。

为了填补这一空白,研究团队推出了IC-VOS (In-Context Video Object Segmentation) 数据集。这是首个旨在全面衡量模型在视频上下文中学习能力的数据集。IC-VOS 涵盖了极其丰富的场景,包括极小目标分割、快速运动变形以及复杂背景融合等。



IC-VOS 分割基准:a) 数据来源,b) 词云图,c) 类别分布,d) 示例样本。

DC-SAM 框架

DC-SAM 框架由三个核心部分组成:基于 SAM 的特征融合正负双分支循环一致性提示生成,以及面向视频的 Mask-tube 训练策略。该框架旨在充分利用 SAM 的特征空间,通过显式的正负样本约束和循环校验,生成高精度的视觉提示。



DC-SAM方法概览图。

基于 SAM 的特征融合

现有的上下文分割方法通常仅依赖于预训练骨干网络(如 ResNet 或 DINOv2)提取特征,这导致生成的 Prompt 与 SAM 内部的特征空间存在 “语义鸿沟”。









基于 SAM 的多源特征融合方法图

正负双分支循环一致性提示生成

正负双分支循环一致性提示生成是 DC-SAM 的核心模块。为了解决单一前景提示带来的边界模糊问题,研究团队设计了正负双分支(Dual-Branch)结构:



在每个分支内部,为了防止 “语义漂移”(即错误匹配非目标区域),研究团队引入了循环一致性交叉注意力(Cyclic Consistent Cross-Attention)。其核心思想是:只有当支持图像中的像素 j 与查询图像中的匹配像素 j* 满足语义类别一致时,才保留该注意力权重;否则,通过偏置项 B 将其屏蔽:



基于该偏置项,可以计算经过循环校验的注意力输出,确保生成的 Prompt 仅聚合高度可信的特征:



最终,正负分支生成的 Prompt 分别叠加 SAM 预训练的 Pos/Neg Embeddings,共同指导 Mask Decoder 生成精准掩码。



正负双分支循环一致性提示生成方法图

面向视频的 Mask-tube 训练策略及模型优化

得益于 SAM 与 SAM2 在 Prompt Encoder 上的架构一致性, DC-SAM 可以无缝迁移至视频领域。为了赋予模型处理时空动态的能力,研究团队设计了轻量级的Mask-tube(掩码管道)训练策略,通过数据增强将静态图像堆叠为伪视频序列,从而模拟连续帧之间的时序变化。

在优化阶段,无论是图像还是视频流的预测,均由二元交叉熵损失(BCE Loss)和相似度度量损失(Dice Loss) 共同约束。最终的总损失函数定义为两者的加权和,以平衡局部像素分类与整体区域重叠度的优化目标(超参数 λ 经验性地设置为 1):



性能评估与实验分析

核心结果方面,DC-SAM 在图像上下文分割基准 COCO-20i 和 Pascal-5i 上取得显著性能优势。与基础视觉模型对比,即使面对使用了海量图文对训练的通用模型 SegGPT(56.1 mIoU),基于 DINOv2 的 DC-SAM 依然在 COCO-20i 上取得了 62.0 mIoU 的成绩,实现了近 6% 的性能反超,证明了所提出提示微调方法的泛化能力。与 基于 SAM 的方法对比,在同等骨干网络(ResNet50)下,DC-SAM 全面超越现有的 SAM 适配方法,即使对比最强的基准模型 VRP-SAM,也在COCO-20i 超越了 1.6%,证明 SAM 特征融合方法以及 Prompt 生成的有效性。



在团队首创的视频基准 IC-VOS 上,DC-SAM 取得了 71.52 的 J&F 得分,以 6.4% 的显著优势超越了 VRP-SAM,并大幅领先 PerSAM。这不仅充分验证了 Mask-tube 策略的有效性,更证明了循环一致性约束能有效抑制视频传播过程中的语义漂移,实现稳健的目标锁定。



为了直观评估模型性能,研究团队对 Pascal-5i 和 IC-VOS 上的分割结果进行了可视化分析。在图像任务中,DC-SAM 展现了对复杂结构和细粒度特征的强大捕捉能力。无论是 “瓶子” 的完整轮廓,还是 “鸟类” 的细微纹理,模型均能生成高精度的掩码;特别是在处理 “自行车” 和 “飞机” 等复杂物体时,DC-SAM 有效抑制了背景区域的误检(False Positives),边缘分割清晰锐利。



图像上下文分割效果对比图,黄色的叉表示明显错误。

在更具挑战的视频任务中,DC-SAM 的优势进一步凸显。以 “摩托车” 视频序列为例,基线模型 PFENet 出现了明显的语义漂移现象,不仅漏检了车轮,还错误地将骑手包含在分割目标内。相比之下,DC-SAM 能够精准区分干扰对象(如骑手)与目标主体,在连续帧中实现了稳健的语义锁定与追踪。



视频上下文分割效果对比图。

我们相信,DC-SAM 的提出为视觉大模型的落地应用,尤其是在需要高效、自动处理海量视频数据的工业与科研领域,提供了极具竞争力的解决方案。

作者简介

齐梦实,北京邮电大学计算机学院,教授、博导。博士毕业于北京航空航天大学,美国罗切斯特大学联合培养博士。曾工作于瑞士洛桑联邦理工学院CVLAB担任博士后研究员,百度研究院访问研究员等。入选2021年第七届中国科协青年人才托举工程(中国人工智能学会)、2024年小米青年学者、2025年ACM北京分会新星奖。主要研究方向为人工智能、计算机视觉和多媒体智能计算等。作为主要负责人承担国家自然科学基金(面上/青年)、北京市自然科学基金-小米创新联合基金、腾讯犀牛鸟课题、小米、阿里、微软合作项目等,并作为核心研发人员参与了国家自然科学基金重大/重点项目、科技部重点专项和港澳台科技专项等,发表国际高水平期刊会议论文50余篇,包括顶级学术会议CVPR/ICCV/ECCV/NeurIPS/ACM MM/AAAI和权威学术期刊TPAMI/TIP/TMM/TCSVT/TIFS等,担任顶级会议AAAI、IJCAI的领域主席和TMM的特邀编辑。

毕萧扬,北京邮电大学计算机学院,硕士研究生。主要研究方向为人工智能、计算机视觉和自动驾驶等。作为核心研究人员参与北京市自然科学基金-小米创新联合基金、腾讯犀牛鸟课题等重点科研项目。发表的国际高水平论文成果收录于权威学术期刊TPAMI和顶级学术会议UbiComp。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梅德韦杰夫称,多方面来看,“特别军事行动”的胜利已经初见端倪

梅德韦杰夫称,多方面来看,“特别军事行动”的胜利已经初见端倪

山河路口
2026-02-01 22:53:12
官方丨切尔西攻击手正式转会米兰

官方丨切尔西攻击手正式转会米兰

米兰圈
2026-02-03 09:26:34
涉嫌严重违纪违法,吴晓轮被查!

涉嫌严重违纪违法,吴晓轮被查!

中国基金报
2026-02-02 19:13:42
胖东来2025年终奖,涨到怀疑人生

胖东来2025年终奖,涨到怀疑人生

李东阳朋友圈
2026-02-03 14:09:02
萨达姆的地下情人,17岁起便被软禁,晚年坦言:至今仍心有余悸

萨达姆的地下情人,17岁起便被软禁,晚年坦言:至今仍心有余悸

寄史言志
2026-02-02 00:16:14
刚跟中国签完协议,斯塔默就面临下台风险,51%民调要求立刻解职

刚跟中国签完协议,斯塔默就面临下台风险,51%民调要求立刻解职

古史青云啊
2026-02-02 19:44:33
史蒂文·斯皮尔伯格79岁拿下格莱美!职业生涯大满贯完成!

史蒂文·斯皮尔伯格79岁拿下格莱美!职业生涯大满贯完成!

星野娱乐天地
2026-02-02 20:07:04
美媒:快船一直很关注加兰,几个月以来一直在悄悄谈论他

美媒:快船一直很关注加兰,几个月以来一直在悄悄谈论他

懂球帝
2026-02-03 16:26:32
不要再随意猜测杨兰兰的身份了,释放的信号很明显了

不要再随意猜测杨兰兰的身份了,释放的信号很明显了

李昕言温度空间
2025-08-20 15:01:53
金价到底能不能跌回500多一克?答案可能超出预期?

金价到底能不能跌回500多一克?答案可能超出预期?

爱看剧的阿峰
2026-02-03 02:12:06
官方:中国演员王鹤棣将参加今年NBA全明星名人赛

官方:中国演员王鹤棣将参加今年NBA全明星名人赛

懂球帝
2026-02-03 16:26:32
突发讣告!江西周佐佳去世!年仅37岁,昏睡近200天,负债超50W

突发讣告!江西周佐佳去世!年仅37岁,昏睡近200天,负债超50W

科学发掘
2026-02-03 08:37:03
大毒枭坤沙:从不向中国贩毒,手握六个师兵力,美国:可怕的敌人

大毒枭坤沙:从不向中国贩毒,手握六个师兵力,美国:可怕的敌人

芊芊子吟
2026-02-02 16:40:07
1952年,毛主席在黄河边遇上任俊华,吃惊地问他:你是国民党这边的,还是共产党的?

1952年,毛主席在黄河边遇上任俊华,吃惊地问他:你是国民党这边的,还是共产党的?

史海孤雁
2026-02-02 16:22:12
国产AI芯片股集体下跌

国产AI芯片股集体下跌

第一财经资讯
2026-02-03 11:22:36
知名国酒爆雷,纯酒精兑水,标注年份你说了算,成本10元卖899

知名国酒爆雷,纯酒精兑水,标注年份你说了算,成本10元卖899

毒sir财经
2026-01-30 16:23:01
俄军西部集群造假被抓包!堂堂第1坦克集团军,咋又出洋相?

俄军西部集群造假被抓包!堂堂第1坦克集团军,咋又出洋相?

战风
2026-02-02 15:19:59
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
今日金价2.3:金价1082元/克!不出意外,明后天或迎更大级别行情

今日金价2.3:金价1082元/克!不出意外,明后天或迎更大级别行情

说故事的阿袭
2026-02-03 16:34:10
全是假的!涉及多个品牌,检测结果触目惊心!很多人家里老人、小孩都在吃...

全是假的!涉及多个品牌,检测结果触目惊心!很多人家里老人、小孩都在吃...

上观新闻
2026-02-01 18:29:09
2026-02-03 17:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12240文章数 142562关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

克林顿将就爱泼斯坦案出庭作证 在美国历史上极为罕见

头条要闻

克林顿将就爱泼斯坦案出庭作证 在美国历史上极为罕见

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

小S致词:感谢具俊晔陪伴大S的最后3年

财经要闻

精神病医院骗保内幕调查:住院相当于坐牢

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

房产
本地
家居
公开课
军事航空

房产要闻

大盘最低杀到8000+/㎡!海口59盘,最新房价曝光!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

极简木艺术 典雅自在

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版