网易首页 > 网易号 > 正文 申请入驻

无需训练即可大幅提升SAM 2!SAM2Long来了,港中文 上海AI Lab出品

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Segment Anything Model 2(SAM 2)在传统视频目标分割任务大放异彩,引起了众多关注。然而,港中文和上海 AI Lab 的研究团队发现 SAM 2 的贪婪选择策略容易陷入「错误累积」的问题,即一次错误的分割掩码选择将影响后续帧的分割结果,导致整个视频分割性能的下降。这个问题在长视频分割任务中显得更加严重。

针对这些挑战,该研究团队近日推出了全新的SAM2Long。在 Segment Anything Model 2(SAM 2)的基础上,提出了创新的记忆结构设计,打造了专为复杂长视频的分割模型。

  • 论文链接:https://mark12ding.github.io/project/SAM2Long/asset/images/paper.pdf
  • 项目链接:https://mark12ding.github.io/project/SAM2Long/
  • 代码链接:https://github.com/Mark12Ding/SAM2Long

SAM2Long 采用了一种全新的多路径记忆树结构,使得模型可以在每一帧处理时探索多种可能的分割路径,并根据综合得分选择最佳路径进行后续帧的分割。这种设计避免了单一错误掩码对整个视频的影响,使得 SAM2Long 在处理遮挡、目标重现等长视频常见问题时表现得更加稳健。

定性和定量对比 SAM 2 和 SAM2Long 处理遮挡和长时间的性能。

SAM2Long 方法简述

1. SAM 2 的基础概述

SAM 2 是一种用于图像和视频对象分割的基础模型。与 SAM 不同,SAM 2 引入了一个内存模块,该模块利用先前帧的信息和提示帧特征来帮助当前帧的分割。在视频对象分割任务中,SAM 2 会在每个时间步 t 上维护一个内存库,存储最近 N 帧的特征。每个内存条目包含空间嵌入和对象指针,通过这些信息,SAM 2 能够生成当前帧的分割掩码,并预测掩码的 IoU 分数和遮挡分数。SAM 2 采用贪婪选择策略,选择最高 IoU 的掩码作为最终预测,并存储其对应的内存指针。

2. 多路径记忆树结构与不确定性处理

为了提高 SAM 2 在长视频中的鲁棒性,SAM2Long 引入了多路径记忆树结构。该结构允许模型在每个时间步上保留多个分割路径假设,每条路径都有独立的内存库和累积得分。每个时间步上,SAM2 的掩码解码器在每条路径会生成三个掩码候选。

为了防止路径数量过多引起计算和内存开销过高,SAM2Long 实施了剪枝策略。我们计算每个掩码累积 IoU 得分,只保留得分最高的 P 条路径。

此外,SAM2Long 在处理不确定场景时,利用遮挡分数进行不确定性处理。当所有路径的遮挡分数都较低时,意味着模型对输出的结果不确定。在这种情况下,SAM2Long 会强制选择不同 IoU 值的掩码路径,以避免错误路径的过早收敛。

相比 SAM 2,SAM2Long 增加了额外的计算需求,主要体现在掩码解码器和内存模块的多次处理上。然而,这些模块相较于图像编码器来说非常轻量。例如,SAM 2-Large 的图像编码器包含 212M 个参数,而模型其余的参数只有 12M,大约仅占模型的 5%。

因为 SAM2Long 也只需要处理一次图像编码器,所以内存树结构的引入几乎不会增加显著的计算成本,但却显著提高了模型在长时间视频场景中的鲁棒性和对错误的恢复能力。

3. 物体感知的记忆库构建

在每条路径中,SAM2Long 使用物体感知的内存选择策略,通过筛选出具有较高 IoU 分数和没有遮挡的帧,只将高质量的有物体的帧加入记忆内存库。

此外,SAM2Long 对每个内存帧的遮挡分数进行排序,遮挡分数越高,表示该帧中的目标对象越清晰、遮挡越少。为了充分利用这些高质量的帧,SAM2Long 通过以下几个步骤来调整每个内存帧在注意力计算中的权重。

首先,定义一组线性分布的标准权重,用于对内存中的帧进行加权。这些权重在一个预定义的范围 [w_low, w_high] 之间线性分布,较高的权重将分配给那些重要的内存帧。

然后,对每个内存帧的遮挡分数进行排序,得到一个按遮挡分数从低到高排列的帧索引序列。根据遮挡分数的排序结果,将标准权重分配给对应的内存帧,遮挡分数越高的帧用越大的权重线性缩放该帧的特征表示。

最后,使用经过加权调整的内存帧作为输入,进行跨帧的注意力计算。这样,遮挡分数高的帧(表示对象存在且分割质量高)会对当前帧的分割结果产生更大的影响。

实验结果

SAM2Long 在所有模型规模优于 SAM 2

我们对 SAM 2 和 SAM2Long 在不同模型规模和多个数据集上的表现进行了详细对比。在 SA-V 验证集和测试集以及 LVOS v2 验证集上的实验结果显示,SAM2Long 无论在何种模型规模下,均显著超越了 SAM 2。表中共包含了 8 种模型变体,涵盖了 SAM 2 和最新的 SAM 2.1 在四种模型规模下的表现。24 次实验的平均结果表明,SAM2Long 在 J&F 指标上平均提高了 3.0 分。

其中,SAM2Long-Large 在 SA-V 验证集和测试集上,分别比 SAM 2 提升了 4.5 和 5.3 分。在 LVOS 验证集上,各个模型规模下的 SAM2Long 也都展示了显著的性能提升。此结果证明了我们的无训练内存树策略在长时间视频分割中的高效性,大大提升了模型在长视频对象分割中的鲁棒性。

SAM2Long 超越现有方法,实现 SOTA

我们还将 SAM2Long 与当前最先进的视频对象分割方法进行了对比。尽管 SAM 2.1 已经在众多数据集上显著超越了现有方法,但 SAM2.1Long 将这一成绩推向了更高的水平。特别是在 SA-V 验证集上,SAM2.1Long 的 J&F 得分为 81.1,较 SAM 2.1 提升了 2.5 分。在 LVOS 数据集中,SAM2.1Long 在 v1 和 v2 子集上分别达到了 83.4 和 85.9 的 J&F 得分,分别比 SAM 2.1 提升了 3.2 和 1.8 分。

SAM2Long 在应对不同挑战的视频时展现了强大的通用性

除了在 SA-V 和 LVOS 数据集上的出色表现外,我们还在其他视频对象分割基准测试上对 SAM2Long 进行了评估。在复杂的现实场景 MOSE 数据集上,SAM2.1Long 的 J&F 得分为 75.2,超越了 SAM 2.1 的 74.5 分。特别是在 MOSE 基准上,SAM 2.1-Large 并未相较 SAM 2-Large 带来性能提升,因此 SAM2.1Long 在该基准上取得的显著改进显得尤为突出。

同样,在关注对象变形的 VOST 数据集上,SAM2.1Long 的 J&F 得分为 54.0,较 SAM 2.1 提升了接近 1 分。而在 PUMaVOS 数据集上,SAM2.1Long 也以 82.4 分超越了 SAM 2.1 的 81.1 分,证明了其在处理复杂和模糊分割任务时的强大能力。

这些结果表明,SAM2Long 在保留 SAM 2 基础分割能力的同时,显著增强了其长时间视频场景下的表现,展现了其在不同 VOS 基准数据集上的鲁棒性和通用性。

结语

SAM2Long 是基于 SAM 2 的一种针对长时间视频对象分割任务的全新方法。通过引入多路径记忆树结构和不确定性处理机制,SAM2Long 有效地解决了长视频中遮挡、对象重现和错误累积等挑战。

实验结果表明,SAM2Long 在多个主流数据集上显著提升了分割精度,尤其是在未见类别和复杂场景中的表现尤为突出。相比于 SAM 2,SAM2Long 不仅保持了较低的计算开销,还在泛化能力和鲁棒性上实现了突破。

未来,我们相信 SAM2Long 可以广泛应用于各种实际场景,如自动驾驶、视频编辑和智能监控,推动视频对象分割技术的进一步发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子想让失恋的闺蜜开心,电梯打开她露出久违的笑容:你太懂我了

女子想让失恋的闺蜜开心,电梯打开她露出久违的笑容:你太懂我了

雪雪趣闻专栏
2026-04-13 18:56:19
印度惨遭羞辱:250万吨尿素全球招标,竟无人问津,中企集体缺席

印度惨遭羞辱:250万吨尿素全球招标,竟无人问津,中企集体缺席

影像温度
2026-04-13 11:42:30
中共中央批准,开除韩占武党籍

中共中央批准,开除韩占武党籍

新京报
2026-04-13 11:34:06
下药片大行其道!星乃莉子:其实吃下的是⋯

下药片大行其道!星乃莉子:其实吃下的是⋯

孤独的独角兽影视
2026-04-14 09:55:07
英国男称上海食物像狗屎!罕见全球华人团结回怼

英国男称上海食物像狗屎!罕见全球华人团结回怼

环球趣闻分享
2026-04-13 14:22:47
煮虾时,用“开水”还是“冷水”?区别很大,做错了虾又老腥味重

煮虾时,用“开水”还是“冷水”?区别很大,做错了虾又老腥味重

阿龙美食记
2026-04-11 14:10:04
“我没钱补交1400万的税,就连喊冤的资格都没有吗?”

“我没钱补交1400万的税,就连喊冤的资格都没有吗?”

舒圣祥律师
2026-04-02 16:37:57
湖人起飞了!东契奇多次注射!里夫斯有望首轮复出

湖人起飞了!东契奇多次注射!里夫斯有望首轮复出

篮球教学论坛
2026-04-14 10:28:37
受权发布|中华人民共和国国务院令  第835号

受权发布|中华人民共和国国务院令  第835号

新华社
2026-04-13 17:03:04
火箭52胜把选秀顺位打成盲盒,76人得靠抛硬币定生死

火箭52胜把选秀顺位打成盲盒,76人得靠抛硬币定生死

绿茵狂热者
2026-04-14 08:24:01
主流希望美作为:美封锁伊朗出口、并查扣向伊交费船只,油价下跌

主流希望美作为:美封锁伊朗出口、并查扣向伊交费船只,油价下跌

邵旭峰域
2026-04-14 09:51:14
64岁陈庭威:没老婆没孩子,定居广东住豪宅,不服老打球很精彩

64岁陈庭威:没老婆没孩子,定居广东住豪宅,不服老打球很精彩

白面书誏
2026-04-13 19:08:56
特朗普这回闯下大祸了!普京在最关键时刻,给伊朗送上“定心丸”

特朗普这回闯下大祸了!普京在最关键时刻,给伊朗送上“定心丸”

剪剧课代表
2026-04-14 08:19:42
一旦冲冠梦碎!火箭三人命运各有不同,年轻资产成最后底牌!

一旦冲冠梦碎!火箭三人命运各有不同,年轻资产成最后底牌!

田先生篮球
2026-04-13 13:30:57
粟裕大将书信首次公开!魏晋风骨之争引发热议。

粟裕大将书信首次公开!魏晋风骨之争引发热议。

书画相约
2026-04-14 07:21:43
美军高层集体抗命!特朗普还在疯狂叫嚣,对上解放军纯属找死?

美军高层集体抗命!特朗普还在疯狂叫嚣,对上解放军纯属找死?

风信子的花
2026-04-13 16:21:47
伊朗革命卫队:霍尔木兹海峡允许非军事船只通过

伊朗革命卫队:霍尔木兹海峡允许非军事船只通过

每日经济新闻
2026-04-13 07:38:50
钱再多也没用!浙江55岁富婆"黑马"去世,死因曝光,名下众多公司

钱再多也没用!浙江55岁富婆"黑马"去世,死因曝光,名下众多公司

阅微札记
2026-04-13 17:06:03
反向预言!12年前索尼惊人广告被挖出:从此不需要手机

反向预言!12年前索尼惊人广告被挖出:从此不需要手机

游民星空
2026-04-13 13:07:09
湖人东契奇最新伤情更新:有望在季后赛首轮系列赛后期复出

湖人东契奇最新伤情更新:有望在季后赛首轮系列赛后期复出

夜白侃球
2026-04-14 10:35:06
2026-04-14 11:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12755文章数 142627关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

伊朗要求五个中东国家赔偿战争损失

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

手机
亲子
旅游
房产
公开课

手机要闻

至少要做两代 苹果iPhone Air还有下一代新品

亲子要闻

清明过后少给娃吃凉,多喝这碗扶阳汤,体质好长得壮

旅游要闻

春和景明赏花经济持续火热 “观景+文化+体验”多元场景激发文旅消费新活力

房产要闻

6000亿投资盛宴,全球巨头齐聚,海南又要干件大事!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版