网易首页 > 网易号 > 正文 申请入驻

ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

0
分享至



机器之心报道

机器之心编辑部

说出概念,SAM 3 就明白你在说什么,并在所有出现的位置精确描绘出边界。

Meta 的「分割一切」再上新?

9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陆 ICLR 2026,引发网友广泛关注。



  • 论文标题:SAM 3: Segment Anything with Concepts
  • 论文地址:https://openreview.net/forum?id=r35clVtGzw

大家纷纷猜测,这篇论文出自 Meta,毕竟文风和 Meta 以前发布的论文非常相似。再加上 SAM 与 SAM 2 均由 Meta 推出,这让外界几乎可以确定,SAM 3 就是 Meta「Segment Anything」系列的正式续作。



在时间节点上,这篇论文的出现也几乎完美契合 Meta 的节奏。SAM 1 于 2023 年 4 月发表,获得当年 ICCV 最佳论文提名,其(零样本)分割一切的概念让研究者直呼「CV」不存在了,并且被誉为 CV 领域的「GPT-3 时刻」。

SAM 2 于 2024 年 7 月发表,在前身的基础上为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。

而如今,又是一年过去了。SAM 3 的登场似乎恰逢其时。

那么这次 SAM 3 有什么新进展呢?

它被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS)

即将文本和 / 或图像范例作为输入,为每一个与该概念匹配的对象预测实例掩码和语义掩码,同时在视频帧之间保持对象身份的一致性。该工作的重点是识别原子视觉概念 (atomic visual concepts),因此将输入文本限制为简单的名词短语,例如「红苹果」或「条纹猫」,只要描述你想要的东西,它就能在图像或视频中找到并分割出每一个对应实例

这意味着,分割终于学会了理解语言,但不是那种模糊的语义联想,而是一种扎根于视觉的极简理解方式。说出概念,它就明白你在说什么,并在所有出现的位置精确描绘出边界。

有的小伙伴可能记得,SAM 1 就有文本功能,这次又有什么不同呢?

论文中明确指出,在 SAM 1 中,文本提示的功能「没有被完全开发」(were not fully developed)。SAM 1 和 SAM 2 的实际重点在于视觉提示(如点、框、掩码)。



它们未能解决一个更广泛的任务:即找到并分割出输入内容中(例如,一段视频里所有的「猫」)出现的某一概念的所有实例。



简单来说,SAM 3 让用户从「手动一个个点出来」升级到了「告诉模型一个概念,它帮你全部找出来」。



SAM3 在两方面均取得进步。在通过点击进行可提示视觉分割方面(左图),SAM3 的性能优于 SAM2;同时,它在可提示概念分割方面(右图)也取得了进展,用户可以通过一个简短的名词短语、图像范例或两者的组合,来指定一个视觉概念并分割出其所有实例。

在论文提出的新基准 SA-Co 上,SAM 3 的性能比之前的系统提升了至少 2 倍 。在多个公开基准测试上取得了 SOTA 成绩。例如,在 LVIS 数据集上,它的零样本掩码平均精度达到了 47.0,而之前的最佳纪录是 38.5 。

同时,模型在单个 H200 GPU 上处理一张有超过 100 个物体的图像仅需 30 毫秒 。

不过评论区也对该工作提出了质疑。有人指出,根据文本描述分割物体的想法并不新鲜,在学术界早已被称为「指代分割」,并且已有相当多的研究。因此,有人认为这项工作只是将一个旧概念「重新命名」和包装。



还有评论认为,Meta 只是在「追赶」开源社区的步伐,因为社区早已通过组合不同的模型(例如,将检测模型与 LLM API 结合)实现了类似的功能。



方法介绍

文中提到,SAM 3 是对 SAM 2 的扩展,其在图像与视频中实现了可提示分割(promptable segmentation)的重大突破。

与 SAM 2 相比,SAM 3 在可提示视觉分割(Promptable Visual Segmentation,PVS)上表现更优,并为可提示概念分割(Promptable Concept Segmentation,PCS)设定了新的标准。

至于 PCS 任务以及 PVS 任务,简单来说就是,SAM 3 接收概念提示(如简单的名词短语如黄色校车、图像示例)或视觉提示(如点、框、掩码)来定义需要进行时空分割的对象(可逐个分割)。

可以说,本文聚焦的重点是识别原子级视觉概念,如红色苹果(red apple)或条纹猫。如图 1 所示,用户可通过简短名词短语、图像示例或二者组合,分割指定视觉概念的所有实例。



不过 PCS 本身存在固有模糊性,许多概念具有多重释义:例如小窗户这个短语就很有主观性(多大算小?多大算大?)和边界模糊(是否包含百叶窗?)。

针对这一问题,Meta 在数据收集、指标设计和模型训练等多个阶段对这些模糊性问题进行了系统化处理。与前代 SAM 版本一致,SAM 3 保持完全交互性,允许用户通过添加优化提示来消除歧义,引导模型生成预期输出。

在模型架构上,SAM 3 采用双编码器 - 解码器 Transformer 架构,这是一个具有图像级识别能力的检测器 —— 通过与跟踪器和内存模块相结合,可应用于视频领域。检测器和跟踪器通过对齐的感知编码器(PE)主干网络接收视觉 - 语言输入。



此外,该研究还构建了一个可扩展的人机协同数据引擎(如下图),用于为大规模多样化训练数据集进行标注。基于这套系统,该研究成功标注了包含 400 万独特短语和 5200 万掩码的高质量训练数据,以及包含 3800 万短语和 14 亿掩码的合成数据集。



更进一步的,本文还创建了用于 PCS 任务的 Segment Anything with Concepts(SA-Co)基准测试,涵盖 124K 张图像和 1.7K 视频中的 214K 独特概念,其概念数量超过现有基准测试集 50 倍以上。



实验

表 1 显示:在零样本设置下,SAM 3 在封闭词汇数据集 COCO、COCO-O 和 LVIS 的边界框检测任务中具有竞争力,在 LVIS 掩码任务上表现显著更好。

在开放词汇 SA-Co/Gold 数据集上,SAM 3 的 CGF 分数是最强基线 OWLv2 的两倍,在其他 SA-Co 子集上的提升甚至更高。

在 ADE-847、PascalConcept-59 和 Cityscapes 上进行的开放词汇语义分割实验显示,SAM 3 的表现超越了强大的专家型基线 APE。



小样本自适应。SAM 3 在 10-shot 设置下实现了当前最优性能,超过了 Gemini 的上下文提示以及目标检测专家模型(如 gDino)。

带有 1 个样本的 PCS。表 3 显示在三种设置下,SAM 3 在 COCO (+17.2)、LVIS (+9.7) 和 ODinW (+20.1) 上的表现均远超之前最先进的 T-Rex2。



物体计数。结果如表 4 所示,与 MLLM 相比,SAM 3 不仅实现了良好的物体计数准确率,而且还提供了大多数 MLLM 无法提供的对象分割功能。



SAM 3 在文本提示下的视频分割表现。结果显示 SAM 3 的表现远超基线,尤其是在包含大量名词短语的基准测试中。



表 6 将 SAM 3 与 VOS(Video Object Segmentation) 任务上的先进方法进行了比较。SAM 3 在大多数基准测试中都比 SAM 2 取得了显著的改进。对于交互式图像分割任务,SAM 3 在平均 mIoU 方面优于 SAM 2。



了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宣布了!交易达成!你好,NBA榜眼秀!

宣布了!交易达成!你好,NBA榜眼秀!

篮球实战宝典
2026-02-21 15:49:36
新春走基层·一线直击|打卡北京隆福寺:一篮年货 喜乐相伴

新春走基层·一线直击|打卡北京隆福寺:一篮年货 喜乐相伴

新华社
2026-02-20 22:19:21
演员姚晨发文称过年被妈妈“骂”了三天!网友:家家都一样,我扔,我妈在后面捡

演员姚晨发文称过年被妈妈“骂”了三天!网友:家家都一样,我扔,我妈在后面捡

环球网资讯
2026-02-21 17:27:08
女子发现网购大衣出现手写名字,直接退货,原来是缝衣师傅的KPI

女子发现网购大衣出现手写名字,直接退货,原来是缝衣师傅的KPI

娱乐圈见解说
2026-02-22 10:28:28
105岁无斑黑发!国医大师的长寿真经,每个人都能做!

105岁无斑黑发!国医大师的长寿真经,每个人都能做!

时光派健康抗衰
2026-02-21 16:00:04
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

北纬的咖啡豆
2026-02-20 19:12:17
伊朗将所有欧盟国家海军和空军列为“恐怖组织”

伊朗将所有欧盟国家海军和空军列为“恐怖组织”

国际在线
2026-02-22 06:18:05
3连败崩盘!愤怒刷屏,张本智和为何彻底翻车?

3连败崩盘!愤怒刷屏,张本智和为何彻底翻车?

卿子书
2026-02-22 09:28:07
三位不靠谱专家央视忽悠却走红28年

三位不靠谱专家央视忽悠却走红28年

落梅如雪乱飞
2026-02-20 07:23:14
贝加尔湖7名遇难中国游客身份全部确认:一家四口中仅一名男性生还

贝加尔湖7名遇难中国游客身份全部确认:一家四口中仅一名男性生还

上观新闻
2026-02-22 10:09:05
玻璃纤维短缺加剧 制造商将掀起第二轮涨价潮

玻璃纤维短缺加剧 制造商将掀起第二轮涨价潮

财联社
2026-02-21 22:26:19
武汉街头突发!警车紧急掉头,现场画面曝光

武汉街头突发!警车紧急掉头,现场画面曝光

环球网资讯
2026-02-22 07:35:11
血亏!曼联 4 年前 900 万贱卖的天才,如今实力远超卡塞米罗

血亏!曼联 4 年前 900 万贱卖的天才,如今实力远超卡塞米罗

澜归序
2026-02-22 02:12:47
霸榜13年的满分神作被毁,一场粉丝互撕,扒下了评分机制的底裤

霸榜13年的满分神作被毁,一场粉丝互撕,扒下了评分机制的底裤

桃桃淘电影
2026-02-21 12:15:08
山东人真实收入曝光:别被平均骗了,这才是大多数人的生活

山东人真实收入曝光:别被平均骗了,这才是大多数人的生活

济宁人
2026-02-22 08:20:45
3比1获胜!21岁中国乒乓天才崛起,网友:能否再度击退张本智和?

3比1获胜!21岁中国乒乓天才崛起,网友:能否再度击退张本智和?

卿子书
2026-02-22 07:15:11
为什么消费降级了,景区却人山人海游客爆棚?

为什么消费降级了,景区却人山人海游客爆棚?

望岳
2026-02-21 18:35:35
50分钟速胜!阿尔卡拉斯仅丢3局横扫夺冠,新赛季12战全胜

50分钟速胜!阿尔卡拉斯仅丢3局横扫夺冠,新赛季12战全胜

全景体育V
2026-02-22 06:49:15
印度AI峰会:阵仗这么大,但中国去哪了?

印度AI峰会:阵仗这么大,但中国去哪了?

娱乐督察中
2026-02-22 11:37:52
开拓者官宣:杨瀚森下放发展联盟混音队,杨瀚森又可以大展拳脚了

开拓者官宣:杨瀚森下放发展联盟混音队,杨瀚森又可以大展拳脚了

工从昊懂球阿靖
2026-02-22 07:37:18
2026-02-22 12:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12325文章数 142569关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

monies巴黎旗舰店员工:王菲同款水滴耳环库存已空

头条要闻

monies巴黎旗舰店员工:王菲同款水滴耳环库存已空

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

时尚
艺术
手机
游戏
家居

50岁女性过冬穿搭:有大衣和羽绒服就够了,简约从容才是优雅

艺术要闻

这本书法,80%的人无法读懂!网友直言:看到第二字就傻眼!

手机要闻

小米最受欢迎的是哪个档次机型,这个数据有点意思

魔兽世界时光服:P2阶段最值得入手的专业极品,你穿上去了吗?

家居要闻

本真栖居 爱暖伴流年

无障碍浏览 进入关怀版