网易首页 > 网易号 > 正文 申请入驻

ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

0
分享至



机器之心报道

机器之心编辑部

说出概念,SAM 3 就明白你在说什么,并在所有出现的位置精确描绘出边界。

Meta 的「分割一切」再上新?

9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陆 ICLR 2026,引发网友广泛关注。



  • 论文标题:SAM 3: Segment Anything with Concepts
  • 论文地址:https://openreview.net/forum?id=r35clVtGzw

大家纷纷猜测,这篇论文出自 Meta,毕竟文风和 Meta 以前发布的论文非常相似。再加上 SAM 与 SAM 2 均由 Meta 推出,这让外界几乎可以确定,SAM 3 就是 Meta「Segment Anything」系列的正式续作。



在时间节点上,这篇论文的出现也几乎完美契合 Meta 的节奏。SAM 1 于 2023 年 4 月发表,获得当年 ICCV 最佳论文提名,其(零样本)分割一切的概念让研究者直呼「CV」不存在了,并且被誉为 CV 领域的「GPT-3 时刻」。

SAM 2 于 2024 年 7 月发表,在前身的基础上为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。

而如今,又是一年过去了。SAM 3 的登场似乎恰逢其时。

那么这次 SAM 3 有什么新进展呢?

它被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS)

即将文本和 / 或图像范例作为输入,为每一个与该概念匹配的对象预测实例掩码和语义掩码,同时在视频帧之间保持对象身份的一致性。该工作的重点是识别原子视觉概念 (atomic visual concepts),因此将输入文本限制为简单的名词短语,例如「红苹果」或「条纹猫」,只要描述你想要的东西,它就能在图像或视频中找到并分割出每一个对应实例

这意味着,分割终于学会了理解语言,但不是那种模糊的语义联想,而是一种扎根于视觉的极简理解方式。说出概念,它就明白你在说什么,并在所有出现的位置精确描绘出边界。

有的小伙伴可能记得,SAM 1 就有文本功能,这次又有什么不同呢?

论文中明确指出,在 SAM 1 中,文本提示的功能「没有被完全开发」(were not fully developed)。SAM 1 和 SAM 2 的实际重点在于视觉提示(如点、框、掩码)。



它们未能解决一个更广泛的任务:即找到并分割出输入内容中(例如,一段视频里所有的「猫」)出现的某一概念的所有实例。



简单来说,SAM 3 让用户从「手动一个个点出来」升级到了「告诉模型一个概念,它帮你全部找出来」。



SAM3 在两方面均取得进步。在通过点击进行可提示视觉分割方面(左图),SAM3 的性能优于 SAM2;同时,它在可提示概念分割方面(右图)也取得了进展,用户可以通过一个简短的名词短语、图像范例或两者的组合,来指定一个视觉概念并分割出其所有实例。

在论文提出的新基准 SA-Co 上,SAM 3 的性能比之前的系统提升了至少 2 倍 。在多个公开基准测试上取得了 SOTA 成绩。例如,在 LVIS 数据集上,它的零样本掩码平均精度达到了 47.0,而之前的最佳纪录是 38.5 。

同时,模型在单个 H200 GPU 上处理一张有超过 100 个物体的图像仅需 30 毫秒 。

不过评论区也对该工作提出了质疑。有人指出,根据文本描述分割物体的想法并不新鲜,在学术界早已被称为「指代分割」,并且已有相当多的研究。因此,有人认为这项工作只是将一个旧概念「重新命名」和包装。



还有评论认为,Meta 只是在「追赶」开源社区的步伐,因为社区早已通过组合不同的模型(例如,将检测模型与 LLM API 结合)实现了类似的功能。



方法介绍

文中提到,SAM 3 是对 SAM 2 的扩展,其在图像与视频中实现了可提示分割(promptable segmentation)的重大突破。

与 SAM 2 相比,SAM 3 在可提示视觉分割(Promptable Visual Segmentation,PVS)上表现更优,并为可提示概念分割(Promptable Concept Segmentation,PCS)设定了新的标准。

至于 PCS 任务以及 PVS 任务,简单来说就是,SAM 3 接收概念提示(如简单的名词短语如黄色校车、图像示例)或视觉提示(如点、框、掩码)来定义需要进行时空分割的对象(可逐个分割)。

可以说,本文聚焦的重点是识别原子级视觉概念,如红色苹果(red apple)或条纹猫。如图 1 所示,用户可通过简短名词短语、图像示例或二者组合,分割指定视觉概念的所有实例。



不过 PCS 本身存在固有模糊性,许多概念具有多重释义:例如小窗户这个短语就很有主观性(多大算小?多大算大?)和边界模糊(是否包含百叶窗?)。

针对这一问题,Meta 在数据收集、指标设计和模型训练等多个阶段对这些模糊性问题进行了系统化处理。与前代 SAM 版本一致,SAM 3 保持完全交互性,允许用户通过添加优化提示来消除歧义,引导模型生成预期输出。

在模型架构上,SAM 3 采用双编码器 - 解码器 Transformer 架构,这是一个具有图像级识别能力的检测器 —— 通过与跟踪器和内存模块相结合,可应用于视频领域。检测器和跟踪器通过对齐的感知编码器(PE)主干网络接收视觉 - 语言输入。



此外,该研究还构建了一个可扩展的人机协同数据引擎(如下图),用于为大规模多样化训练数据集进行标注。基于这套系统,该研究成功标注了包含 400 万独特短语和 5200 万掩码的高质量训练数据,以及包含 3800 万短语和 14 亿掩码的合成数据集。



更进一步的,本文还创建了用于 PCS 任务的 Segment Anything with Concepts(SA-Co)基准测试,涵盖 124K 张图像和 1.7K 视频中的 214K 独特概念,其概念数量超过现有基准测试集 50 倍以上。



实验

表 1 显示:在零样本设置下,SAM 3 在封闭词汇数据集 COCO、COCO-O 和 LVIS 的边界框检测任务中具有竞争力,在 LVIS 掩码任务上表现显著更好。

在开放词汇 SA-Co/Gold 数据集上,SAM 3 的 CGF 分数是最强基线 OWLv2 的两倍,在其他 SA-Co 子集上的提升甚至更高。

在 ADE-847、PascalConcept-59 和 Cityscapes 上进行的开放词汇语义分割实验显示,SAM 3 的表现超越了强大的专家型基线 APE。



小样本自适应。SAM 3 在 10-shot 设置下实现了当前最优性能,超过了 Gemini 的上下文提示以及目标检测专家模型(如 gDino)。

带有 1 个样本的 PCS。表 3 显示在三种设置下,SAM 3 在 COCO (+17.2)、LVIS (+9.7) 和 ODinW (+20.1) 上的表现均远超之前最先进的 T-Rex2。



物体计数。结果如表 4 所示,与 MLLM 相比,SAM 3 不仅实现了良好的物体计数准确率,而且还提供了大多数 MLLM 无法提供的对象分割功能。



SAM 3 在文本提示下的视频分割表现。结果显示 SAM 3 的表现远超基线,尤其是在包含大量名词短语的基准测试中。



表 6 将 SAM 3 与 VOS(Video Object Segmentation) 任务上的先进方法进行了比较。SAM 3 在大多数基准测试中都比 SAM 2 取得了显著的改进。对于交互式图像分割任务,SAM 3 在平均 mIoU 方面优于 SAM 2。



了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

小童历史
2026-03-25 18:20:29
多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

上观新闻
2026-03-26 15:06:07
伊朗进入伊拉克模式

伊朗进入伊拉克模式

墨心人
2026-03-26 21:47:55
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

看看新闻Knews
2026-03-26 14:21:02
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
日本东京商业区发生持刀伤人事件2人死亡

日本东京商业区发生持刀伤人事件2人死亡

新华社
2026-03-26 21:10:15
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
2-0!意大利附加赛过首关 距世界杯仅差1场 8000万巨星凌空斩救主

2-0!意大利附加赛过首关 距世界杯仅差1场 8000万巨星凌空斩救主

我爱英超
2026-03-27 05:48:05
铁证面前,还能撤案?深扒无果、信息全封,路虎车主背景有多硬?

铁证面前,还能撤案?深扒无果、信息全封,路虎车主背景有多硬?

世界圈
2026-03-24 12:52:50
心酸!湖南某乡镇一位小学教师哭诉年收入73150元,评论区炸锅了

心酸!湖南某乡镇一位小学教师哭诉年收入73150元,评论区炸锅了

火山詩话
2026-03-26 09:24:48
罗技:“我一降价,你还不是像狗一样跑过来”

罗技:“我一降价,你还不是像狗一样跑过来”

电脑吧评测室
2026-03-26 22:05:58
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
盲目的大学扩招,正在反噬整个社会

盲目的大学扩招,正在反噬整个社会

凡人志
2026-03-25 01:34:53
罗技中国致歉

罗技中国致歉

界面新闻
2026-03-26 23:25:51
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有几个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有几个共性

新时代的两性情感
2026-03-25 16:37:36
2026-03-27 06:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
家居
旅游
健康
教育

手机要闻

三星阔折叠渲染图曝光,Galaxy Z Fold 8宽屏版

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

利马的文明对话(旅人心语)

转头就晕的耳石症,能开车上班吗?

教育要闻

高考冲刺阶段打基础还来得及吗?

无障碍浏览 进入关怀版