网易首页 > 网易号 > 正文 申请入驻

ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

0
分享至



机器之心报道

机器之心编辑部

说出概念,SAM 3 就明白你在说什么,并在所有出现的位置精确描绘出边界。

Meta 的「分割一切」再上新?

9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陆 ICLR 2026,引发网友广泛关注。



  • 论文标题:SAM 3: Segment Anything with Concepts
  • 论文地址:https://openreview.net/forum?id=r35clVtGzw

大家纷纷猜测,这篇论文出自 Meta,毕竟文风和 Meta 以前发布的论文非常相似。再加上 SAM 与 SAM 2 均由 Meta 推出,这让外界几乎可以确定,SAM 3 就是 Meta「Segment Anything」系列的正式续作。



在时间节点上,这篇论文的出现也几乎完美契合 Meta 的节奏。SAM 1 于 2023 年 4 月发表,获得当年 ICCV 最佳论文提名,其(零样本)分割一切的概念让研究者直呼「CV」不存在了,并且被誉为 CV 领域的「GPT-3 时刻」。

SAM 2 于 2024 年 7 月发表,在前身的基础上为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。

而如今,又是一年过去了。SAM 3 的登场似乎恰逢其时。

那么这次 SAM 3 有什么新进展呢?

它被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS)

即将文本和 / 或图像范例作为输入,为每一个与该概念匹配的对象预测实例掩码和语义掩码,同时在视频帧之间保持对象身份的一致性。该工作的重点是识别原子视觉概念 (atomic visual concepts),因此将输入文本限制为简单的名词短语,例如「红苹果」或「条纹猫」,只要描述你想要的东西,它就能在图像或视频中找到并分割出每一个对应实例

这意味着,分割终于学会了理解语言,但不是那种模糊的语义联想,而是一种扎根于视觉的极简理解方式。说出概念,它就明白你在说什么,并在所有出现的位置精确描绘出边界。

有的小伙伴可能记得,SAM 1 就有文本功能,这次又有什么不同呢?

论文中明确指出,在 SAM 1 中,文本提示的功能「没有被完全开发」(were not fully developed)。SAM 1 和 SAM 2 的实际重点在于视觉提示(如点、框、掩码)。



它们未能解决一个更广泛的任务:即找到并分割出输入内容中(例如,一段视频里所有的「猫」)出现的某一概念的所有实例。



简单来说,SAM 3 让用户从「手动一个个点出来」升级到了「告诉模型一个概念,它帮你全部找出来」。



SAM3 在两方面均取得进步。在通过点击进行可提示视觉分割方面(左图),SAM3 的性能优于 SAM2;同时,它在可提示概念分割方面(右图)也取得了进展,用户可以通过一个简短的名词短语、图像范例或两者的组合,来指定一个视觉概念并分割出其所有实例。

在论文提出的新基准 SA-Co 上,SAM 3 的性能比之前的系统提升了至少 2 倍 。在多个公开基准测试上取得了 SOTA 成绩。例如,在 LVIS 数据集上,它的零样本掩码平均精度达到了 47.0,而之前的最佳纪录是 38.5 。

同时,模型在单个 H200 GPU 上处理一张有超过 100 个物体的图像仅需 30 毫秒 。

不过评论区也对该工作提出了质疑。有人指出,根据文本描述分割物体的想法并不新鲜,在学术界早已被称为「指代分割」,并且已有相当多的研究。因此,有人认为这项工作只是将一个旧概念「重新命名」和包装。



还有评论认为,Meta 只是在「追赶」开源社区的步伐,因为社区早已通过组合不同的模型(例如,将检测模型与 LLM API 结合)实现了类似的功能。



方法介绍

文中提到,SAM 3 是对 SAM 2 的扩展,其在图像与视频中实现了可提示分割(promptable segmentation)的重大突破。

与 SAM 2 相比,SAM 3 在可提示视觉分割(Promptable Visual Segmentation,PVS)上表现更优,并为可提示概念分割(Promptable Concept Segmentation,PCS)设定了新的标准。

至于 PCS 任务以及 PVS 任务,简单来说就是,SAM 3 接收概念提示(如简单的名词短语如黄色校车、图像示例)或视觉提示(如点、框、掩码)来定义需要进行时空分割的对象(可逐个分割)。

可以说,本文聚焦的重点是识别原子级视觉概念,如红色苹果(red apple)或条纹猫。如图 1 所示,用户可通过简短名词短语、图像示例或二者组合,分割指定视觉概念的所有实例。



不过 PCS 本身存在固有模糊性,许多概念具有多重释义:例如小窗户这个短语就很有主观性(多大算小?多大算大?)和边界模糊(是否包含百叶窗?)。

针对这一问题,Meta 在数据收集、指标设计和模型训练等多个阶段对这些模糊性问题进行了系统化处理。与前代 SAM 版本一致,SAM 3 保持完全交互性,允许用户通过添加优化提示来消除歧义,引导模型生成预期输出。

在模型架构上,SAM 3 采用双编码器 - 解码器 Transformer 架构,这是一个具有图像级识别能力的检测器 —— 通过与跟踪器和内存模块相结合,可应用于视频领域。检测器和跟踪器通过对齐的感知编码器(PE)主干网络接收视觉 - 语言输入。



此外,该研究还构建了一个可扩展的人机协同数据引擎(如下图),用于为大规模多样化训练数据集进行标注。基于这套系统,该研究成功标注了包含 400 万独特短语和 5200 万掩码的高质量训练数据,以及包含 3800 万短语和 14 亿掩码的合成数据集。



更进一步的,本文还创建了用于 PCS 任务的 Segment Anything with Concepts(SA-Co)基准测试,涵盖 124K 张图像和 1.7K 视频中的 214K 独特概念,其概念数量超过现有基准测试集 50 倍以上。



实验

表 1 显示:在零样本设置下,SAM 3 在封闭词汇数据集 COCO、COCO-O 和 LVIS 的边界框检测任务中具有竞争力,在 LVIS 掩码任务上表现显著更好。

在开放词汇 SA-Co/Gold 数据集上,SAM 3 的 CGF 分数是最强基线 OWLv2 的两倍,在其他 SA-Co 子集上的提升甚至更高。

在 ADE-847、PascalConcept-59 和 Cityscapes 上进行的开放词汇语义分割实验显示,SAM 3 的表现超越了强大的专家型基线 APE。



小样本自适应。SAM 3 在 10-shot 设置下实现了当前最优性能,超过了 Gemini 的上下文提示以及目标检测专家模型(如 gDino)。

带有 1 个样本的 PCS。表 3 显示在三种设置下,SAM 3 在 COCO (+17.2)、LVIS (+9.7) 和 ODinW (+20.1) 上的表现均远超之前最先进的 T-Rex2。



物体计数。结果如表 4 所示,与 MLLM 相比,SAM 3 不仅实现了良好的物体计数准确率,而且还提供了大多数 MLLM 无法提供的对象分割功能。



SAM 3 在文本提示下的视频分割表现。结果显示 SAM 3 的表现远超基线,尤其是在包含大量名词短语的基准测试中。



表 6 将 SAM 3 与 VOS(Video Object Segmentation) 任务上的先进方法进行了比较。SAM 3 在大多数基准测试中都比 SAM 2 取得了显著的改进。对于交互式图像分割任务,SAM 3 在平均 mIoU 方面优于 SAM 2。



了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广西男子建房子遭邻居阻挠,一气之下挖成鱼塘养鱼:等他回来求我

广西男子建房子遭邻居阻挠,一气之下挖成鱼塘养鱼:等他回来求我

唐小糖说情感
2025-10-31 09:04:39
蕉内地铁广告引争议,“太阴间!太洗脑”

蕉内地铁广告引争议,“太阴间!太洗脑”

LOGO研究所
2025-11-01 10:01:37
这是我见过的五官最精致的女性,一脸福相,以后会贵不可言

这是我见过的五官最精致的女性,一脸福相,以后会贵不可言

手工制作阿歼
2025-10-28 14:03:28
山洞发现两具女尸,确认为亲姐妹,法医在两人体内检测出多人DNA

山洞发现两具女尸,确认为亲姐妹,法医在两人体内检测出多人DNA

罪案洞察者
2025-09-17 10:18:34
王腾称将离开手机行业

王腾称将离开手机行业

澎湃新闻
2025-11-02 00:30:24
邱淑贞普陀山礼佛归来彻底沦为普通人,坐在商场门口发语音无星味

邱淑贞普陀山礼佛归来彻底沦为普通人,坐在商场门口发语音无星味

柠檬有娱乐
2025-10-13 10:38:54
沈阳一大型商场今起闭店!

沈阳一大型商场今起闭店!

沈阳公交网小林
2025-11-01 00:08:10
越来越多进口药退出国内市场,有些人却还在为此纷纷叫好!

越来越多进口药退出国内市场,有些人却还在为此纷纷叫好!

翻开历史和现实
2025-10-29 08:52:35
说中国不学逻辑学、只学辩证法,这不是无知就是蛊惑人心

说中国不学逻辑学、只学辩证法,这不是无知就是蛊惑人心

读鬼笔记
2025-10-31 20:25:03
钱再多有什么用?49岁抗癌成功满脸憔悴的刘谦,给中年人提了醒

钱再多有什么用?49岁抗癌成功满脸憔悴的刘谦,给中年人提了醒

TVB的四小花
2025-11-02 01:07:32
30天拿奖金10万!拼到亲妈都不认识,这届年轻人为啥爱当“野人”?

30天拿奖金10万!拼到亲妈都不认识,这届年轻人为啥爱当“野人”?

秋叶大叔
2025-11-01 07:40:53
蒋介石的结拜兄弟参加开国大典,9年后毛主席下令:立刻将他逮捕

蒋介石的结拜兄弟参加开国大典,9年后毛主席下令:立刻将他逮捕

历史龙元阁
2025-10-31 18:40:09
巴洛特利嘲讽维埃拉下课:因果报应,老天自有安排

巴洛特利嘲讽维埃拉下课:因果报应,老天自有安排

雷速体育
2025-11-01 23:18:31
重庆新增一家三甲医院!预计2026年投入使用

重庆新增一家三甲医院!预计2026年投入使用

原广工业
2025-10-31 12:22:40
开油车的车主,每个月的油费不心疼吗?油车车主来说说吧!

开油车的车主,每个月的油费不心疼吗?油车车主来说说吧!

我科篮球馆
2025-10-30 23:50:40
中美下周签协议?美财长通告全球,中国外交部回应,罕见措辞引发全球高度关注

中美下周签协议?美财长通告全球,中国外交部回应,罕见措辞引发全球高度关注

青风点评
2025-10-31 18:42:09
谷正文晚年忏悔:吴石那份供词,我看了一辈子没看懂

谷正文晚年忏悔:吴石那份供词,我看了一辈子没看懂

一只番茄鱼
2025-11-01 18:07:33
央视一追就解冻!卖粮28万被冻案反转,贵州警方回应了,网友吵翻

央视一追就解冻!卖粮28万被冻案反转,贵州警方回应了,网友吵翻

史行途
2025-11-01 15:03:57
有网友算了这样一笔账,只是不知有几人能听进去

有网友算了这样一笔账,只是不知有几人能听进去

清晖有墨
2025-10-30 11:56:39
手机时代被抛弃的诺基亚,为何被黄仁勋重新捡起?

手机时代被抛弃的诺基亚,为何被黄仁勋重新捡起?

Barrons巴伦
2025-10-30 18:11:10
2025-11-02 02:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

上海63岁儿子与94岁父亲一起养老:父亲负责买菜做饭

头条要闻

上海63岁儿子与94岁父亲一起养老:父亲负责买菜做饭

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

换新一口价11.98万 第三代蓝电E5 PLUS开启预售

态度原创

家居
时尚
亲子
公开课
军事航空

家居要闻

吸睛艺术 富有传奇色彩

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

亲子要闻

后续!新生儿在医院坠床摔成重伤,护工已被停职,孩子状况已好转

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卡塔尔:加沙可能陷入“无战无和”局面

无障碍浏览 进入关怀版