网易首页 > 网易号 > 正文 申请入驻

Meta"分割一切"模型强势升级!"听懂人话",处理含上百物体一张图仅需30毫秒

0
分享至

美东时间19日周三,Meta发布第三代"分割一切"模型Segment Anything Models(SAM)——SAM 3,实现了重大突破,首次支持用户通过自然语言描述和图像示例来识别、分割和追踪视频中的任何物体。Meta同时发布了用于3D重建的开源模型SAM 3D,并计划将这些技术整合到Instagram视频创作应用Edits和Meta AI应用中。

SAM 3最核心的创新在于引入了简称PCS的"可提示概念分割"(Promptable Concept Segmentation)能力。用户只需输入“条纹红色雨伞”这类自然语言提示词,模型就能自动识别并分割图像或视频中所有符合条件的实例,突破了传统模型依赖固定标签集的限制。

在处理速度方面,SAM 3模型在一块英伟达H200 GPU上处理含100多个物体的单张图像仅耗时30毫秒,在约五个并发目标物体的视频场景中,可维持接近实时的性能。

Meta发布的SA-Co基准测试显示,SAM 3的性能相比现有系统提升了一倍。在LVIS数据集的零样本分割任务中,SAM 3的准确率达到47.0,显著超越此前的38.5。在用户偏好测试中,SAM 3的输出效果以约三比一的比例优于最强基准模型OWLv2。

Meta介绍,上述技术突破将率先应用于Facebook Marketplace的新功能"房间预览"(View in Room),帮助用户在购买家居装饰品前将产品在个人空间中的摆放效果可视化。Meta还推出了Segment Anything Playground平台,让普通用户无需技术背景即可体验这些前沿AI模型的能力。

突破固定标签限制,支持开放词汇分割

传统图像分割模型面临的最大挑战是难以将自然语言与图像中的具体视觉元素关联。现有模型通常只能分割"人"等预定义概念,却难以理解"条纹红色雨伞"这类更细致的描述。

SAM 3通过引入可提示概念分割能力解决了这一局限。该模型接受短语形式的文本提示和图像示例提示,完全摆脱了固定标签集的束缚。为评估大词汇量检测和分割性能,Meta创建了SA-Co基准数据集,包含21.4万个独特概念、12.4万张图像和1700个视频,概念覆盖范围达到现有基准的50倍以上。

该模型同时支持多种提示方式,既包括简单名词短语和图像示例等概念提示,也支持SAM 1和SAM 2引入的点、框、掩码等视觉提示。这大大提升了分割的灵活性和可用性,特别是对于罕见或难以用文字描述的概念。

SAM 3还可作为多模态大语言模型的感知工具,处理更复杂的提示,例如"坐着但没有拿礼物盒的人"。当与多模态大语言模型配合使用时,SAM 3在ReasonSeg和OmniLabel等需要推理的复杂文本分割基准测试中表现优于此前研究,且无需在任何指代表达分割或推理分割数据上进行训练。

创新数据引擎,人机协作提速5倍

获取带有分割掩码和文本标签的高质量标注图像是一项重大挑战,特别是在视频中详尽标注每个物体类别的出现位置既耗时又复杂。构建覆盖大量多样化词汇和多个视觉领域的全面数据集需要大量时间和资源。

Meta通过创建可扩展的数据引擎解决这一问题,该引擎将SAM 3、人类标注者和AI模型结合在一起,显著加快了标注速度。对于负提示(图像或视频中不存在的概念),标注速度比纯人工快约5倍,对于正提示即使在具有挑战性的细粒度领域也快36%。这个人机混合系统使团队能够创建包含超过400万个独特概念的大规模多样化训练集。

由包括SAM 3和基于Llama的图像描述系统在内的AI模型组成的流水线会自动挖掘图像和视频,生成描述,将描述解析为文本标签,并创建初始分割掩码。人类和AI标注者随后验证和修正这些提议,形成快速扩展数据集覆盖范围的反馈循环,同时持续提升数据质量。

AI标注者基于经过专门训练的Llama 3.2v模型,在标注任务上达到或超过人类准确度,例如验证掩码质量或检查图像中某概念的所有实例是否已被详尽标记。通过将部分人类标注任务委托给AI标注者,吞吐量相比纯人工标注流水线提高了一倍以上。

SAM 3D开创物理世界3D重建新标准

SAM 3D包含两个新的业界领先模型:用于物体和场景重建的SAM 3D Objects,以及用于人体姿势和形状估计的SAM 3D Body。这两个模型在物理世界场景的3D重建方面树立了新标准。

SAM 3D Objects代表了一种处理视觉定位3D重建和物体姿态估计的新方法,能够从单张自然图像重建详细的3D形状、纹理和物体布局。该模型的创新来自于突破了长期存在的物理世界3D数据障碍。通过构建强大的数据标注引擎,结合为3D设计的新多阶段训练方案,SAM 3D Objects标注了近100万张不同的图像,生成了约314万个模型参与的网格。

在头对头的人类偏好测试中,SAM 3D Objects相对其他领先模型的胜率至少达到5比1。该模型通过扩散捷径和其他工程优化,可在几秒钟内返回质量相当的完整纹理重建,这使得3D近实时应用成为可能,例如作为机器人的3D感知模块。

SAM 3D Body专注于从单张图像进行准确的3D人体姿势和形状估计,即使在涉及异常姿势、遮挡或多人场景的复杂情况下也能胜任。该模型支持交互式输入,如分割掩码和2D关键点,使用户能够引导和控制模型的预测。

SAM 3D Body利用大规模高质量数据实现了准确稳健的3D人体姿势和形状估计。研究团队从包含数十亿张图像的大型数据集开始,使用来自大规模多样化照片集合的图像、各种多摄像头捕捉系统的高质量视频以及专业构建的合成数据。然后使用可扩展的自动化数据引擎挖掘高价值图像,选择具有异常姿势和罕见捕捉条件的图像。团队组建了约800万张图像的高质量训练数据集,训练模型对遮挡、罕见姿势和多样化服装具有鲁棒性。SAM 3D Body在多个3D基准测试中的准确性和鲁棒性实现了阶跃式提升,表现超越了以往模型。

应用拓展至野生动物保护和海洋研究

SAM 3已开始应用于科学研究领域。Meta与Conservation X Labs和Osa Conservation合作,结合现场野生动物监测与SAM 3构建了一个开放的研究级原始视频数据集。公开的SA-FARI数据集包含超过1万个相机陷阱视频,涵盖100多个物种,每一帧中的每只动物都标注了边界框和分割掩码。

FathomNet是由蒙特雷湾水族馆研究所(MBARI)领导的独特研究合作项目,致力于推进海洋探索的AI工具。专为水下图像定制的分割掩码和新的实例分割基准现已通过FathomNet数据库向海洋研究界开放。SA-FARI和FathomNet可供更广泛的AI社区使用,以开发创新的方法来发现、监测和保护陆地和海洋野生动物。

Meta还与Roboflow合作,使用户能够标注数据、微调并部署SAM 3以满足特定需求。作为代码发布的一部分,Meta分享了微调方法,供社区利用这些方法使SAM 3适应其用例。

尽管取得了显著进展,SAM 3在某些场景下仍存在局限。该模型难以以零样本方式泛化到细粒度的领域外概念,特别是需要专业领域知识的特定术语,如医学或科学图像中的"血小板"。应用于视频时,SAM 3以类似SAM 2的方式追踪每个物体,这意味着推理成本随被追踪物体数量线性增长。每个物体单独处理,仅利用共享的每帧嵌入,没有物体间的通信。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张馨予晒与老公新疆度假合照,何捷陪她堆雪人给她拍照,好宠妻

张馨予晒与老公新疆度假合照,何捷陪她堆雪人给她拍照,好宠妻

柒佰娱
2026-02-15 17:20:11
你是啥时候对自家小孩失望的?网友:我要有这儿子,他爱滚哪滚哪

你是啥时候对自家小孩失望的?网友:我要有这儿子,他爱滚哪滚哪

带你感受人间冷暖
2026-02-11 16:00:19
东海对峙名场面!美航母北上挑衅,4艘055 大驱携辽宁号亮剑

东海对峙名场面!美航母北上挑衅,4艘055 大驱携辽宁号亮剑

趣生活
2026-02-14 11:54:31
恐怖!同学聚会居然充满陷阱,娄底一男子遭老同学设计“杀猪盘”

恐怖!同学聚会居然充满陷阱,娄底一男子遭老同学设计“杀猪盘”

火山詩话
2026-02-15 20:51:41
回顾:安徽26岁农妇害死17岁男孩,逃亡16年,落网时是公司高管

回顾:安徽26岁农妇害死17岁男孩,逃亡16年,落网时是公司高管

谈史论天地
2026-01-21 16:05:02
《生命树》大结局!韩学超牺牲,多杰被追封烈士,意难平无法和解

《生命树》大结局!韩学超牺牲,多杰被追封烈士,意难平无法和解

观察鉴娱
2026-02-15 20:03:24
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
“哭哭马”要上总台春晚!老板娘彩排笑开花,此前奖励缝错工人8888元,连发12年

“哭哭马”要上总台春晚!老板娘彩排笑开花,此前奖励缝错工人8888元,连发12年

极目新闻
2026-02-15 16:59:13
马英九言论引关注:统一最后时刻,大陆准备战争,台美需深思

马英九言论引关注:统一最后时刻,大陆准备战争,台美需深思

领悟看世界
2026-02-15 01:21:14
1.5亿预算!武汉三镇再签280万欧重磅新援:真要干大事了

1.5亿预算!武汉三镇再签280万欧重磅新援:真要干大事了

邱泽云
2026-02-15 18:43:58
劝告大家:如果不是特有钱,就不要回农村建房,更不要回村养老

劝告大家:如果不是特有钱,就不要回农村建房,更不要回村养老

小马达情感故事
2026-01-27 12:15:03
张兰直播箖箖罕见出镜,言论举止很没礼貌,一句话透露家庭地位

张兰直播箖箖罕见出镜,言论举止很没礼貌,一句话透露家庭地位

老吴教育课堂
2026-02-14 07:58:29
在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

南权先生
2026-02-12 15:39:07
回忆十八年前往事!曼联功勋铁卫:梅西不是最难防的

回忆十八年前往事!曼联功勋铁卫:梅西不是最难防的

臻体育
2026-02-15 21:37:26
你知道中国最大的资金外流通道是什么吗?

你知道中国最大的资金外流通道是什么吗?

流苏晚晴
2026-02-02 18:08:27
终于理解老人说的男孩只吃六年闲饭了!网友:需要早点当家做主

终于理解老人说的男孩只吃六年闲饭了!网友:需要早点当家做主

夜深爱杂谈
2026-02-07 19:00:21
百果园一根甘蔗87元,市民吐槽太贵,店员:买之前讲过的,黄金手撕甘蔗按斤卖,已为该消费者退款

百果园一根甘蔗87元,市民吐槽太贵,店员:买之前讲过的,黄金手撕甘蔗按斤卖,已为该消费者退款

大风新闻
2026-02-14 10:01:07
赵光义登基后,面对兄长赵匡胤留下的24岁皇后,他是如何对待的?

赵光义登基后,面对兄长赵匡胤留下的24岁皇后,他是如何对待的?

马蹄烫嘴说美食
2026-02-15 16:58:38
费德勒职业生涯最难对付的五大对手(4)——德约科维奇.

费德勒职业生涯最难对付的五大对手(4)——德约科维奇.

林子说事
2026-02-15 20:01:37
从430亿野蛮人到欠薪老赖,姚振华到底输在哪?

从430亿野蛮人到欠薪老赖,姚振华到底输在哪?

流苏晚晴
2026-02-14 16:33:21
2026-02-15 23:00:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
141809文章数 2652548关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

TikTok大量老外介绍自己:Ni hao 我们都是中国人了

头条要闻

TikTok大量老外介绍自己:Ni hao 我们都是中国人了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

旅游
教育
健康
数码
手机

旅游要闻

一文带您深入了解云中河灯展五大点位,每一处都美到惊艳!

教育要闻

锁定初一至初七!科乐在“同一堂课”陪您过大年!

转头就晕的耳石症,能开车上班吗?

数码要闻

机械革命无界14 2026预热:Lunar Lake集成内存,无惧内存涨价

手机要闻

OPPO Find N6国际版跑分曝光:首搭7核版骁龙8 Elite Gen 5芯片

无障碍浏览 进入关怀版