网易首页 > 网易号 > 正文 申请入驻

Meta"分割一切"模型强势升级!"听懂人话",处理含上百物体一张图仅需30毫秒

0
分享至

美东时间19日周三,Meta发布第三代"分割一切"模型Segment Anything Models(SAM)——SAM 3,实现了重大突破,首次支持用户通过自然语言描述和图像示例来识别、分割和追踪视频中的任何物体。Meta同时发布了用于3D重建的开源模型SAM 3D,并计划将这些技术整合到Instagram视频创作应用Edits和Meta AI应用中。

SAM 3最核心的创新在于引入了简称PCS的"可提示概念分割"(Promptable Concept Segmentation)能力。用户只需输入“条纹红色雨伞”这类自然语言提示词,模型就能自动识别并分割图像或视频中所有符合条件的实例,突破了传统模型依赖固定标签集的限制。

在处理速度方面,SAM 3模型在一块英伟达H200 GPU上处理含100多个物体的单张图像仅耗时30毫秒,在约五个并发目标物体的视频场景中,可维持接近实时的性能。

Meta发布的SA-Co基准测试显示,SAM 3的性能相比现有系统提升了一倍。在LVIS数据集的零样本分割任务中,SAM 3的准确率达到47.0,显著超越此前的38.5。在用户偏好测试中,SAM 3的输出效果以约三比一的比例优于最强基准模型OWLv2。

Meta介绍,上述技术突破将率先应用于Facebook Marketplace的新功能"房间预览"(View in Room),帮助用户在购买家居装饰品前将产品在个人空间中的摆放效果可视化。Meta还推出了Segment Anything Playground平台,让普通用户无需技术背景即可体验这些前沿AI模型的能力。

突破固定标签限制,支持开放词汇分割

传统图像分割模型面临的最大挑战是难以将自然语言与图像中的具体视觉元素关联。现有模型通常只能分割"人"等预定义概念,却难以理解"条纹红色雨伞"这类更细致的描述。

SAM 3通过引入可提示概念分割能力解决了这一局限。该模型接受短语形式的文本提示和图像示例提示,完全摆脱了固定标签集的束缚。为评估大词汇量检测和分割性能,Meta创建了SA-Co基准数据集,包含21.4万个独特概念、12.4万张图像和1700个视频,概念覆盖范围达到现有基准的50倍以上。

该模型同时支持多种提示方式,既包括简单名词短语和图像示例等概念提示,也支持SAM 1和SAM 2引入的点、框、掩码等视觉提示。这大大提升了分割的灵活性和可用性,特别是对于罕见或难以用文字描述的概念。

SAM 3还可作为多模态大语言模型的感知工具,处理更复杂的提示,例如"坐着但没有拿礼物盒的人"。当与多模态大语言模型配合使用时,SAM 3在ReasonSeg和OmniLabel等需要推理的复杂文本分割基准测试中表现优于此前研究,且无需在任何指代表达分割或推理分割数据上进行训练。

创新数据引擎,人机协作提速5倍

获取带有分割掩码和文本标签的高质量标注图像是一项重大挑战,特别是在视频中详尽标注每个物体类别的出现位置既耗时又复杂。构建覆盖大量多样化词汇和多个视觉领域的全面数据集需要大量时间和资源。

Meta通过创建可扩展的数据引擎解决这一问题,该引擎将SAM 3、人类标注者和AI模型结合在一起,显著加快了标注速度。对于负提示(图像或视频中不存在的概念),标注速度比纯人工快约5倍,对于正提示即使在具有挑战性的细粒度领域也快36%。这个人机混合系统使团队能够创建包含超过400万个独特概念的大规模多样化训练集。

由包括SAM 3和基于Llama的图像描述系统在内的AI模型组成的流水线会自动挖掘图像和视频,生成描述,将描述解析为文本标签,并创建初始分割掩码。人类和AI标注者随后验证和修正这些提议,形成快速扩展数据集覆盖范围的反馈循环,同时持续提升数据质量。

AI标注者基于经过专门训练的Llama 3.2v模型,在标注任务上达到或超过人类准确度,例如验证掩码质量或检查图像中某概念的所有实例是否已被详尽标记。通过将部分人类标注任务委托给AI标注者,吞吐量相比纯人工标注流水线提高了一倍以上。

SAM 3D开创物理世界3D重建新标准

SAM 3D包含两个新的业界领先模型:用于物体和场景重建的SAM 3D Objects,以及用于人体姿势和形状估计的SAM 3D Body。这两个模型在物理世界场景的3D重建方面树立了新标准。

SAM 3D Objects代表了一种处理视觉定位3D重建和物体姿态估计的新方法,能够从单张自然图像重建详细的3D形状、纹理和物体布局。该模型的创新来自于突破了长期存在的物理世界3D数据障碍。通过构建强大的数据标注引擎,结合为3D设计的新多阶段训练方案,SAM 3D Objects标注了近100万张不同的图像,生成了约314万个模型参与的网格。

在头对头的人类偏好测试中,SAM 3D Objects相对其他领先模型的胜率至少达到5比1。该模型通过扩散捷径和其他工程优化,可在几秒钟内返回质量相当的完整纹理重建,这使得3D近实时应用成为可能,例如作为机器人的3D感知模块。

SAM 3D Body专注于从单张图像进行准确的3D人体姿势和形状估计,即使在涉及异常姿势、遮挡或多人场景的复杂情况下也能胜任。该模型支持交互式输入,如分割掩码和2D关键点,使用户能够引导和控制模型的预测。

SAM 3D Body利用大规模高质量数据实现了准确稳健的3D人体姿势和形状估计。研究团队从包含数十亿张图像的大型数据集开始,使用来自大规模多样化照片集合的图像、各种多摄像头捕捉系统的高质量视频以及专业构建的合成数据。然后使用可扩展的自动化数据引擎挖掘高价值图像,选择具有异常姿势和罕见捕捉条件的图像。团队组建了约800万张图像的高质量训练数据集,训练模型对遮挡、罕见姿势和多样化服装具有鲁棒性。SAM 3D Body在多个3D基准测试中的准确性和鲁棒性实现了阶跃式提升,表现超越了以往模型。

应用拓展至野生动物保护和海洋研究

SAM 3已开始应用于科学研究领域。Meta与Conservation X Labs和Osa Conservation合作,结合现场野生动物监测与SAM 3构建了一个开放的研究级原始视频数据集。公开的SA-FARI数据集包含超过1万个相机陷阱视频,涵盖100多个物种,每一帧中的每只动物都标注了边界框和分割掩码。

FathomNet是由蒙特雷湾水族馆研究所(MBARI)领导的独特研究合作项目,致力于推进海洋探索的AI工具。专为水下图像定制的分割掩码和新的实例分割基准现已通过FathomNet数据库向海洋研究界开放。SA-FARI和FathomNet可供更广泛的AI社区使用,以开发创新的方法来发现、监测和保护陆地和海洋野生动物。

Meta还与Roboflow合作,使用户能够标注数据、微调并部署SAM 3以满足特定需求。作为代码发布的一部分,Meta分享了微调方法,供社区利用这些方法使SAM 3适应其用例。

尽管取得了显著进展,SAM 3在某些场景下仍存在局限。该模型难以以零样本方式泛化到细粒度的领域外概念,特别是需要专业领域知识的特定术语,如医学或科学图像中的"血小板"。应用于视频时,SAM 3以类似SAM 2的方式追踪每个物体,这意味着推理成本随被追踪物体数量线性增长。每个物体单独处理,仅利用共享的每帧嵌入,没有物体间的通信。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
柿子正上市,医生提醒:4类人最好不吃,吃柿子的禁忌要牢记

柿子正上市,医生提醒:4类人最好不吃,吃柿子的禁忌要牢记

泠泠说史
2025-10-22 17:10:16
极度不要脸!

极度不要脸!

梳子姐
2025-11-20 15:41:19
全运会乒乓落幕!诞生5个赢家、3个输家,樊振东霸气,王楚钦释放

全运会乒乓落幕!诞生5个赢家、3个输家,樊振东霸气,王楚钦释放

知轩体育
2025-11-20 22:19:54
救市去库存,又出大招!广州发布重磅通告!

救市去库存,又出大招!广州发布重磅通告!

乐居广州
2025-11-20 11:01:23
相差16岁的热恋!胡彦斌吃得好?还是易梦玲找到了隐形富豪?

相差16岁的热恋!胡彦斌吃得好?还是易梦玲找到了隐形富豪?

非常先生看娱乐
2025-11-20 17:55:46
解放军使出杀手锏后,菲律宾爆发大规模抗议,马科斯必须给出交代

解放军使出杀手锏后,菲律宾爆发大规模抗议,马科斯必须给出交代

知鉴明史
2025-11-17 17:46:36
是否考虑过国家队?朱婷扭头就走:没考虑过 记者疑似爆粗骂人

是否考虑过国家队?朱婷扭头就走:没考虑过 记者疑似爆粗骂人

风过乡
2025-11-20 07:01:16
笑死了!原来真不能住太便宜的旅馆!网友:隔音差 一晚上都没怎么睡

笑死了!原来真不能住太便宜的旅馆!网友:隔音差 一晚上都没怎么睡

兰妮搞笑分享
2025-11-18 14:22:05
深挖 | 骑摩托、玩摇滚、猜拳赢了让老公跟自己姓……高市早苗,要多野有多野!

深挖 | 骑摩托、玩摇滚、猜拳赢了让老公跟自己姓……高市早苗,要多野有多野!

新民周刊
2025-11-18 13:07:03
“两岸统一”突破点不在马英九,也不在国民党,可能在这个人身上

“两岸统一”突破点不在马英九,也不在国民党,可能在这个人身上

文史旺旺旺
2025-11-19 21:03:05
自己拍的照片被视觉中国告侵权还遭死亡威胁,历时两年法院判了

自己拍的照片被视觉中国告侵权还遭死亡威胁,历时两年法院判了

扬子晚报
2025-11-20 19:04:05
单位科长儿子结婚,我随礼六万,我儿子结婚,他派人送来一包喜糖

单位科长儿子结婚,我随礼六万,我儿子结婚,他派人送来一包喜糖

秋风专栏
2025-11-17 16:10:25
赛后竟然庆祝对手晋级,丹麦前锋霍伊伦德引发争议

赛后竟然庆祝对手晋级,丹麦前锋霍伊伦德引发争议

星耀国际足坛
2025-11-20 23:42:05
张家界荒野求生挑战赛只剩17人,有人猜测“选手提前埋食物”,赛事方:不可能,场地严格保密

张家界荒野求生挑战赛只剩17人,有人猜测“选手提前埋食物”,赛事方:不可能,场地严格保密

极目新闻
2025-11-07 21:32:42
狂卖80亿!浙江小镇把手电筒做到 “全球之王”,50多国抢着买!

狂卖80亿!浙江小镇把手电筒做到 “全球之王”,50多国抢着买!

毒sir财经
2025-11-19 21:07:32
恋情有变?正式退出,陈幸同发声,国乒官宣,或和男友分手

恋情有变?正式退出,陈幸同发声,国乒官宣,或和男友分手

有范又有料
2025-10-18 15:53:51
15号模特广东冠军续:身份被扒,曾参加多个国际比赛,主办方辟谣

15号模特广东冠军续:身份被扒,曾参加多个国际比赛,主办方辟谣

花心电影
2025-11-19 10:18:40
自卫队作战计划曝光:利用潜艇偷袭中国海军舰队,目标击沉福建舰

自卫队作战计划曝光:利用潜艇偷袭中国海军舰队,目标击沉福建舰

十三级台阶
2025-11-19 06:51:28
65岁大姐雇46岁男保姆,男保姆:雇主对我很好,每天都很开心

65岁大姐雇46岁男保姆,男保姆:雇主对我很好,每天都很开心

惟来
2025-11-19 14:11:37
“建议拆完快递的纸箱立马扔掉”火上热搜,网友:再也不敢囤了

“建议拆完快递的纸箱立马扔掉”火上热搜,网友:再也不敢囤了

中国日报
2025-11-17 20:04:09
2025-11-21 05:28:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
137844文章数 2651524关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

日本政府被判赔偿39亿日元

头条要闻

日本政府被判赔偿39亿日元

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

揭秘三体公司原CEO许垚投毒杀人案始末

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

数码
亲子
健康
教育
军事航空

数码要闻

一键击毁芯片无法恢复 十铨科技发布全球首款支持销毁的SSD

亲子要闻

果果已经不知不觉长大,成了十八最大的靠山

警惕超声报告这六大"坑"

教育要闻

2020年吉林省国家励志奖学金发放时间

军事要闻

日本称已向美国出口爱国者导弹

无障碍浏览 进入关怀版