网易首页 > 网易号 > 正文 申请入驻

分割一切并不够,还要3D重建一切,SAM 3D来了

0
分享至




机器之心报道

机器之心编辑部

沉默后爆发?

深夜,Meta 有了重大更新,接连上线 SAM 3D、SAM 3(Segment Anything Model,SAM)。

其中,SAM 3D 是 SAM 系列的最新成员,它将人们对图像的 3D 理解带入通俗易懂的世界,其包含两个模型:

  • SAM 3D Objects:支持物体与场景重建
  • SAM 3D Body:专注于人体形状与姿态估计

这两个模型都具备强大且稳定的 SOTA(业界领先)性能,能够将静态的 2D 图像转化为细致的 3D 重建结果。





SAM 3 可通过文本、示例和视觉提示,对图像和视频中的物体进行检测、分割与跟踪。





作为本次发布的一部分,Meta 同步开放了 SAM 3D、SAM 3 的模型权重与推理代码。

此外,Meta 还推出了一个全新平台 Segment Anything Playground,通过该平台,用户能轻松体验 SAM 3D、SAM 3 的能力。

接下来,我们一一来介绍 SAM 3D、SAM 3。

SAM 3D

SAM 3D Objects:从一张静态照片到可操控的 3D 场景对象

SAM 3D Objects 提出了一种全新的技术路径,用于在单张自然图像中实现稳健、真实感强的 3D 重建与物体姿态估计。它能够从日常照片中重建物体的细致 3D 形状、纹理和场景布局。



对于自然图像来说,小物体、侧视角、遮挡等情况十分常见,仅依赖像素往往不足以完成重建,而 SAM 3D Objects 能利用识别能力与上下文信息来弥补纯视觉像素的缺失。



借助 SAM 3D Objects,用户只需从一张图片开始,选择任意物体,就可以快速生成带姿态信息的 3D 模型。

以往的 3D 模型受到数据限制极大。与文本或图像等模态相比,高质量 3D 真值数据的数量要少几个数量级,并且现有数据主要是孤立的、合成的 3D 资产。这使得传统模型虽然能生成质量不错的单个 3D 物体,但在 3D 重建方面却局限于合成或摆拍场景,例如:

  • 简单背景上的单个高分辨率物体
  • 受控光照和姿态
  • 非真实环境

这种基于大规模孤立 3D 资产训练的方式虽然是一个良好的起点,但若要超越这些简化场景,实现真实世界中日常复杂环境的 3D 重建,就需要全新的方法。



SAM 3D Objects 背后的核心创新来自两个方面:

  • 一是通过一个强大的数据标注引擎,突破长期以来真实世界 3D 数据难以大规模获取的瓶颈;
  • 二是将该数据引擎与全新的多阶段 3D 训练流程紧密结合。

众所周知,构建 3D 真值数据需要高度专业的技能,主要依赖经验丰富的 3D 艺术家。因此,3D 数据采集往往更慢、成本更高。

然而,Meta 观察到:验证或排序 3D 网格(mesh)的难度远低于从零创建一个网格。

基于这一点,Meta 构建了一个可扩展的数据引擎,让标注人员对模型生成的多个 3D 候选结果进行评分,而把最困难的样例再交给专业 3D 艺术家处理,以弥补数据盲区。

借助这一数据引擎,Meta 首次在真实世界图像上,总计标注了近 100 万张图像,生成了约 314 万个 3D 网格。





与此同时,Meta 还借鉴了近期 LLM 的训练范式,将基于合成数据的学习重新定义为 3D 的预训练阶段。

为了让模型能够有效处理真实世界图像,还必须加入一个后训练阶段,用来进行对齐,以弥补模拟环境与真实环境之间的鸿沟。

数据引擎正是支撑这一后训练阶段的核心,它持续提供高质量的数据来驱动对齐过程。

反过来,当模型的稳健性和输出质量不断提升时,又会增强数据引擎生成数据的能力,从而形成一个正向反馈闭环,不断循环迭代。

这种数据引擎与后训练阶段的紧密耦合,将会吸收更广泛的人类专业知识,将模型能力引导到单一方法所无法达到的水平。

Meta 还与专业艺术家合作,构建了一个种类多样的 SAM 3D Artist Objects(SA-3DAO)数据集,其在性能上显著超越现有方法。



SAM 3D Body:稳健、精准且可交互的 3D 人体重建

SAM 3D Body 旨在解决从单张图像中获得准确的人体三维姿态与形体重建这一长期挑战,即使图像中存在不寻常的姿势、遮挡、多人同时出现等复杂情况,它仍能保持高质量表现。

SAM 3D Body 是一个可提示模型,支持可交互输入,例如:

  • 分割掩码(segmentation mask)
  • 2D 关键点(2D keypoints)

借此,用户可以直接引导与控制模型的预测结果,从而提升精度与可控性。

该模型基于 Meta 全新的开源 3D 网格格式 Meta Momentum Human Rig(MHR),这种格式通过将骨骼结构与软组织形体分离建模,提供了更强的可解释性。

在架构上,SAM 3D Body 构建于 Transformer 编码器 — 解码器架构之上,用于预测 MHR 网格参数:

  • 图像编码器:采用多输入结构,以捕捉身体各部位的高分辨率细节;
  • 网格解码器:经过扩展,支持基于提示的预测方式。



为了训练模型,Meta 还构建了一个包含约 800 万张图像的高质量训练数据集,使其能够应对遮挡、罕见姿态和各种服装,并在多个 3D 基准测试中均超越了以往的模型。



SAM 3

在计算机视觉中,将语言与图像或视频中的具体视觉元素精准对应是一项重大挑战。

现有模型虽然能轻松分割像人这样常见的类别,但在面对更细致、更具体的请求时就会遇到困难,例如:那把红色条纹的雨伞。



SAM 3 通过引入可提示概念分割(promptable concept segmentation) 克服了这些限制:模型能够根据文本提示或示例图像提示,找到并分割某个概念的所有实例。

为了评估模型在大词汇量情况下的检测与分割能力,Meta 还构建了 SA-Co(Segment Anything with Concepts)基准。与以往基准相比,SA-Co 涵盖了规模更大的概念词汇,挑战性显著提高。



模型架构

SAM 3 模型架构建立在 Meta 以往许多 AI 进展之上。SAM 3 中的文本和图像编码器来自 Meta 在今年 4 月开源的 Meta Perception Encoder,这一模型能够帮助构建更高级的计算机视觉系统,用于图像识别、目标检测等日常任务。相比以往编码器选择,Meta Perception Encoder 在性能上取得了显著跃升。

SAM 3 的检测模块基于 DETR,这是首个使用 transformer 进行目标检测的模型。SAM 2 中使用的 memory bank 和 memory encoder 则成为 SAM 3 中跟踪模块(Tracker)的基础。此外,Meta 还使用了多个开源组件,包括数据集、基准和模型改进,以推动研究进一步发展。

结果

SAM 3 在图像(SA-Co Gold 子集)和视频(SA-Co Video)上的概念分割性能取得了跨越式提升。与现有模型相比,SAM 3 将 cgF1 分数(衡量模型识别与定位概念的能力)提升了两倍。SAM 3 优于基础模型(如 Gemini 2.5 Pro)以及强大的专业模型(如 GLEE)。

此外,SAM 3 在 H200 GPU 上对单张包含超过 100 个检测目标的图像,仅需 30 毫秒即可完成推理。在视频中,推理延迟随目标数量线性增长,在约五个并发目标的情况下仍可保持近实时表现。



了解更多内容,请参考:

https://ai.meta.com/blog/segment-anything-model-3/

https://ai.meta.com/blog/sam-3d/

文中视频链接:

https://mp.weixin.qq.com/s/-cPALWlixCFUvgtD4o_Dkw

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
净身出户?62岁的张近东押上个人所有财产救苏宁

净身出户?62岁的张近东押上个人所有财产救苏宁

帅真商业
2025-11-19 19:43:38
日本笑了!中国制造在东南亚自杀!占有率80%狂跌至1%,丢失人心

日本笑了!中国制造在东南亚自杀!占有率80%狂跌至1%,丢失人心

芳芳历史烩
2025-11-19 20:39:37
宋朝之前连棉被都没有,零下几十度的寒冬,古人是怎么熬过去的?

宋朝之前连棉被都没有,零下几十度的寒冬,古人是怎么熬过去的?

法老不说教
2025-11-03 19:36:43
段奕宏说得没错,不拍戏就消失的廖凡,早已在另一个圈子红得发紫

段奕宏说得没错,不拍戏就消失的廖凡,早已在另一个圈子红得发紫

伴史缘
2025-11-04 18:04:39
中央组织部决定:刘巍履新

中央组织部决定:刘巍履新

鲁中晨报
2025-11-20 10:42:04
王励勤颁奖沉默!陈梦大赢家,孙颖莎0冠,球迷却意外提到王楚钦

王励勤颁奖沉默!陈梦大赢家,孙颖莎0冠,球迷却意外提到王楚钦

大秦壁虎白话体育
2025-11-19 23:05:04
开拓者1分遭绝杀!可怕的不是杨瀚森得2分,而是连轮换出场达不到

开拓者1分遭绝杀!可怕的不是杨瀚森得2分,而是连轮换出场达不到

侃球熊弟
2025-11-20 13:12:09
甲流来袭,医生提醒:少吃牛奶鸡蛋,多吃5样,免疫力拉满不中招

甲流来袭,医生提醒:少吃牛奶鸡蛋,多吃5样,免疫力拉满不中招

爱生活的陶哥
2025-11-17 10:52:41
6亿成本拖了8年,《美人鱼2》烂尾,华谊连亏5年,周星驰也很无奈

6亿成本拖了8年,《美人鱼2》烂尾,华谊连亏5年,周星驰也很无奈

电影票房预告片
2025-11-19 23:17:51
解放军当年为何不把佩洛西专机干掉?答案其实非常清楚

解放军当年为何不把佩洛西专机干掉?答案其实非常清楚

文史旺旺旺
2025-11-19 21:25:07
挖出戴手铐的女遗骨,鉴定后确定,她就是中央苦苦寻找的人!

挖出戴手铐的女遗骨,鉴定后确定,她就是中央苦苦寻找的人!

老呶侃史
2025-11-16 18:45:42
网约车司机开车“视频聊天”撞死骑行者,法院:犯交通肇事罪

网约车司机开车“视频聊天”撞死骑行者,法院:犯交通肇事罪

南方都市报
2025-11-20 17:14:27
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
当年陈官庄66天激战,唯独1个兵团司令活着逃出,21天后在青岛现身

当年陈官庄66天激战,唯独1个兵团司令活着逃出,21天后在青岛现身

宅家伍菇凉
2025-11-05 16:40:02
上位靠睡、赶走原配!刚拿金鸡奖影后的宋佳,私生活传闻有多离谱

上位靠睡、赶走原配!刚拿金鸡奖影后的宋佳,私生活传闻有多离谱

萧鑟科普解说
2025-11-18 10:02:39
朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

极目新闻
2025-11-19 13:18:23
男子4x400米接力:四川队3分04秒81夺冠,江苏第二名

男子4x400米接力:四川队3分04秒81夺冠,江苏第二名

懂球帝
2025-11-20 21:10:11
美女美图7139期

美女美图7139期

手工制作阿歼
2025-11-14 08:13:28
为什么大厂程序员老婆很多都是全职主妇?网友掀桌式回答:真相了

为什么大厂程序员老婆很多都是全职主妇?网友掀桌式回答:真相了

一桶浆糊要一统江湖
2025-11-14 13:15:02
武汉女足2-0!亚冠2轮不败登顶 王霜双响 外援中柱+3次错失必进球

武汉女足2-0!亚冠2轮不败登顶 王霜双响 外援中柱+3次错失必进球

我爱英超
2025-11-20 16:58:37
2025-11-20 22:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11764文章数 142508关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

摄影师拍的照片被视觉中国告侵权还收到威胁 法院判了

头条要闻

摄影师拍的照片被视觉中国告侵权还收到威胁 法院判了

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

揭秘三体公司原CEO许垚投毒杀人案始末

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

教育
手机
家居
艺术
时尚

教育要闻

期末必考!中考常考!九上物理电功率必考题型,初学者几乎全错

手机要闻

2025年9月国内市场手机出货量2793.1万部,同比增长10.1%

家居要闻

黑白极简 慵懒通透空间

艺术要闻

陈洪绶:花鸟册二十开

50+女性穿衣别“将就”,3个技巧穿出优雅与高级,告别油腻感

无障碍浏览 进入关怀版