网易首页 > 网易号 > 正文 申请入驻

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

Meta的“分割一切”,这回给3D建模带来了新的范式——

现在,图像分割得到的切片,可以直接转换成3D模型了。

只要一张图,就能对里面的每个物体进行单独重建,有遮挡也不用怕。



这就是Meta MSL实验室刚刚发布的三维重建模型SAM 3D。



与此同时,MSL实验室之前投稿ICLR 2026的分割模型SAM 3,也终于露出了真容。



之前SAM 3就在一般图像分割的基础上增强了语义理解,论文一公布就备受关注。

现在又上新SAM 3D,许久不见出成果的Meta AI,总算是打出了一组王炸。

分割结果生成3D模型

SAM 3D家族包含两个新模型——SAM 3D Objects,用于物体和场景重建;以及SAM 3D Body,专注于人体,这两个模型均能够将静态2D图像转换为精细的3D重建模型。

SAM 3D Objects能够从单张自然图像中实现基于视觉的3D重建和物体姿态估计。



即使存在小物体、间接视角和遮挡现象等障碍,依然可以进行重建,弥补了仅凭像素不足以完成重建的不足。



SAM 3D Objects的性能显著优于现有方法,能够很好地泛化到多种类型的图像,并支持密集场景重建。

在与人类用户进行的直接对比测试中,其胜率至少达到其他领先模型的5倍。



类似地,SAM 3D Body在涉及不寻常姿态、图像部分被遮挡或多人等复杂情况下也依然能对人物进行建模。



相比其他人物重建模型,SAM 3D Body同样取得了SOTA成绩。



同时,Meta还与艺术家合作构建了SAM 3D艺术家物体数据集SA-3DAO,用于评估基于视觉的物理世界图像三维重建能力。

不只分割,还更懂语义

再来看SAM 3。

传统模型通常专注于使用固定的文本标签集进行对象分割,这限制了它们处理用户请求的能力,因为用户请求往往涉及分割预定义列表中不存在的概念。

这意味着现有模型可以分割像“人”这样常见的概念,但难以处理像“红色条纹伞”这样更细微的概念。

SAM 3则通过引入可提示概念分割功能克服了这些局限。

它能够查找并分割由文本或示例提示定义的概念的所有物体,消除了固定标签集的限制。



你可以直接通过文本指令,让SAM 3从图像中找到符合描述的物体。



也可以处理稍复杂的提升,例如输入“条纹猫”,SAM 3自己就能找出并分割图中所有带条纹的猫猫。



除了文本,还可以直接在图中选中某个物体,让SAM 3找到所有同类。



为了评估大词汇量检测和分割性能,Meta还创建了“基于概念的任意分割”(SA-Co)基准测试,用于图像和视频中的可提示概念分割。

与之前的基准测试相比,SA-Co要求模型识别更大的概念词汇量。



实验结果表明,SAM 3在可提示分割任务中刷新了SOTA。

在LVIS数据集的零样本分割任务中,SAM 3的准确率达到了47.0,比此前的SOTA 38.5提升不少。

在新的SA-Co基准测试中,SAM 3的表现至少比基线方法强2倍。



另外,在针对视频的PVS(Promptable Visual Segmentation)任务中,SAM 3的性能也优于SAM 2。



SAM如何实现?

SAM 3的核心架构建立在一个共享的Perception Encoder视觉骨干网络之上。



该骨干网络同时服务于检测器和追踪器两个模块,确保了图像特征提取的一致性与高效性。

其检测器部分基于DETR架构进行了改进,引入了包含文本提示和图像示例的提示Token。

这些Token与图像特征在融合编码器中通过交叉注意力机制进行交互,随后输入到解码器中生成对象查询。

为了解决开放词汇检测中常见的幻觉问题(即模型在目标不存在时仍强制预测出物体),SAM 3创新性地设计了一个Presence Head来解耦识别与定位任务。

该模块引入了一个可学习的全局存在Token,专门负责预测目标概念在当前图像中出现的概率,而原本的对象查询则专注于在假设目标存在的前提下计算局部匹配概率,最终的置信度得分为两者的乘积。

在视频处理方面,SAM 3继承并扩展了SAM 2的记忆机制,即通过追踪器利用记忆库存储过去帧的空间特征,将上一帧的掩码传播到当前帧。

为了处理新出现的物体,系统使用一种匹配函数,基于IoU等指标将追踪器预测的掩码与检测器在当前帧新发现的对象进行关联和更新,从而实现跨帧的身份保持与新目标的自动捕获。



SAM 3D Objects的核心则是通过两阶段的生成模型来实现几何与纹理的逐步构建。

首先,系统使用DINOv2编码器分别提取裁剪后的物体特征和全图上下文特征作为条件输入。

第一阶段的几何模型采用了一个参数量达12亿的流匹配Transformer,并结合了Mixture-of-Transformers(MoT)架构,主要用于预测物体的粗糙体素形状以及其在相机坐标系下的旋转、平移和缩放等6D布局参数。

当粗糙的几何结构确定后,第二阶段的纹理与精细化模型接手工作。

该模型基于稀疏潜在流匹配架构,仅从第一阶段预测的粗糙形状中提取活跃体素进行处理。

这种稀疏化处理极大地提高了计算效率,它可以细化几何细节并合成高保真的物体纹理,最终通过一对VAE解码器将潜在表示解码为网格(Mesh)或3D高斯溅射以适应不同的渲染需求。



为了支撑这一生成过程,Meta构建了一个独特的model-in-the-loop(MITL)数据引擎。

由于人类难以直接标注3D形状,该引擎让模型生成多个3D候选结果,利用Best-of-N搜索策略由人类标注员从8个候选中选择最佳匹配项。

然后,基于点云参考对齐物体在场景中的位姿,从而低成本地获取了大规模且精准的图像-3D配对数据。



针对人体结构的SAM 3D Body模型,其核心在于摒弃了传统的Skinned Multi-Person Linear模型,转而采用Momentum Human Rig表示法。

这种表示法将骨骼姿态与身体形状参数显式解耦,避免了传统模型中骨肉粘连导致的调整失真问题。

在模型架构上,SAM 3D Body采用了一种可提示的编码器-解码器设计,支持输入二维关键点或掩码作为提示Token,与图像特征一起指导推理过程。

为了解决全身模型往往难以兼顾手部细节的痛点,SAM 3D Body设计了独特的双路解码器结构。

虽然身体和手部共享同一个图像编码器,但在解码阶段分流——

  • 身体解码器利用全局特征和Momentum Human Rig Token预测全身的姿态、形状及相机参数;
  • 手部解码器则专门关注手部裁剪图像的特征,利用交叉注意力机制处理手部细节。



这种设计通过在Token层面融合全身与手部信息,使得模型既能通过身体解码器输出连贯的全身网格,又能利用手部解码器的输出来修正末端细节。

网友评价其精妙之处在于它并非凭空臆造几何图形,而是像人类一样,利用日常经验推断几何形状,这意味着混合场景理解从此普及开来,是真正意义上的基础模型具身化。



现在,成为开发者的最好时机已经来临了。



项目主页
SAM 3:https://ai.meta.com/sam3
SAM 3D:https://ai.meta.com/sam3d
GitHub
SAM 3:https://github.com/facebookresearch/sam3
SAM 3D Objects:https://github.com/facebookresearch/sam-3d-objects
SAM 3D Body:https://github.com/facebookresearch/sam-3d-body
论文地址
SAM 3:https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/
SAM 3D Objects:https://ai.meta.com/research/publications/sam-3d-3dfy-anything-in-images/
SAM 3D Body:https://ai.meta.com/research/publications/sam-3d-body-robust-full-body-human-mesh-recovery/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
71岁成龙自曝有ADHD!有网友惊讶,感觉自己也患病?

71岁成龙自曝有ADHD!有网友惊讶,感觉自己也患病?

环球网资讯
2026-01-31 11:21:54
东契奇37分11板13助攻湖人战胜奇才,勒布朗20分6助攻

东契奇37分11板13助攻湖人战胜奇才,勒布朗20分6助攻

湖人崛起
2026-01-31 10:17:30
微波炉居然还能这么用,被网友们的“微波炉用法”折服了,佩服

微波炉居然还能这么用,被网友们的“微波炉用法”折服了,佩服

美家指南
2025-12-04 12:17:55
深圳烤鸡少年的店铺从20张桌子扩展至81张,称不再执着于买迈巴赫:少年有了迈巴赫,青春就结束了

深圳烤鸡少年的店铺从20张桌子扩展至81张,称不再执着于买迈巴赫:少年有了迈巴赫,青春就结束了

极目新闻
2026-01-31 20:45:49
家委会负责人要求成员帮收每生263.3元费用,还称交自己再换成现金给班主任,使用明细不能公示,有家长报警

家委会负责人要求成员帮收每生263.3元费用,还称交自己再换成现金给班主任,使用明细不能公示,有家长报警

大风新闻
2026-01-30 23:33:14
这个中国人的惊天叛逃,99.99%概率是死,但他却成了那0.01%

这个中国人的惊天叛逃,99.99%概率是死,但他却成了那0.01%

深度报
2026-01-31 16:59:47
吴京再次失手,新片上映8天票房1200万,投资血本无归

吴京再次失手,新片上映8天票房1200万,投资血本无归

乐悠悠娱乐
2026-01-31 11:04:02
牙科界大地震!中国科学家发明神奇药水,滴几滴烂牙变新牙!

牙科界大地震!中国科学家发明神奇药水,滴几滴烂牙变新牙!

最黑科技
2026-01-29 21:32:23
董洁穿毛衣赴晚宴,赢过满场晚礼服

董洁穿毛衣赴晚宴,赢过满场晚礼服

锋哥与八卦哥
2026-01-31 17:36:37
中国男篮迎关键战!阵容换血,两主帅推荐两人,郭士强还不考虑吗

中国男篮迎关键战!阵容换血,两主帅推荐两人,郭士强还不考虑吗

理工男评篮球
2026-01-31 22:03:44
2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

小茉莉美食记
2026-01-30 07:27:46
乌克兰战机2026年首次飞入俄罗斯领土!摧毁库尔斯克指挥部

乌克兰战机2026年首次飞入俄罗斯领土!摧毁库尔斯克指挥部

项鹏飞
2026-01-30 16:10:31
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

削桐作琴
2026-01-29 00:03:53
若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

星星会坠落
2026-01-30 13:12:25
斯洛特终于做出改变!放弃控球改打防反,三大核心被彻底激活

斯洛特终于做出改变!放弃控球改打防反,三大核心被彻底激活

锐评利物浦
2026-02-01 02:12:50
新时代得分王诞生!东皇37+三双刷7纪录怒吼释放 湖蜜:全球最强

新时代得分王诞生!东皇37+三双刷7纪录怒吼释放 湖蜜:全球最强

颜小白的篮球梦
2026-01-31 10:10:46
11个首轮报价字母哥!再见了,勇士!

11个首轮报价字母哥!再见了,勇士!

民哥台球解说
2026-02-01 00:25:54
58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

锋哥与八卦哥
2026-01-25 13:26:51
金晨通报来了!本人承认开车出事后离开就医,晒受伤照力证没骗保

金晨通报来了!本人承认开车出事后离开就医,晒受伤照力证没骗保

萌神木木
2026-01-30 18:14:29
四川成都74岁阿姨十年前花10万元买408克金条,目前金价翻5倍,当事人:当时不被丈夫理解,如今终于扬眉吐气

四川成都74岁阿姨十年前花10万元买408克金条,目前金价翻5倍,当事人:当时不被丈夫理解,如今终于扬眉吐气

台州交通广播
2026-01-31 15:03:31
2026-02-01 03:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12090文章数 176369关注度
往期回顾 全部

科技要闻

SpaceX申请部署百万卫星 打造太空数据中心

头条要闻

新年"打虎"不停歇 三天落马两个正部级

头条要闻

新年"打虎"不停歇 三天落马两个正部级

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

李维嘉、吴昕、汪涵现身魏文彬追悼会

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

艺术
房产
教育
旅游
亲子

艺术要闻

半世纪的蜕变:她从初中辍学到传奇艺术家!

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

教育要闻

一年一度“花式”期末考,成都的小学今年做了哪些探索?又有哪些特别?

旅游要闻

滇池岸的时光长堤:海埂公园藏着昆明的生态密码与人文深情!

亲子要闻

儿童祛疤膏全攻略!2026年10款温和高效儿童祛疤膏实测推荐榜

无障碍浏览 进入关怀版