网易首页 > 网易号 > 正文 申请入驻

AI视觉GPT时刻!Meta新模型一键“分割世界”,网友直呼太疯狂了

0
分享至


智东西
作者 陈骏达
编辑 云鹏

智东西11月20日报道,今天,Meta宣布推出一个全新的模型家族SAM 3D,并发布两款3D模型,分别为用于物体和场景重建的SAM 3D Objects和用于人体和体型估计的SAM 3D Body

先来看看效果,SAM 3D系列模型能在用户点击图像中的元素后,直接从2D图像中扣出一个3D模型,无论是物体还是人像,都能被准确重建。重建后的模型360度旋转,也基本看不出破绽。


SAM的全称是Segment Anything Model,直译过来就是“分割一切”模型。Meta之前已经开源过SAM 1、SAM 2这两款2D图像分割模型,是该领域标杆作品。

SAM 3D系列模型发布的同日,此前在ICLR大会审稿期间就引发热议的SAM 3也迎来正式发布。SAM 3图像分割模型的亮点是引入了“可提示概念分割”的新功能。

在过去,大部分图像分割模型只能根据有限的预设标签对图像进行分割,而SAM 3让用户可以输入“狗”、“大象”、“斑马”这样具体的标签,或“动物”这样的整体概念,甚至是“穿着黑色外套、戴着白色帽子的人”这样的描述,并完成图像分割,这大幅提升了图像分割模型的通用性。


SAM 3还具有超快的推理速度,在单张英伟达H200 GPU上,SAM 3能在30毫秒左右识别一张包含超过100个可检测物体的图片。

SAM 3的发布,让英伟达开发者技术总结Nader Khalil直呼:“这可能就是计算机视觉的ChatGPT时刻,强大的分割功能意味着用户只要点击一下就能训练计算机视觉模型,太疯狂了。”


Meta已经直接拿SAM 3D Objects和Sam 3开始卖货了。Facebook Market现在提供新的“房间视图”功能,让用户可在购买家具前直观地感受家居装饰品在空间中的风格和合适度。


目前,SAM 3D系列模型和SAM 3都已经能在Meta最新打造的Segment Anything Playground中进行体验。SAM 3D的训练和评估数据、评估基准、模型检查点、推理代码以及参数化人类模型都已经开源,SAM 3开源了模型检查点、评估数据集和微调代码。

SAM 3D博客(内含论文、开源链接):

https://ai.meta.com/blog/sam-3d/

SAM 3博客(内含论文、开源链接):

https://ai.meta.com/blog/segment-anything-model-3/

一、标注近百万张图像,几秒钟完成全纹理3D重建

过去,三维建模一直面临着数据匮乏的问题。与文本、图像等丰富的资料相比,真实世界的3D数据少得可怜,大多数模型只能处理孤立的合成资产,或者在简单背景下重建单个高分辨率物体。这让3D重建在现实场景中显得力不从心。

SAM 3D Objects的出现,则打破了这一局限。通过强大的数据注释引擎,它在大规模自然图像上实现了3D物体的精细标注:近百万张图像,生成超过314万个网格模型。


这一过程结合了“众包+专家”模式。普通数据标注者对模型生成的多个选项进行评分,最难的部分交给资深3D艺术家处理。

SAM 3D Objects还借鉴了大型语言模型的训练理念,将合成数据学习重新定义为“三维预训练”,再通过后续阶段的微调,让模型在真实图像上发挥出色。

这种方法不仅提升了模型的鲁棒性和输出质量,也反过来让数据生成更高效,实现了数据引擎与模型训练的正向循环。

为了验证成果,团队还与艺术家合作建立了SAM 3D艺术家对象数据集(SA-3DAO),这是首个专门用于评估物理世界图像中单幅3D重建能力的数据集。相比现有基准,这个数据集的图像和物体更具挑战性。


性能方面,SAM 3D Objects在一对一的人类偏好测试中,以5:1的优势战胜现有领先模型。同时,结合扩散捷径和优化算法,它能在几秒钟内完成全纹理3D重建,让几乎实时的三维应用成为可能,比如为机器人提供即时视觉感知。

它不仅可以重建物体的形状、纹理和姿态,还能让用户自由操控摄像机,从不同角度观察场景。这意味着即使面对小物体、遮挡或间接视角,SAM 3D Objects也能从日常照片中提取出三维细节。

当然,这一模型仍有提升空间。当前模型的输出分辨率有限,复杂物体的细节还可能出现缺失;同时,物体布局预测仍以单个物体为主,对多物体的物理交互推理尚未实现。

未来,通过提高分辨率和加入多物体联合推理,SAM 3D Objects有望在真实世界场景中实现更精细、更自然的三维重建。

二、三维重建更具交互性和可控性,配备新型开源3D格式

SAM 3D Objects主要面向物体的三维重建,而SAM 3D Body则专注于人体的三维重建。SAM 3D Body能够从单张图像中精确估算人体的三维姿态和形状,即便面对异常姿势、局部遮挡,甚至多人复杂场景,也能稳定地输出。

值得注意的是,SAM 3D Body支持提示输入,用户可以通过分割掩码、二维关键点等方式引导和控制模型的预测,让三维重建更具交互性和可控性。

SAM 3D Body的核心是一种名为Meta Momentum Human Rig(MHR)的开源3D网格格式,它将人体的骨骼结构与软组织形状分离,从而提高了模型输出的可解释性。

模型采用Transformer Encoder-Decoder架构,图像编码器能够捕捉身体各部位的高分辨率细节,而网格解码器则支持基于提示的三维网格预测。这种设计让用户不仅能获得精确的三维人体模型,还能在交互中灵活调整和微调结果。

在数据方面,SAM 3D Body研究团队整合了数十亿张图像、多机位高质量视频以及专业合成数据,通过自动化数据引擎筛选出罕见姿势、遮挡或复杂服装等高价值图像,形成约800万张高质量训练样本。

这样的数据策略让模型在面对多样化场景时仍然保持强大的鲁棒性,同时结合基于提示的多步细化训练,使三维预测与二维视觉证据对齐得更加精确。

发布的基准结果显示,SAM 3D Body在多个三维人体基准测试中取得了显著优势,准确性和稳健性均领先于以往模型。


此外,团队还开放了MHR模型,这一参数化人体模型在商业许可下可供使用,使Meta的技术如Codec Avatars等得以落地应用。

SAM 3D Body主要针对单人处理,尚未支持多人或人与物体的交互预测,这限制了对相对位置和物理互动的准确推理。此外,其手部姿势的估计在精确度上仍落后于专门的手部姿势估计方法。

未来,SAM 3D Body计划将人与物体、环境互动纳入训练,同时提升手部姿势重建精度,使模型在真实场景中更全面、更自然。

三、分割灵活性增强,AI深度参与数据构建

如果说SAM 3D系列模型代表着Meta在三维视觉重建领域的首次突破,那么SAM 3对Meta在2D图像分割领域探索的延续。

SAM 3是一款统一模型,能够基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪,其开放性和交互性提升了视觉创作和科学研究的可能性。

通过“可提示概念分割”,SAM 3能够识别更复杂、细微的概念,例如“条纹红伞”或“手中未持礼盒的坐着的人”。

为衡量大词汇量分割性能,Meta同时推出了Segment Anything with Concepts(SA-Co)数据集,这一基准覆盖了远超以往的数据概念,并对图像和视频中的开放式概念分割进行了挑战测试。

SAM 3模型支持多种提示形式,包括文本短语、示例图像以及视觉提示(如掩码、框选点),增强了分割灵活性。

Meta公布的测试结果显示,SAM 3在SA-Co基准上的概念分割性能实现了约100%的提升,在用户偏好测试中,相较最强竞品模型OWLv2,SAM 3的输出更受青睐,比例达到约3:1(SAM 3:OWLv2)。


此外,SAM 3在传统SAM 2的视觉分割任务中也保持领先表现,零样本LVIS和目标计数等挑战性任务同样取得显著进展。

在数据构建方面,SAM 3采用人类与AI协同的数据引擎。这一流程包括使用SAM 3及Llama 3.2v模型自动生成初始分割掩码和标签,再由人类与AI注释者验证和修正。

AI注释者不仅能提升标注速度(负样本快约400%,正样本快约36%),还会自动筛选简单样本,把人力集中于最具挑战的案例。

同时,Meta利用概念本体(基于维基百科的概念字典)扩展数据覆盖范围,使稀有概念也能获得标注支持。


消融实验显示,AI与人类注释结合的策略能显著提升模型性能,同时为新视觉域的自动数据生成提供可行途径。

在模型架构上,SAM 3结合了多项先进技术:文本与图像编码器基于Meta Perception Encoder,检测器采用DETR架构,跟踪组件延续了SAM 2的记忆模块。

通过统一架构处理检测、分割和跟踪任务,SAM 3在处理复杂视觉任务时避免了任务间冲突,同时保持了高性能和高效训练。

SAM 3在某些极端场景下仍有提升空间,例如零样本下识别专业术语(如“血小板”)或处理长复杂文本描述。在视频场景中,SAM 3将每个对象单独处理,使得多对象场景下效率和性能仍可优化。

Meta提供了模型微调方法和工具,鼓励开源社区针对特定任务和视觉域进行适配和扩展。

结语:生成式AI,正改变CV的玩法

生成式AI的崛起,正在反哺上一轮以计算机视觉为核心的AI浪潮。从数据集的打造到模型训练方式创新,生成式AI扩展了CV模型的能力边界,也带来更多的创新玩法。

此外,我们也看到Meta已经在积极地将相关技术用于真实业务,随着数据和用户反馈的积累,SAM和SAM 3D系列模型或将给我们带来更多的惊喜。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖人内部炸锅!里奇保罗吐槽球队非争冠队,建议交易里夫斯

湖人内部炸锅!里奇保罗吐槽球队非争冠队,建议交易里夫斯

夜白侃球
2026-01-14 22:17:56
呆呆榜一“伙夫哥”续接杀猪饭,18日大摆5000桌,不用报名直接来

呆呆榜一“伙夫哥”续接杀猪饭,18日大摆5000桌,不用报名直接来

奇思妙想草叶君
2026-01-13 18:02:04
16岁红星中断留洋!加盟中超保级队,董路:3大原因令他回国忍1年

16岁红星中断留洋!加盟中超保级队,董路:3大原因令他回国忍1年

我爱英超
2026-01-14 10:37:44
毛远新叫江青“妈妈”,毛主席严厉呵斥:你亲爹是毛泽民,不要六亲不认!

毛远新叫江青“妈妈”,毛主席严厉呵斥:你亲爹是毛泽民,不要六亲不认!

历史回忆室
2026-01-13 23:39:16
呆呆赢麻了!直播收入惊人,榜一大哥上门邀约,相亲对象后悔莫及

呆呆赢麻了!直播收入惊人,榜一大哥上门邀约,相亲对象后悔莫及

李健政观察
2026-01-13 18:12:45
跟国王离婚8年,47岁的红发王妃依旧很美,和女儿同框像姐妹

跟国王离婚8年,47岁的红发王妃依旧很美,和女儿同框像姐妹

小书生吃瓜
2026-01-14 17:32:35
双汇创始人万隆:出轨女秘书20年,给美国输送35亿,却被儿子揭发

双汇创始人万隆:出轨女秘书20年,给美国输送35亿,却被儿子揭发

寒士之言本尊
2026-01-14 22:26:11
CBA新赛季封盖王!徐昕单场6帽平赛季新高 离开广东多项数据创新高

CBA新赛季封盖王!徐昕单场6帽平赛季新高 离开广东多项数据创新高

狼叔评论
2026-01-14 21:58:05
勇士119-97开拓者!库里看清现实,巴特勒把话挑明,格林一点该批

勇士119-97开拓者!库里看清现实,巴特勒把话挑明,格林一点该批

鱼崖大话篮球
2026-01-14 16:43:58
再提长株潭一体化,湖南为何急着把“三市变一城”?

再提长株潭一体化,湖南为何急着把“三市变一城”?

时代周报
2026-01-14 15:23:36
1950年,无锡一位带8个娃的母亲走投无路,给毛主席写了封信:我是您恩师的儿媳妇

1950年,无锡一位带8个娃的母亲走投无路,给毛主席写了封信:我是您恩师的儿媳妇

清风鉴史
2026-01-04 23:43:12
一位老人感叹:人没必要活得太长寿。60岁走,太年轻;70岁走,有点早;80岁去世,刚好合适。

一位老人感叹:人没必要活得太长寿。60岁走,太年轻;70岁走,有点早;80岁去世,刚好合适。

二胡的岁月如歌
2026-01-12 18:27:06
戴笠霸占胡蝶3年?胡蝶晚年坦言:戴笠对我很好,我不会忘记他的

戴笠霸占胡蝶3年?胡蝶晚年坦言:戴笠对我很好,我不会忘记他的

雍亲王府
2026-01-12 16:30:03
日本丰田汽车连续6年销量全球第一已成定局

日本丰田汽车连续6年销量全球第一已成定局

随波荡漾的漂流瓶
2026-01-13 16:38:46
车位管理费不用交了?住建部新规划红线,物业这么做就是违规

车位管理费不用交了?住建部新规划红线,物业这么做就是违规

复转这些年
2026-01-13 23:39:01
青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

Mr王的饭后茶
2026-01-13 21:03:08
2026中国已进入财富6.0时代,很多人思维还停在1.0阶段!

2026中国已进入财富6.0时代,很多人思维还停在1.0阶段!

水木然
2026-01-12 23:48:12
U23国足0:0泰国小组第二出线,8强淘汰赛对阵乌兹别克

U23国足0:0泰国小组第二出线,8强淘汰赛对阵乌兹别克

李广专业体育评论
2026-01-14 21:35:46
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
走路=续命!研究:每天2小时步行量,让预期寿命直接+11年

走路=续命!研究:每天2小时步行量,让预期寿命直接+11年

时光派健康抗衰
2026-01-13 16:51:51
2026-01-14 22:56:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11069文章数 116942关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

中东气氛愈发紧张 伊朗处于最高战备状态

头条要闻

中东气氛愈发紧张 伊朗处于最高战备状态

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

房产
家居
本地
公开课
军事航空

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

家居要闻

心之所向 现代建构之美

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美再发安全警告 敦促美公民立即离开伊朗

无障碍浏览 进入关怀版