网易首页 > 网易号 > 正文 申请入驻

AI视觉GPT时刻!Meta新模型一键“分割世界”,网友直呼太疯狂了

0
分享至


智东西
作者 陈骏达
编辑 云鹏

智东西11月20日报道,今天,Meta宣布推出一个全新的模型家族SAM 3D,并发布两款3D模型,分别为用于物体和场景重建的SAM 3D Objects和用于人体和体型估计的SAM 3D Body

先来看看效果,SAM 3D系列模型能在用户点击图像中的元素后,直接从2D图像中扣出一个3D模型,无论是物体还是人像,都能被准确重建。重建后的模型360度旋转,也基本看不出破绽。


SAM的全称是Segment Anything Model,直译过来就是“分割一切”模型。Meta之前已经开源过SAM 1、SAM 2这两款2D图像分割模型,是该领域标杆作品。

SAM 3D系列模型发布的同日,此前在ICLR大会审稿期间就引发热议的SAM 3也迎来正式发布。SAM 3图像分割模型的亮点是引入了“可提示概念分割”的新功能。

在过去,大部分图像分割模型只能根据有限的预设标签对图像进行分割,而SAM 3让用户可以输入“狗”、“大象”、“斑马”这样具体的标签,或“动物”这样的整体概念,甚至是“穿着黑色外套、戴着白色帽子的人”这样的描述,并完成图像分割,这大幅提升了图像分割模型的通用性。


SAM 3还具有超快的推理速度,在单张英伟达H200 GPU上,SAM 3能在30毫秒左右识别一张包含超过100个可检测物体的图片。

SAM 3的发布,让英伟达开发者技术总结Nader Khalil直呼:“这可能就是计算机视觉的ChatGPT时刻,强大的分割功能意味着用户只要点击一下就能训练计算机视觉模型,太疯狂了。”


Meta已经直接拿SAM 3D Objects和Sam 3开始卖货了。Facebook Market现在提供新的“房间视图”功能,让用户可在购买家具前直观地感受家居装饰品在空间中的风格和合适度。


目前,SAM 3D系列模型和SAM 3都已经能在Meta最新打造的Segment Anything Playground中进行体验。SAM 3D的训练和评估数据、评估基准、模型检查点、推理代码以及参数化人类模型都已经开源,SAM 3开源了模型检查点、评估数据集和微调代码。

SAM 3D博客(内含论文、开源链接):

https://ai.meta.com/blog/sam-3d/

SAM 3博客(内含论文、开源链接):

https://ai.meta.com/blog/segment-anything-model-3/

一、标注近百万张图像,几秒钟完成全纹理3D重建

过去,三维建模一直面临着数据匮乏的问题。与文本、图像等丰富的资料相比,真实世界的3D数据少得可怜,大多数模型只能处理孤立的合成资产,或者在简单背景下重建单个高分辨率物体。这让3D重建在现实场景中显得力不从心。

SAM 3D Objects的出现,则打破了这一局限。通过强大的数据注释引擎,它在大规模自然图像上实现了3D物体的精细标注:近百万张图像,生成超过314万个网格模型。


这一过程结合了“众包+专家”模式。普通数据标注者对模型生成的多个选项进行评分,最难的部分交给资深3D艺术家处理。

SAM 3D Objects还借鉴了大型语言模型的训练理念,将合成数据学习重新定义为“三维预训练”,再通过后续阶段的微调,让模型在真实图像上发挥出色。

这种方法不仅提升了模型的鲁棒性和输出质量,也反过来让数据生成更高效,实现了数据引擎与模型训练的正向循环。

为了验证成果,团队还与艺术家合作建立了SAM 3D艺术家对象数据集(SA-3DAO),这是首个专门用于评估物理世界图像中单幅3D重建能力的数据集。相比现有基准,这个数据集的图像和物体更具挑战性。


性能方面,SAM 3D Objects在一对一的人类偏好测试中,以5:1的优势战胜现有领先模型。同时,结合扩散捷径和优化算法,它能在几秒钟内完成全纹理3D重建,让几乎实时的三维应用成为可能,比如为机器人提供即时视觉感知。

它不仅可以重建物体的形状、纹理和姿态,还能让用户自由操控摄像机,从不同角度观察场景。这意味着即使面对小物体、遮挡或间接视角,SAM 3D Objects也能从日常照片中提取出三维细节。

当然,这一模型仍有提升空间。当前模型的输出分辨率有限,复杂物体的细节还可能出现缺失;同时,物体布局预测仍以单个物体为主,对多物体的物理交互推理尚未实现。

未来,通过提高分辨率和加入多物体联合推理,SAM 3D Objects有望在真实世界场景中实现更精细、更自然的三维重建。

二、三维重建更具交互性和可控性,配备新型开源3D格式

SAM 3D Objects主要面向物体的三维重建,而SAM 3D Body则专注于人体的三维重建。SAM 3D Body能够从单张图像中精确估算人体的三维姿态和形状,即便面对异常姿势、局部遮挡,甚至多人复杂场景,也能稳定地输出。

值得注意的是,SAM 3D Body支持提示输入,用户可以通过分割掩码、二维关键点等方式引导和控制模型的预测,让三维重建更具交互性和可控性。

SAM 3D Body的核心是一种名为Meta Momentum Human Rig(MHR)的开源3D网格格式,它将人体的骨骼结构与软组织形状分离,从而提高了模型输出的可解释性。

模型采用Transformer Encoder-Decoder架构,图像编码器能够捕捉身体各部位的高分辨率细节,而网格解码器则支持基于提示的三维网格预测。这种设计让用户不仅能获得精确的三维人体模型,还能在交互中灵活调整和微调结果。

在数据方面,SAM 3D Body研究团队整合了数十亿张图像、多机位高质量视频以及专业合成数据,通过自动化数据引擎筛选出罕见姿势、遮挡或复杂服装等高价值图像,形成约800万张高质量训练样本。

这样的数据策略让模型在面对多样化场景时仍然保持强大的鲁棒性,同时结合基于提示的多步细化训练,使三维预测与二维视觉证据对齐得更加精确。

发布的基准结果显示,SAM 3D Body在多个三维人体基准测试中取得了显著优势,准确性和稳健性均领先于以往模型。


此外,团队还开放了MHR模型,这一参数化人体模型在商业许可下可供使用,使Meta的技术如Codec Avatars等得以落地应用。

SAM 3D Body主要针对单人处理,尚未支持多人或人与物体的交互预测,这限制了对相对位置和物理互动的准确推理。此外,其手部姿势的估计在精确度上仍落后于专门的手部姿势估计方法。

未来,SAM 3D Body计划将人与物体、环境互动纳入训练,同时提升手部姿势重建精度,使模型在真实场景中更全面、更自然。

三、分割灵活性增强,AI深度参与数据构建

如果说SAM 3D系列模型代表着Meta在三维视觉重建领域的首次突破,那么SAM 3对Meta在2D图像分割领域探索的延续。

SAM 3是一款统一模型,能够基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪,其开放性和交互性提升了视觉创作和科学研究的可能性。

通过“可提示概念分割”,SAM 3能够识别更复杂、细微的概念,例如“条纹红伞”或“手中未持礼盒的坐着的人”。

为衡量大词汇量分割性能,Meta同时推出了Segment Anything with Concepts(SA-Co)数据集,这一基准覆盖了远超以往的数据概念,并对图像和视频中的开放式概念分割进行了挑战测试。

SAM 3模型支持多种提示形式,包括文本短语、示例图像以及视觉提示(如掩码、框选点),增强了分割灵活性。

Meta公布的测试结果显示,SAM 3在SA-Co基准上的概念分割性能实现了约100%的提升,在用户偏好测试中,相较最强竞品模型OWLv2,SAM 3的输出更受青睐,比例达到约3:1(SAM 3:OWLv2)。


此外,SAM 3在传统SAM 2的视觉分割任务中也保持领先表现,零样本LVIS和目标计数等挑战性任务同样取得显著进展。

在数据构建方面,SAM 3采用人类与AI协同的数据引擎。这一流程包括使用SAM 3及Llama 3.2v模型自动生成初始分割掩码和标签,再由人类与AI注释者验证和修正。

AI注释者不仅能提升标注速度(负样本快约400%,正样本快约36%),还会自动筛选简单样本,把人力集中于最具挑战的案例。

同时,Meta利用概念本体(基于维基百科的概念字典)扩展数据覆盖范围,使稀有概念也能获得标注支持。


消融实验显示,AI与人类注释结合的策略能显著提升模型性能,同时为新视觉域的自动数据生成提供可行途径。

在模型架构上,SAM 3结合了多项先进技术:文本与图像编码器基于Meta Perception Encoder,检测器采用DETR架构,跟踪组件延续了SAM 2的记忆模块。

通过统一架构处理检测、分割和跟踪任务,SAM 3在处理复杂视觉任务时避免了任务间冲突,同时保持了高性能和高效训练。

SAM 3在某些极端场景下仍有提升空间,例如零样本下识别专业术语(如“血小板”)或处理长复杂文本描述。在视频场景中,SAM 3将每个对象单独处理,使得多对象场景下效率和性能仍可优化。

Meta提供了模型微调方法和工具,鼓励开源社区针对特定任务和视觉域进行适配和扩展。

结语:生成式AI,正改变CV的玩法

生成式AI的崛起,正在反哺上一轮以计算机视觉为核心的AI浪潮。从数据集的打造到模型训练方式创新,生成式AI扩展了CV模型的能力边界,也带来更多的创新玩法。

此外,我们也看到Meta已经在积极地将相关技术用于真实业务,随着数据和用户反馈的积累,SAM和SAM 3D系列模型或将给我们带来更多的惊喜。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

银河史记
2025-11-03 19:31:33
广东全运篮球夺4冠:王浩然34+7率U22男篮登顶 男女篮+U18也夺冠

广东全运篮球夺4冠:王浩然34+7率U22男篮登顶 男女篮+U18也夺冠

醉卧浮生
2025-11-20 22:24:11
河南一男子开奥迪上班,被婚车车队当成头车:后面跟7台奥迪,一下车都懵了,带了一窝

河南一男子开奥迪上班,被婚车车队当成头车:后面跟7台奥迪,一下车都懵了,带了一窝

潇湘晨报
2025-11-20 16:21:23
中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

大国纪录
2025-11-17 09:17:59
夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

精彩分享快乐
2025-11-20 00:05:03
四位前首相齐批!高市早苗成日本政坛“炸雷” | 新京报专栏

四位前首相齐批!高市早苗成日本政坛“炸雷” | 新京报专栏

新京报
2025-11-19 18:03:06
轰炸乌克兰500多次的俄罗斯功勋飞行员丧生,机毁人亡!

轰炸乌克兰500多次的俄罗斯功勋飞行员丧生,机毁人亡!

环球热点快评
2025-11-20 16:56:44
前切尔西球星勒伯夫女儿分享比基尼,丈夫:看了照片我死了

前切尔西球星勒伯夫女儿分享比基尼,丈夫:看了照片我死了

锋哥与八卦哥
2025-10-13 11:32:53
网红橙子姐姐被抓!涉嫌和男友跨境拐卖人口,细节早就可见端倪!

网红橙子姐姐被抓!涉嫌和男友跨境拐卖人口,细节早就可见端倪!

古希腊掌管松饼的神
2025-11-19 16:47:07
这次又被火箭打爆了!骑士还打算让替补锋线留在轮换阵容中吗?

这次又被火箭打爆了!骑士还打算让替补锋线留在轮换阵容中吗?

稻谷与小麦
2025-11-21 00:28:50
场均22+7+4!队史最强新秀!联盟最烂球队终于迎来救世主

场均22+7+4!队史最强新秀!联盟最烂球队终于迎来救世主

阿浪的篮球故事
2025-11-20 16:53:17
谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

小乔古装汉服
2025-11-12 11:46:01
高市早苗拒不道歉,多位日本艺人公开表态,林志玲老公却沉默了

高市早苗拒不道歉,多位日本艺人公开表态,林志玲老公却沉默了

说历史的老牢
2025-11-19 14:47:01
奥地利总统:阿瑙说晋级世界杯这天该是个节?夺冠了可以谈谈

奥地利总统:阿瑙说晋级世界杯这天该是个节?夺冠了可以谈谈

懂球帝
2025-11-20 06:07:04
美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

干史人
2025-10-22 20:10:03
15岁打职业,18岁拿MVP,闪耀欧洲的天才,却在NBA沦为边缘人!

15岁打职业,18岁拿MVP,闪耀欧洲的天才,却在NBA沦为边缘人!

大卫的篮球故事
2025-11-19 09:24:37
蒋介石曾说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

蒋介石曾说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

混沌录
2025-10-26 16:11:11
人类“最惨”的一年是哪一年?公元536年称第二,没人敢称第一!

人类“最惨”的一年是哪一年?公元536年称第二,没人敢称第一!

辉辉历史记
2025-11-05 08:51:15
朱婷接受采访竟被骂,完整内容曝光,事关回归国家队

朱婷接受采访竟被骂,完整内容曝光,事关回归国家队

跑者排球视角
2025-11-19 23:40:41
真香!4号秀成新秀王,场均18+6+3+三分40%,黄蜂啊,终于天亮了

真香!4号秀成新秀王,场均18+6+3+三分40%,黄蜂啊,终于天亮了

球童无忌
2025-11-20 21:12:06
2025-11-21 04:48:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10776文章数 116906关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

日本政府被判赔偿39亿日元

头条要闻

日本政府被判赔偿39亿日元

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

揭秘三体公司原CEO许垚投毒杀人案始末

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

手机
艺术
房产
公开课
军事航空

手机要闻

REDMI产品经理:K90标准版是同档难得很全面的产品

艺术要闻

惊!评委曝光参赛照片致命错误,快来看看!

房产要闻

超95亿!三亚巨量资产,突然甩出!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日本称已向美国出口爱国者导弹

无障碍浏览 进入关怀版