网易首页 > 网易号 > 正文 申请入驻

谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

单Transformer搞定任意视图3D重建!

这是字节Seed康炳易团队带来的最新研究成果Depth Anything 3(下称DA3),获谢赛宁盛赞。



架构足够简单,核心能力却不差。能从一张图、一组多视角照片甚至一段随手拍的视频里,精准算出物体深度、还原相机位置,不仅能拼出完整3D场景,还能脑补出没拍过的新视角图像。



而且,它在团队全新打造的视觉几何基准上横扫所有任务,相机定位精度平均提升35.7%,几何重建准确率涨了23.6%,单目深度估计还超越了自家前代DA2。



以前的3D视觉模型,想做单图深度估计?得单独训练一个模型;想搞多视角3D重建?又要换一套架构。

就连算个相机位置都得搭专属模块,不仅开发成本高,还没法充分利用大规模预训练模型的优势,数据依赖也很严重。



还有就是这些模型往往“术业有专攻”,那DA3的单一极简操作究竟是怎样的呢?

极简设计也能打

核心秘诀就两点:一是只用一个普通的视觉Transformer当基础;二是预测目标只抓深度光线两个核心。



从架构图上可以看出来,DA3的任务流程可分为四大环节。

首先是输入处理,多视角图像会被送入Image Patch Embed模块转化为特征块,同时若有相机参数则通过编码器,没有则用可学习的相机token替代,最终图像特征与相机信息特征拼接融合。

中间的Single Transformer (Vanilla DINO)是模型的核心大脑。它是基于预训练的DINO视觉Transformer,通过Within-view self attn单视角自注意力、Cross-view self attn跨视角自注意力两种注意力机制,让模型能在单图、多图、视频等不同输入形式下,自动打通视角间的信息关联。

之后,Transformer输出的特征被送入Dual DPRT Head两个任务头,一方面输出深度图,另一方面输出光线参数,同时完成深度和光线两个核心预测。

此外,还会从特征中提取相机姿态信息,确保相机轨迹精准。



在训练环节上,DA3采用了师生蒸馏策略。用一个性能更优的教师模型从海量数据中提炼高质量伪标签,再用这套标准答案引导学生模型(即DA3)学习。

这种方式既能充分利用多样化数据,又能降低对高精度标注数据的依赖,让模型在训练阶段就能覆盖更多场景。

字节团队还专门搭了个全新的视觉几何基准,整合了5个覆盖室内、室外、物体级的数据集,从相机定位、3D重建到新视角生成,全方位考验模型实力。



评测结果就是DA3全程能打。给一段视频,它能精准估计每帧的相机内参与外参,还原每帧相机的运动轨迹;



将其输出的深度图与相机位置结合,能生成密度更高、噪声更低的3D点云,比传统方法的点云质量提升明显;



甚至给几张同一场景的散图,它也能通过视角补全,生成未拍摄角度的图像,这在虚拟漫游、数字孪生等场景中潜力不小。

团队介绍

Depth Anything 3项目的带队人是字节跳动95后研究科学家康炳易。他的研究兴趣为计算机视觉、多模态模型,致力于开发能从各种观察中获取知识并与物理世界交互的智能体。



2016年,他在浙大完成本科学业,后在加州伯克利和新国立(师从冯佳时)攻读人工智能专业硕博。

读博期间,他曾在Facebook AI Research实习,与谢赛宁、马库斯等人有过合作。

康炳易领导开发Depth Anything系列,之前还被收入苹果CoreML库中。

论文地址:https://arxiv.org/abs/2511.10647
[1]https://x.com/bingyikang/status/1989358267668336841
[2]https://x.com/sainingxie/status/1989423686882136498

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解晓东,经抢救无效去世!

解晓东,经抢救无效去世!

华人星光
2025-11-16 13:19:17
毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

鹤羽说个事
2025-10-30 15:53:46
乌克兰隐身导弹无人机惊艳首秀,俄罗斯国内大规模断网

乌克兰隐身导弹无人机惊艳首秀,俄罗斯国内大规模断网

史政先锋
2025-11-17 20:53:35
3客1主!火箭队迎艰难赛程!7天对阵4劲旅,若表现不佳或迎4连败

3客1主!火箭队迎艰难赛程!7天对阵4劲旅,若表现不佳或迎4连败

熊哥爱篮球
2025-11-18 12:33:55
单反时代谢幕!双十一销冠仅卖100台,万元镜头白菜价

单反时代谢幕!双十一销冠仅卖100台,万元镜头白菜价

商悟社
2025-11-15 23:03:04
国足曝猛料,国脚大鱼曝光,单场涉及35万,父亲也是国脚

国足曝猛料,国脚大鱼曝光,单场涉及35万,父亲也是国脚

乐聊球
2025-11-17 14:09:46
利物浦不会用?1.36亿水货世预赛变球王!2送开天眼助攻,获9.3分

利物浦不会用?1.36亿水货世预赛变球王!2送开天眼助攻,获9.3分

我爱英超
2025-11-18 06:23:10
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
韩国队爆冷垫底,主帅下课,助中国队夺冠

韩国队爆冷垫底,主帅下课,助中国队夺冠

精彩不容错过
2025-11-18 08:16:33
日本专家:投降不是因为美国的原子弹,而是因为苏联发的1个公告

日本专家:投降不是因为美国的原子弹,而是因为苏联发的1个公告

寻途
2025-11-12 18:54:46
一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

文史旺旺旺
2025-11-14 20:30:09
“买得起,用不起”,如果不是很有钱,劝你别买这5种电器

“买得起,用不起”,如果不是很有钱,劝你别买这5种电器

巢客HOME
2025-11-13 08:35:03
小天才电话手表惊爆“大瓜”:孩子的孤独,正在被偷偷卖钱…

小天才电话手表惊爆“大瓜”:孩子的孤独,正在被偷偷卖钱…

妈咪OK
2025-11-17 15:43:33
明明家世显赫,却偏走体育这条路,这三位世界冠军竟是体坛富二代

明明家世显赫,却偏走体育这条路,这三位世界冠军竟是体坛富二代

千言娱乐记
2025-10-08 18:56:32
80后已经有1100万人提前下车了。

80后已经有1100万人提前下车了。

爱吃糖的猫cat
2025-11-16 18:27:38
鸡肋家电横行,这7种收割中产,连“穷鬼”也不放过,全是智商税

鸡肋家电横行,这7种收割中产,连“穷鬼”也不放过,全是智商税

室内设计师有料儿
2025-11-14 21:32:02
敢抗议中国巡航钓鱼岛?中方五道利剑落下,高市要让日本万劫不复

敢抗议中国巡航钓鱼岛?中方五道利剑落下,高市要让日本万劫不复

乐天闲聊
2025-11-18 14:21:47
怪不得特朗普拼命的遮掩,这人说,发现了数千小时的卧室录像带!

怪不得特朗普拼命的遮掩,这人说,发现了数千小时的卧室录像带!

听风听你
2025-11-17 20:45:02
乌军能否守住红军城?不能!

乌军能否守住红军城?不能!

史政先锋
2025-11-17 16:09:20
我再婚过两次才发现:晚年单身时,请保姆养老比再婚找老伴更舒心

我再婚过两次才发现:晚年单身时,请保姆养老比再婚找老伴更舒心

小马达情感故事
2025-11-15 18:55:03
2025-11-18 15:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
11699文章数 176332关注度
往期回顾 全部

科技要闻

OPPO Reno15系列深评:实况封神+颜值暴击

头条要闻

高市早苗很叛逆:骑摩托玩摇滚 赢猜拳让老公跟自己姓

头条要闻

高市早苗很叛逆:骑摩托玩摇滚 赢猜拳让老公跟自己姓

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

游戏
家居
数码
本地
公开课

《筑城记:中世纪》2026年1月推出 好评城市建造

家居要闻

彰显奢华 意式经典风格

数码要闻

三星DDR5-5600 16GB内存韩国价格在三个月内暴涨3倍+

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版