网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

谷歌4D世界模型来了，比SOTA快300倍！

2026-01-23 13:16:51　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：艾伦

【新智元导读】谷歌 DeepMind 发布 D4RT，彻底颠覆了动态 4D 重建范式。它抛弃了复杂的传统流水线，用一个统一的「时空查询」接口，同时搞定全像素追踪、深度估计与相机位姿。不仅精度屠榜，速度更比现有 SOTA 快出 300 倍。这是具身智能与自动驾驶以及 AR 的新基石，AI 终于能像人类一样，实时看懂这个流动的世界。

如果是几年前，你问一位计算机视觉工程师：「我想把这段视频里的所有东西——无论它是静止的房子还是奔跑的狗——都在 3D 世界里重建出来，并且还能随时知道它们下一秒会去哪儿，需要多久？」

他大概会递给你一根烟，让你先去买几块顶级显卡，然后给你画一个由四五个不同模型拼凑起来的流程图：先算光流，再算深度，再估相机位姿，最后还得用一晚上的时间去跑优化，祈祷结果别崩。

但谷歌 DeepMind 刚刚发布的D4RT（Dynamic 4D Reconstruction and Tracking），试图终结这种混乱。

这篇论文在计算机视觉领域扔下了一枚关于「效率革命」的重磅炸弹。

它把原本割裂的 3D 重建、相机追踪、动态物体捕捉，统一成了一个极简的「查询」动作。

更重要的是，它的速度比现有SOTA技术快了 18 到 300 倍。

如果在你的认知里，高质量的 4D 重建还是好莱坞特效工作室里那些昂贵且缓慢的渲染农场，耗费漫长的时间等待生成完毕，那么 D4RT 正在把这种能力变成一种可以塞进机器人大脑甚至 AR 眼镜里的实时直觉。

Demo 演示

为了理解 D4RT 到底做到了什么，我们需要先看一眼它眼中的世界。

在论文展示的演示中，最直观的震撼来自于对「动态混乱」的驾驭能力。

想象一下这个画面：一只天鹅在水面上划过，或者一朵花在风中快速绽放。

传统的 3D 重建算法（比如 MegaSaM 或）处理这种场景通常是一场灾难——因为它们假设世界是静止的，所以它们往往会在 3D 空间里留下一串「重影」，就像老式胶片重叠曝光一样，天鹅变成了长着几十个脖子的怪物，或者花朵直接变成了一团无法辨认的噪点。

但 D4RT 给出的结果极其干净。

它不仅可以精准还原天鹅的 3D 形态，还完美剥离了相机的运动和天鹅自身的运动。

在它的视野里，时间变成了一个可以随意拖动的滑块。

更令人印象深刻的是它的全像素追踪能力。

你可以点击视频中花瓣上的任意一个像素，D4RT 就能画出这个点在过去和未来的完整 3D 轨迹，哪怕这个点在中间几帧被蜜蜂遮挡了，或者跑到了画面之外，模型依然能根据上下文「脑补」出它的去向。

这种视觉效果给人的感觉是：AI 不再是在一帧帧地「看」视频，而是把整段视频吞下去，在大脑里生成了一个完整的、流动的全息全景图，然后你可以随意从任何角度、任何时间去检视它。

模型能力对比图

拆解「神话」

是真的快，还是文字游戏？

科技公司发论文，数据通常都很漂亮。

作为观察者，我们需要剥离 PR 滤镜，看看数据背后的定语。

谷歌声称 D4RT 比之前的 SOTA 快了300 倍，处理一分钟的视频只需要 5 秒钟。

这是真的吗？

答案是：在特定维度上，是真的。

这里的「300倍」指的是吞吐量，具体来说是「在保持相同帧率（FPS）的前提下，模型能同时追踪多少条 3D 轨迹」。

数据对比：在 24 FPS 的标准电影帧率下，之前的强者 SpatialTrackerV2 只能同时追踪84条轨迹，再多就卡了；而 D4RT 可以轻松处理1570条。如果是和 DELTA 这种更慢的模型比，那就是314 倍的差距。

实际意义：这意味着之前的技术可能只能盯着画面里的主角（比如一个人），而 D4RT 可以同时盯着背景里走动的路人、飘落的树叶和远处的车流——即所谓的「全像素级感知」。

它比同类技术强在哪儿？

目前市面上的 4D 重建技术主要分两派：

「拼装派」（如 MegaSaM）：把深度估计、光流、分割等多个现成模型串起来。虽然效果不错，但不仅慢，而且一旦一个环节出错（比如光流飘了），后面全完。

「多头派」（如 VGGT）：虽然是一个大模型，但为了输出不同的任务（深度、位姿、点云），需要挂载不同的解码头，结构臃肿。

D4RT 的牛，在于它做到了架构层面的统一。

它不需要为深度单独做一个解码器，也不需要为位姿单独做一个。

它只用同一个接口解决所有问题。

有没有代价？当然有。

D4RT 的「快」主要体现在推理阶段。

在训练阶段，它依然是一个庞然大物。它的编码器使用了 ViT-g，拥有10 亿参数，并且需要在 64 个 TPU 芯片上训练两天。

这绝不是普通开发者在自家车库里能复现的玩具，它是典型的「大厂重武器」。

技术解码

把 4D 重建变成「搜索引擎」

那么，D4RT 到底是怎么做到的？

论文的核心逻辑可以用一句话概括：先全局「阅读」视频，再按需「搜索」答案。

不再逐帧解码，而是「全局记忆」

传统的视频处理往往是线性的，处理第 10 帧时可能已经「忘」了第 1 帧的细节。

D4RT 的第一步是使用一个巨大的 Transformer 编码器（Encoder），把整段视频压缩成一个全局场景表征（Global Scene Representation, F）。

你可以把这个F想象成 AI 对这段视频形成的「长期记忆」。

一旦这个记忆生成了，原本庞大的视频数据就被浓缩在了这里。

「哪里不会点哪里」的查询机制

这是 D4RT 最天才的设计。它发明了一种通用的查询（Query）语言。

当 AI 想要知道某个像素的信息时，它会向解码器（Decoder）发送一个查询 q：

这个公式翻译成人话就是：

「请告诉我：在这一帧图像上坐标为的那个点，它在这个时间时刻，如果从这个相机的视角看过去，它的 3D 坐标在哪里？」

如果你想生成深度图：就问「现在这个点在现在的相机里多远？」（让）。
如果你想做轨迹追踪：就问「这个点在第 1 帧、第 2 帧……第 N 帧都在哪？」（固定，改变）。
如果你想重建点云：就问「视频里所有点在同一时刻的世界坐标在哪？」（把所有点都映射到同一个）。

并行计算的艺术

因为每一个查询（Query）都是独立的，D4RT 不需要像穿针引线一样按顺序计算。

它可以一次性扔出几万个问题，利用 GPU/TPU 的并行能力同时算出答案。

这就是为什么它能比别人快 300 倍的根本原因：它把一个复杂的串行几何问题，变成了一个大规模并行的搜索问题。

关键的「作弊」技巧：9x9 Patch

论文作者还发现了一个有趣的细节：如果只告诉解码器坐标点，AI 有时候会「脸盲」，分不清纹理相似的区域。

于是，他们在查询时顺便把那个像素点周围9x9的小方块图像（RGB Patch）也喂给了模型。

这就像是你让人在人群中找人，光给个坐标不行，还得给他一张那个人脸部的特写照片。

消融实验证明，这个小小的设计极大地提升了重建的锐度和细节。

产业影响

谷歌的野心与具身智能的眼睛

D4RT 的出现，对谷歌现有的业务版图和未来的 AI 战略有着极强的互补性。

具身智能与自动驾驶的最后一块拼图

现在的机器人之所以笨，很大程度上是因为它们「看不懂」动态环境。

一个扫地机器人能避开沙发，但很难预判一只正在跑过来的猫。

D4RT 提供的实时、密集、动态的 4D 感知，正是机器人急需的技能。

它能让机器人理解：那个东西不仅现在在那里，而且下一秒它会出现在我左边。

对于自动驾驶而言，这种对动态物体（如行人、车辆）的像素级轨迹预测，是提升安全性的关键。

增强现实（AR）的基石

谷歌一直在 AR 领域寻找突破口（从当年的谷歌眼镜，到现在的 Project Astra）。

要在眼镜端实现逼真的 AR，必须要有极低延迟的场景理解。

D4RT 展示的高效推理能力（尤其是在移动端芯片上的潜力），让「实时把虚拟怪兽藏在真实沙发后面」变得在工程上可行。

对普通人的影响

视频编辑的「魔法化」

对于普通用户，这项技术最快落地的场景可能是手机相册和视频编辑软件。

想象一下，你拍了一段孩子踢球的视频。

有了 D4RT，你可以像在《黑客帝国》里一样，在视频播放过程中随意旋转视角（尽管你拍摄时并没有移动），或者轻易地把路人从复杂的背景中「扣」掉，甚至改变视频中光源的方向。

这是 D4RT 这种 4D 重建技术成熟后的应用之一。

结语

D4RT 让我们看到了一种新的可能性：AI 对世界的理解，正在从二维的「图像识别」跨越到四维的「时空洞察」。

它告诉我们，要看清这个流动的世界，关键不在于每一帧都看得多仔细，而在于如何建立一个能够随时回应疑问的全局记忆。

在AI的眼中，过去并没有消逝，未来也不再不可捉摸，它们只是同一个四维坐标系里，等待被查询的两个不同参数而已。

参考资料：

https://d4rt-paper.github.io/

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

光轮智能与谷歌、英伟达共同定义物理AI仿真标准

机器之心Pro 2026-05-12 20:21:07
0 跟贴 0
LiveWorld：视频世界模型新范式，让镜头之外的世界继续演化

机器之心Pro 2026-06-30 16:13:43
0 跟贴 0

100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
0 跟贴 0

GPT-5.6开放，跑分之外的隐忧：Anthropic反超、微软去OpenAI化

钛媒体APP 2026-07-11 08:11:06
27 跟贴 27
API账单“高过全员工资”，海外企业加速拥抱中国大模型；SK海力士美股首秀大涨近13%；苹果起诉OpenAI窃取商业机密 | 一周国际财经

每日经济新闻 2026-07-11 12:27:24
0 跟贴 0

一文速通「机器人3D场景表示」发展史

机器之心Pro 2026-01-23 13:01:05
0 跟贴 0

十万卡AI集群落成背后：大模型时代的大工程

经济观察报 2026-07-10 18:08:24
0 跟贴 0
Holi-Spatial打造400万级空间多模态数据集

机器之心Pro 2026-06-18 20:10:45
0 跟贴 0

AI是怎样“想”出答案的？Anthropic找到了线索

DeepTech深科技 2026-07-11 21:28:58
0 跟贴 0
一套底层基座撬动两大市场 GoodDeed发布全域一体化智能体技术体系

每日经济新闻 2026-07-11 20:22:09
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
索尼RX10 V发布：2299美元拿下24-600mm全能机

硅屿手记 2026-07-11 01:19:52
1 跟贴 1
客户：我就是不会机器视觉，否则这个项目我就自己做了！

程序员古耕 2026-07-11 16:34:09
0 跟贴 0
高玩整大活！用GB掌机口袋相机拍摄现实木星景象

3DM游戏 2026-07-11 09:32:05
1 跟贴 1
新品 | 小米澎程 SUV 定名 N90；尼康新机曝光

科技狐 2026-07-11 02:39:56
0 跟贴 0
谷歌Gemma 4论文深夜解封！31B直逼闭源前沿，敲响云端AI丧钟

新智元 2026-07-11 12:47:33
21 跟贴 21
华为天才少年创业，全球首个虚实融合的实时交互视频模型来了

机器之心Pro 2026-02-09 10:21:10
1 跟贴 1
机器之心逛谷歌，分享最热的Self-Improving

机器之心Pro 2026-06-16 12:45:36
0 跟贴 0
他做出爆火的谷歌CLI工具转头却被开除了

量子位 2026-06-28 18:42:01
0 跟贴 0
Claude design限速，谷歌开源轻松做动态网页，实力打脸？

机器之心Pro 2026-04-29 17:20:04
0 跟贴 0
平民三巨头平替Fable 5！性能追平，成本砍半

量子位 2026-06-21 09:58:58
0 跟贴 0
「小鹏汽车」招招招人啦！交通补贴&每日餐补！

实习僧 2026-07-10 17:28:27
0 跟贴 0
Claude出了个「防沉迷」，却可能让你更离不开它

新智元 2026-07-11 18:07:30
0 跟贴 0
驯服垄断“大象”的天才——梯若尔谷歌、苹果、亚马逊这些巨头该不该管？怎么管？

余丰慧 2026-07-07 05:55:00
0 跟贴 0
参加数学考试的印度学生，用指心算法答题，网友：还以为作法呢

知趣神秘人 2026-07-10 10:43:55
29 跟贴 29
Sony Expo连续第三年登陆BW，用AR、体感与IP构建“娱悦奇旅”

观潮志科技 2026-07-10 22:30:30
0 跟贴 0
河南瓜农含泪发声，2200斤西瓜，瓜贩只愿给20元

点时新闻 2026-07-11 13:11:03
269 跟贴 269
「龙虾之父」吐槽人类互联网后，终于有人把这当个事儿办了

机器之心Pro 2026-03-31 11:09:26
0 跟贴 0
人眼的像素有限，为何看东西却没有照片的颗粒感？

天下十三洲猎奇 2026-07-11 11:23:13
0 跟贴 0
男子给乌龟装上小型相机展示出动物的夏天视角

锐眼新闻 2026-07-11 13:31:10
0 跟贴 0
一篇讲清楚体育场摄影装备怎么选！

小租谈数码 2026-07-11 16:19:38
0 跟贴 0
FIRST竞赛短片入围｜命运是条河流我就顺着走

导筒directube 2026-07-11 22:50:07
0 跟贴 0
韩网热议：DeepSeek的意义远不止AI！韩国网友：这是彻底的打脸

房车影视 2026-07-10 12:23:28
1 跟贴 1
河南老君山月薪6万招人每天看云海，需在山顶住30天，每天至少发一条短视频，景区：咨询报名者众多，全国仅选一人

极目新闻 2026-07-08 14:01:25
7508 跟贴 7508
推理芯片又火了，但这个市场不会出现另一个英伟达

DeepTech深科技 2026-07-11 21:17:57
0 跟贴 0
索尼放弃实体盘其实早在PS3时代就已埋下伏笔

3DM游戏 2026-07-11 21:39:06
0 跟贴 0
94岁爷爷和86岁奶奶领证两人在儿女支持下成为合法夫妻

北青网-北京青年报 2026-07-11 02:42:04
75 跟贴 75
又一行业龙头进军AI眼镜，高通+国产双芯方案，“XR盒子”帮眼镜“养虾”

智东西 2026-07-09 17:42:59
0 跟贴 0

火箭夏联首战完胜掘金，新科次轮状元的表现基本达到了大家的预期？

火箭夏联首战完胜掘金，新科次轮状元的表现基本达到了大家的预期？

稻谷与小麦

2026-07-10 23:56:59

最强规律！世界杯历史22冠主帅均来自本国，本届仅图赫尔有望打破

最强规律！世界杯历史22冠主帅均来自本国，本届仅图赫尔有望打破

画夕

2026-07-11 12:56:05

钻石联赛四连冠第一人诞生！严子怡68米75绝杀，刷新生涯第二佳绩

钻石联赛四连冠第一人诞生！严子怡68米75绝杀，刷新生涯第二佳绩

阿讯说天下

2026-07-11 10:40:06

周星驰电影《功夫女足》首日票房破2亿遭知名主持人林海吐槽：好难看

周星驰电影《功夫女足》首日票房破2亿遭知名主持人林海吐槽：好难看

快科技

2026-07-11 21:29:04

被逼看下体仅是皮毛！鹿晗风波持续发酵，关晓彤越扒越让人心疼！

被逼看下体仅是皮毛！鹿晗风波持续发酵，关晓彤越扒越让人心疼！

王楔晓

2026-07-10 11:38:01

新加坡大使：不管中国愿不愿意，全世界把中国和美国放在同层级了

新加坡大使：不管中国愿不愿意，全世界把中国和美国放在同层级了

福建睿平

2026-07-10 06:07:57

资产27亿的哈兰德，从小是单亲母亲带大，父亲再婚娶跨栏运动员

资产27亿的哈兰德，从小是单亲母亲带大，父亲再婚娶跨栏运动员

全球时尚号

2026-07-07 18:55:25

查尔斯三世“秘密接待”哈里的俩娃，祖孙时隔四年重逢，梅根也在场

查尔斯三世“秘密接待”哈里的俩娃，祖孙时隔四年重逢，梅根也在场

译言

2026-07-11 07:00:28

演员矢野浩二为广西捐款，称中国是自己第二个故乡

演员矢野浩二为广西捐款，称中国是自己第二个故乡

映射生活的身影

2026-07-09 09:09:14

陈思诚阮巨畅游土耳其!亲昵依偎怀中合影,相恋四年越看越有夫妻相

陈思诚阮巨畅游土耳其!亲昵依偎怀中合影,相恋四年越看越有夫妻相

瞎说娱乐

2026-07-11 15:27:03

3队8人重磅交易！欧文重返骑士，哈登联手字母哥？独行侠又成输家

3队8人重磅交易！欧文重返骑士，哈登联手字母哥？独行侠又成输家

小七说篮球

2026-07-11 11:41:59

27+3+3，次轮哥数据比肩状元，火箭捡到宝了！

27+3+3，次轮哥数据比肩状元，火箭捡到宝了！

体育新角度

2026-07-11 20:10:51

台风“巴威”登陆在即：13日白天将经过江苏西北部地区，江苏12日夜里至14日上午将迎最强降雨；南通、苏州已监测到陆上最大风力7级

台风“巴威”登陆在即：13日白天将经过江苏西北部地区，江苏12日夜里至14日上午将迎最强降雨；南通、苏州已监测到陆上最大风力7级

鲁中晨报

2026-07-11 21:36:08

“出卖”华为的汇丰，背后的第一大股东是谁？说出来你可能不信

“出卖”华为的汇丰，背后的第一大股东是谁？说出来你可能不信

阿器谈史

2026-07-05 15:33:40

国色天香王楚然：清水芙蓉，倾国倾城。人间绝色，美不胜收！

国色天香王楚然：清水芙蓉，倾国倾城。人间绝色，美不胜收！

十为先生

2026-07-11 19:50:07

726万人观看、2.56亿票房，周星驰一出手就是中国电影的天花板

726万人观看、2.56亿票房，周星驰一出手就是中国电影的天花板

晴晴的娱乐日记

2026-07-11 22:55:30

裤衩开叉10厘米！被网暴5年！铁三女神夺亚军又被骂，裁判：合规

裤衩开叉10厘米！被网暴5年！铁三女神夺亚军又被骂，裁判：合规

番外行

2026-06-07 15:53:29

明日9点！世界杯4强全部产生，黑马挪威战夺冠热门，阿根廷反围剿

明日9点！世界杯4强全部产生，黑马挪威战夺冠热门，阿根廷反围剿

民间马后炮

2026-07-11 12:45:41

高市彻底慌了！美军爆猛料：与华开战必引大规模灾难，日本受不起

高市彻底慌了！美军爆猛料：与华开战必引大规模灾难，日本受不起

风笛悠扬声

2026-07-11 07:35:55

如果英格兰队赢得世界杯，英足总将给球员和工作人员1.7亿元奖金，FIFA将奖励冠军5000万美元

如果英格兰队赢得世界杯，英足总将给球员和工作人员1.7亿元奖金，FIFA将奖励冠军5000万美元

红星新闻

2026-07-11 09:00:21

AI产业主平台领航智能+时代

15666文章数 66950关注度

往期回顾全部

科技要闻

苹果起诉OpenAI系统性窃密，挖超400前员工

头条要闻

老村干部被洪水卷走遇难:31年前监工建的学校屹立未倒

头条要闻

老村干部被洪水卷走遇难:31年前监工建的学校屹立未倒

体育要闻

燃尽的比利时黄金一代，逃不过厄运诅咒

娱乐要闻

周星驰官宣星女郎纯素人无拍戏经验

财经要闻

一封举报信引发小红书IPO合规考验

汽车要闻

预售权益价11.78万起五菱星光L将于7月16日上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

教育

手机

时尚

游戏

房产要闻

重磅学校规划曝光！西海岸教育，正强得可怕！

教育要闻

649分考生放弃985选择徐医大定向医学？世界的尽头是编制！

手机要闻

手机厂商Ultra超大杯激活量曝光：iQOO、小米、vivo超20万台

回购多年|| 每年这个时候都要用，终于被我蹲到“抄底价”

任天堂平台独占JRPG新作！《白猫计划》正式公布

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版