网易首页 > 网易号 > 正文 申请入驻

谷歌4D世界模型来了,比SOTA快300倍!

0
分享至


新智元报道

编辑:艾伦

【新智元导读】谷歌 DeepMind 发布 D4RT,彻底颠覆了动态 4D 重建范式。它抛弃了复杂的传统流水线,用一个统一的「时空查询」接口,同时搞定全像素追踪、深度估计与相机位姿。不仅精度屠榜,速度更比现有 SOTA 快出 300 倍。这是具身智能与自动驾驶以及 AR 的新基石,AI 终于能像人类一样,实时看懂这个流动的世界。

如果是几年前,你问一位计算机视觉工程师:「我想把这段视频里的所有东西——无论它是静止的房子还是奔跑的狗——都在 3D 世界里重建出来,并且还能随时知道它们下一秒会去哪儿,需要多久?」

他大概会递给你一根烟,让你先去买几块顶级显卡,然后给你画一个由四五个不同模型拼凑起来的流程图:先算光流,再算深度,再估相机位姿,最后还得用一晚上的时间去跑优化,祈祷结果别崩。

但谷歌 DeepMind 刚刚发布的D4RT(Dynamic 4D Reconstruction and Tracking),试图终结这种混乱。


这篇论文在计算机视觉领域扔下了一枚关于「效率革命」的重磅炸弹。

它把原本割裂的 3D 重建、相机追踪、动态物体捕捉,统一成了一个极简的「查询」动作。


更重要的是,它的速度比现有SOTA技术快了 18 到 300 倍


如果在你的认知里,高质量的 4D 重建还是好莱坞特效工作室里那些昂贵且缓慢的渲染农场,耗费漫长的时间等待生成完毕,那么 D4RT 正在把这种能力变成一种可以塞进机器人大脑甚至 AR 眼镜里的实时直觉。

Demo 演示

为了理解 D4RT 到底做到了什么,我们需要先看一眼它眼中的世界。

在论文展示的演示中,最直观的震撼来自于对「动态混乱」的驾驭能力。

想象一下这个画面:一只天鹅在水面上划过,或者一朵花在风中快速绽放。

传统的 3D 重建算法(比如 MegaSaM 或 )处理这种场景通常是一场灾难——因为它们假设世界是静止的,所以它们往往会在 3D 空间里留下一串「重影」,就像老式胶片重叠曝光一样,天鹅变成了长着几十个脖子的怪物,或者花朵直接变成了一团无法辨认的噪点。

但 D4RT 给出的结果极其干净。

它不仅可以精准还原天鹅的 3D 形态,还完美剥离了相机的运动和天鹅自身的运动。

在它的视野里,时间变成了一个可以随意拖动的滑块。


更令人印象深刻的是它的全像素追踪能力。

你可以点击视频中花瓣上的任意一个像素,D4RT 就能画出这个点在过去和未来的完整 3D 轨迹,哪怕这个点在中间几帧被蜜蜂遮挡了,或者跑到了画面之外,模型依然能根据上下文「脑补」出它的去向。


这种视觉效果给人的感觉是:AI 不再是在一帧帧地「看」视频,而是把整段视频吞下去,在大脑里生成了一个完整的、流动的全息全景图,然后你可以随意从任何角度、任何时间去检视它。


模型能力对比图

拆解「神话」

是真的快,还是文字游戏?

科技公司发论文,数据通常都很漂亮。

作为观察者,我们需要剥离 PR 滤镜,看看数据背后的定语。

谷歌声称 D4RT 比之前的 SOTA 快了300 倍,处理一分钟的视频只需要 5 秒钟。

这是真的吗?

答案是:在特定维度上,是真的。

这里的「300倍」指的是吞吐量,具体来说是「在保持相同帧率(FPS)的前提下,模型能同时追踪多少条 3D 轨迹」。

  • 数据对比:在 24 FPS 的标准电影帧率下,之前的强者 SpatialTrackerV2 只能同时追踪84条轨迹,再多就卡了;而 D4RT 可以轻松处理1570条。如果是和 DELTA 这种更慢的模型比,那就是314 倍的差距。


  • 实际意义:这意味着之前的技术可能只能盯着画面里的主角(比如一个人),而 D4RT 可以同时盯着背景里走动的路人、飘落的树叶和远处的车流——即所谓的「全像素级感知」。

它比同类技术强在哪儿?

目前市面上的 4D 重建技术主要分两派:

  1. 「拼装派」(如 MegaSaM):把深度估计、光流、分割等多个现成模型串起来。虽然效果不错,但不仅慢,而且一旦一个环节出错(比如光流飘了),后面全完。

  1. 「多头派」(如 VGGT):虽然是一个大模型,但为了输出不同的任务(深度、位姿、点云),需要挂载不同的解码头,结构臃肿。

D4RT 的牛,在于它做到了架构层面的统一

它不需要为深度单独做一个解码器,也不需要为位姿单独做一个。

它只用同一个接口解决所有问题。


有没有代价?当然有。

D4RT 的「快」主要体现在推理阶段。

在训练阶段,它依然是一个庞然大物。它的编码器使用了 ViT-g,拥有10 亿参数,并且需要在 64 个 TPU 芯片上训练两天。

这绝不是普通开发者在自家车库里能复现的玩具,它是典型的「大厂重武器」。

技术解码

把 4D 重建变成「搜索引擎」

那么,D4RT 到底是怎么做到的?

论文的核心逻辑可以用一句话概括:先全局「阅读」视频,再按需「搜索」答案。

不再逐帧解码,而是「全局记忆」

传统的视频处理往往是线性的,处理第 10 帧时可能已经「忘」了第 1 帧的细节。

D4RT 的第一步是使用一个巨大的 Transformer 编码器(Encoder),把整段视频压缩成一个全局场景表征(Global Scene Representation, F)

你可以把这个F想象成 AI 对这段视频形成的「长期记忆」。

一旦这个记忆生成了,原本庞大的视频数据就被浓缩在了这里。

「哪里不会点哪里」的查询机制

这是 D4RT 最天才的设计。它发明了一种通用的查询(Query)语言。

当 AI 想要知道某个像素的信息时,它会向解码器(Decoder)发送一个查询 q:

这个公式翻译成人话就是:

请告诉我:在这一帧图像上坐标为的那个点,它在这个时间时刻,如果从这个相机的视角看过去,它的 3D 坐标在哪里?」

  • 如果你想生成深度图:就问「现在这个点在现在的相机里多远?」(让 )。

  • 如果你想做轨迹追踪:就问「这个点在第 1 帧、第 2 帧……第 N 帧都在哪?」(固定 ,改变 )。


  • 如果你想重建点云:就问「视频里所有点在同一时刻的世界坐标在哪?」(把所有点都映射到同一个 )。



并行计算的艺术

因为每一个查询(Query)都是独立的,D4RT 不需要像穿针引线一样按顺序计算。

它可以一次性扔出几万个问题,利用 GPU/TPU 的并行能力同时算出答案。

这就是为什么它能比别人快 300 倍的根本原因:它把一个复杂的串行几何问题,变成了一个大规模并行的搜索问题。

关键的「作弊」技巧:9x9 Patch

论文作者还发现了一个有趣的细节:如果只告诉解码器坐标点,AI 有时候会「脸盲」,分不清纹理相似的区域。

于是,他们在查询时顺便把那个像素点周围9x9的小方块图像(RGB Patch)也喂给了模型。


这就像是你让人在人群中找人,光给个坐标不行,还得给他一张那个人脸部的特写照片。

消融实验证明,这个小小的设计极大地提升了重建的锐度和细节。


产业影响

谷歌的野心与具身智能的眼睛

D4RT 的出现,对谷歌现有的业务版图和未来的 AI 战略有着极强的互补性。

具身智能与自动驾驶的最后一块拼图

现在的机器人之所以笨,很大程度上是因为它们「看不懂」动态环境。

一个扫地机器人能避开沙发,但很难预判一只正在跑过来的猫。

D4RT 提供的实时、密集、动态的 4D 感知,正是机器人急需的技能。

它能让机器人理解:那个东西不仅现在在那里,而且下一秒它会出现在我左边。

对于自动驾驶而言,这种对动态物体(如行人、车辆)的像素级轨迹预测,是提升安全性的关键。

增强现实(AR)的基石

谷歌一直在 AR 领域寻找突破口(从当年的谷歌眼镜,到现在的 Project Astra)。

要在眼镜端实现逼真的 AR,必须要有极低延迟的场景理解。

D4RT 展示的高效推理能力(尤其是在移动端芯片上的潜力),让「实时把虚拟怪兽藏在真实沙发后面」变得在工程上可行。

对普通人的影响

视频编辑的「魔法化」

对于普通用户,这项技术最快落地的场景可能是手机相册和视频编辑软件。

想象一下,你拍了一段孩子踢球的视频。

有了 D4RT,你可以像在《黑客帝国》里一样,在视频播放过程中随意旋转视角(尽管你拍摄时并没有移动),或者轻易地把路人从复杂的背景中「扣」掉,甚至改变视频中光源的方向。

这是 D4RT 这种 4D 重建技术成熟后的应用之一。

结语

D4RT 让我们看到了一种新的可能性:AI 对世界的理解,正在从二维的「图像识别」跨越到四维的「时空洞察」。

它告诉我们,要看清这个流动的世界,关键不在于每一帧都看得多仔细,而在于如何建立一个能够随时回应疑问的全局记忆。

AI的眼中,过去并没有消逝,未来也不再不可捉摸,它们只是同一个四维坐标系里,等待被查询的两个不同参数而已。

参考资料:

https://d4rt-paper.github.io/

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德约:梅西向我请教网球建议,我说等我退役吧否则我打不过你

德约:梅西向我请教网球建议,我说等我退役吧否则我打不过你

懂球帝
2026-01-23 12:19:25
演员王传君发文宣布退出

演员王传君发文宣布退出

乔话
2026-01-22 17:43:06
恒大背后的香港大佬们,到底从恒大身上赚了多少钱?

恒大背后的香港大佬们,到底从恒大身上赚了多少钱?

担扑
2026-01-23 13:19:54
32岁程序员猝死,涉事公司回应

32岁程序员猝死,涉事公司回应

澎湃新闻
2026-01-23 16:15:03
兰州铁路局职工称休年假被扣薪,相关负责人:扣的是绩效;被扣部分能追回吗?律师说法

兰州铁路局职工称休年假被扣薪,相关负责人:扣的是绩效;被扣部分能追回吗?律师说法

大风新闻
2026-01-23 12:30:03
口碑反转!王菲没想到,负债累累的李亚鹏,如今却让自己“难堪”

口碑反转!王菲没想到,负债累累的李亚鹏,如今却让自己“难堪”

白面书誏
2026-01-19 17:22:22
百感交集!李亚鹏一件衣服上有两个破洞,让无数网友集体破防了

百感交集!李亚鹏一件衣服上有两个破洞,让无数网友集体破防了

小李睡不醒了
2026-01-23 07:43:40
川普似乎要在最高法院碰壁

川普似乎要在最高法院碰壁

寰宇大观察
2026-01-22 17:35:14
32岁程序员周末晕倒后猝死 视源股份人士:已向人力资源和社会保障部门提交资料,在等结果

32岁程序员周末晕倒后猝死 视源股份人士:已向人力资源和社会保障部门提交资料,在等结果

每日经济新闻
2026-01-22 22:43:05
熬夜鱼?广济桥赤眼鱼大爆发,密集铺满水面,网友:鱼生天花板!

熬夜鱼?广济桥赤眼鱼大爆发,密集铺满水面,网友:鱼生天花板!

狸猫之一的动物圈
2026-01-23 09:00:14
56小时内,16架运20直飞伊朗,有史以来最大规模,外媒选错剧本?

56小时内,16架运20直飞伊朗,有史以来最大规模,外媒选错剧本?

三农老历
2026-01-20 18:53:49
亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

安珈使者啊
2026-01-15 14:32:17
中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

史之铭
2026-01-18 17:31:05
初中和高中各科的区别:初中数学若觉得难,到高中想及格都费劲!

初中和高中各科的区别:初中数学若觉得难,到高中想及格都费劲!

好爸育儿
2026-01-23 17:24:30
阿诺德皇马生涯凉透?被下逐客令,回归利物浦成唯一退路?

阿诺德皇马生涯凉透?被下逐客令,回归利物浦成唯一退路?

澜归序
2026-01-23 06:38:49
长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

银河史记
2026-01-23 15:36:04
中骏集团项目执行经理坠亡

中骏集团项目执行经理坠亡

地产微资讯
2026-01-22 18:54:24
越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

磊子讲史
2026-01-21 12:01:14
美方称允许中国购买委内瑞拉石油,外交部:委有权自主选择合作伙伴

美方称允许中国购买委内瑞拉石油,外交部:委有权自主选择合作伙伴

澎湃新闻
2026-01-23 15:54:05
你见过农村最严重的攀比是什么样的?网友:受骗都要比谁被骗更多

你见过农村最严重的攀比是什么样的?网友:受骗都要比谁被骗更多

夜深爱杂谈
2026-01-23 18:08:46
2026-01-23 18:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14392文章数 66525关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

走失被找回女硕士曾遭两村民强奸:一人还曾猥亵她女儿

头条要闻

走失被找回女硕士曾遭两村民强奸:一人还曾猥亵她女儿

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

教育
健康
手机
本地
公开课

教育要闻

我国最低调的6所大学,学生容易拿到铁饭碗!500分左右就能上!

耳石脱落为何让人天旋地转+恶心?

手机要闻

曝20周年iPhone依然是居中灵动岛,真全面屏iPhone或2030年登场

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版