网易首页 > 网易号 > 正文 申请入驻

彻底颠覆!谷歌4D世界模型来了,比SOTA快300倍!

0
分享至


来源:新智元

【导读】谷歌 DeepMind 发布 D4RT,彻底颠覆了动态 4D 重建范式。它抛弃了复杂的传统流水线,用一个统一的「时空查询」接口,同时搞定全像素追踪、深度估计与相机位姿。不仅精度屠榜,速度更比现有 SOTA 快出 300 倍。这是具身智能与自动驾驶以及 AR 的新基石,AI 终于能像人类一样,实时看懂这个流动的世界。

如果是几年前,你问一位计算机视觉工程师:「我想把这段视频里的所有东西——无论它是静止的房子还是奔跑的狗——都在 3D 世界里重建出来,并且还能随时知道它们下一秒会去哪儿,需要多久?」

他大概会递给你一根烟,让你先去买几块顶级显卡,然后给你画一个由四五个不同模型拼凑起来的流程图:先算光流,再算深度,再估相机位姿,最后还得用一晚上的时间去跑优化,祈祷结果别崩。

但谷歌 DeepMind 刚刚发布的D4RT(Dynamic 4D Reconstruction and Tracking),试图终结这种混乱。


这篇论文在计算机视觉领域扔下了一枚关于「效率革命」的重磅炸弹。

它把原本割裂的 3D 重建、相机追踪、动态物体捕捉,统一成了一个极简的「查询」动作。


更重要的是,它的速度比现有SOTA技术快了 18 到 300 倍


如果在你的认知里,高质量的 4D 重建还是好莱坞特效工作室里那些昂贵且缓慢的渲染农场,耗费漫长的时间等待生成完毕,那么 D4RT 正在把这种能力变成一种可以塞进机器人大脑甚至 AR 眼镜里的实时直觉。

Demo 演示

为了理解 D4RT 到底做到了什么,我们需要先看一眼它眼中的世界。

在论文展示的演示中,最直观的震撼来自于对「动态混乱」的驾驭能力。

想象一下这个画面:一只天鹅在水面上划过,或者一朵花在风中快速绽放。

传统的 3D 重建算法(比如 MegaSaM 或 )处理这种场景通常是一场灾难——因为它们假设世界是静止的,所以它们往往会在 3D 空间里留下一串「重影」,就像老式胶片重叠曝光一样,天鹅变成了长着几十个脖子的怪物,或者花朵直接变成了一团无法辨认的噪点。

但 D4RT 给出的结果极其干净。

它不仅可以精准还原天鹅的 3D 形态,还完美剥离了相机的运动和天鹅自身的运动。

在它的视野里,时间变成了一个可以随意拖动的滑块。


更令人印象深刻的是它的全像素追踪能力。

你可以点击视频中花瓣上的任意一个像素,D4RT 就能画出这个点在过去和未来的完整 3D 轨迹,哪怕这个点在中间几帧被蜜蜂遮挡了,或者跑到了画面之外,模型依然能根据上下文「脑补」出它的去向。


这种视觉效果给人的感觉是:AI 不再是在一帧帧地「看」视频,而是把整段视频吞下去,在大脑里生成了一个完整的、流动的全息全景图,然后你可以随意从任何角度、任何时间去检视它。


模型能力对比图

拆解「神话」

是真的快,还是文字游戏?

科技公司发论文,数据通常都很漂亮。

作为观察者,我们需要剥离 PR 滤镜,看看数据背后的定语。

谷歌声称 D4RT 比之前的 SOTA 快了300 倍,处理一分钟的视频只需要 5 秒钟。

这是真的吗?

答案是:在特定维度上,是真的。

这里的「300倍」指的是吞吐量,具体来说是「在保持相同帧率(FPS)的前提下,模型能同时追踪多少条 3D 轨迹」。

  • 数据对比:在 24 FPS 的标准电影帧率下,之前的强者 SpatialTrackerV2 只能同时追踪84条轨迹,再多就卡了;而 D4RT 可以轻松处理1570条。如果是和 DELTA 这种更慢的模型比,那就是314 倍的差距。


  • 实际意义:这意味着之前的技术可能只能盯着画面里的主角(比如一个人),而 D4RT 可以同时盯着背景里走动的路人、飘落的树叶和远处的车流——即所谓的「全像素级感知」。

它比同类技术强在哪儿?

目前市面上的 4D 重建技术主要分两派:

  1. 「拼装派」(如 MegaSaM):把深度估计、光流、分割等多个现成模型串起来。虽然效果不错,但不仅慢,而且一旦一个环节出错(比如光流飘了),后面全完。

  1. 「多头派」(如 VGGT):虽然是一个大模型,但为了输出不同的任务(深度、位姿、点云),需要挂载不同的解码头,结构臃肿。

D4RT 的牛,在于它做到了架构层面的统一

它不需要为深度单独做一个解码器,也不需要为位姿单独做一个。

它只用同一个接口解决所有问题。


有没有代价?当然有。

D4RT 的「快」主要体现在推理阶段。

在训练阶段,它依然是一个庞然大物。它的编码器使用了 ViT-g,拥有10 亿参数,并且需要在 64 个 TPU 芯片上训练两天。

这绝不是普通开发者在自家车库里能复现的玩具,它是典型的「大厂重武器」。

技术解码

把 4D 重建变成「搜索引擎」

那么,D4RT 到底是怎么做到的?

论文的核心逻辑可以用一句话概括:先全局「阅读」视频,再按需「搜索」答案。

不再逐帧解码,而是「全局记忆」

传统的视频处理往往是线性的,处理第 10 帧时可能已经「忘」了第 1 帧的细节。

D4RT 的第一步是使用一个巨大的 Transformer 编码器(Encoder),把整段视频压缩成一个全局场景表征(Global Scene Representation, F)

你可以把这个F想象成 AI 对这段视频形成的「长期记忆」。

一旦这个记忆生成了,原本庞大的视频数据就被浓缩在了这里。

「哪里不会点哪里」的查询机制

这是 D4RT 最天才的设计。它发明了一种通用的查询(Query)语言。

当 AI 想要知道某个像素的信息时,它会向解码器(Decoder)发送一个查询 q:

这个公式翻译成人话就是:

请告诉我:在这一帧图像上坐标为的那个点,它在这个时间时刻,如果从这个相机的视角看过去,它的 3D 坐标在哪里?」

  • 如果你想生成深度图:就问「现在这个点在现在的相机里多远?」(让 )。

  • 如果你想做轨迹追踪:就问「这个点在第 1 帧、第 2 帧……第 N 帧都在哪?」(固定 ,改变 )。


  • 如果你想重建点云:就问「视频里所有点在同一时刻的世界坐标在哪?」(把所有点都映射到同一个 )。


并行计算的艺术

因为每一个查询(Query)都是独立的,D4RT 不需要像穿针引线一样按顺序计算。

它可以一次性扔出几万个问题,利用 GPU/TPU 的并行能力同时算出答案。

这就是为什么它能比别人快 300 倍的根本原因:它把一个复杂的串行几何问题,变成了一个大规模并行的搜索问题。

关键的「作弊」技巧:9x9 Patch

论文作者还发现了一个有趣的细节:如果只告诉解码器坐标点,AI 有时候会「脸盲」,分不清纹理相似的区域。

于是,他们在查询时顺便把那个像素点周围9x9的小方块图像(RGB Patch)也喂给了模型。


这就像是你让人在人群中找人,光给个坐标不行,还得给他一张那个人脸部的特写照片。

消融实验证明,这个小小的设计极大地提升了重建的锐度和细节。


产业影响

谷歌的野心与具身智能的眼睛

D4RT 的出现,对谷歌现有的业务版图和未来的 AI 战略有着极强的互补性。

具身智能与自动驾驶的最后一块拼图

现在的机器人之所以笨,很大程度上是因为它们「看不懂」动态环境。

一个扫地机器人能避开沙发,但很难预判一只正在跑过来的猫。

D4RT 提供的实时、密集、动态的 4D 感知,正是机器人急需的技能。

它能让机器人理解:那个东西不仅现在在那里,而且下一秒它会出现在我左边。

对于自动驾驶而言,这种对动态物体(如行人、车辆)的像素级轨迹预测,是提升安全性的关键。

增强现实(AR)的基石

谷歌一直在 AR 领域寻找突破口(从当年的谷歌眼镜,到现在的 Project Astra)。

要在眼镜端实现逼真的 AR,必须要有极低延迟的场景理解。

D4RT 展示的高效推理能力(尤其是在移动端芯片上的潜力),让「实时把虚拟怪兽藏在真实沙发后面」变得在工程上可行。

对普通人的影响

视频编辑的「魔法化」

对于普通用户,这项技术最快落地的场景可能是手机相册和视频编辑软件。

想象一下,你拍了一段孩子踢球的视频。

有了 D4RT,你可以像在《黑客帝国》里一样,在视频播放过程中随意旋转视角(尽管你拍摄时并没有移动),或者轻易地把路人从复杂的背景中「扣」掉,甚至改变视频中光源的方向。

这是 D4RT 这种 4D 重建技术成熟后的应用之一。

结语

D4RT 让我们看到了一种新的可能性:AI 对世界的理解,正在从二维的「图像识别」跨越到四维的「时空洞察」。

它告诉我们,要看清这个流动的世界,关键不在于每一帧都看得多仔细,而在于如何建立一个能够随时回应疑问的全局记忆。

AI的眼中,过去并没有消逝,未来也不再不可捉摸,它们只是同一个四维坐标系里,等待被查询的两个不同参数而已。

参考资料:

https://d4rt-paper.github.io/

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

为伟大思想而生!

AI+时代,互联网思想(wanging0123),

第一必读自媒体

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太猛了!张庆鹏给许利民上一课,北京爆冷输掉德比,赵睿复出6中0

太猛了!张庆鹏给许利民上一课,北京爆冷输掉德比,赵睿复出6中0

萌兰聊个球
2026-01-24 21:48:23
亚足联官宣!中国队无缘冠军仅2小时 再传1个坏消息 这12人将退队

亚足联官宣!中国队无缘冠军仅2小时 再传1个坏消息 这12人将退队

侃球熊弟
2026-01-25 03:57:01
广东女子3年仅退款2万单,金额达183万,赃物堆满5间屋,网友炸锅

广东女子3年仅退款2万单,金额达183万,赃物堆满5间屋,网友炸锅

离离言几许
2026-01-24 19:44:41
刚上架就秒空,99元涨到396元!被戏称为“打工治愈神器”,网友:到底是谁在买……

刚上架就秒空,99元涨到396元!被戏称为“打工治愈神器”,网友:到底是谁在买……

环球网资讯
2026-01-24 08:57:16
泽连斯基炮轰欧洲石破天惊,德国将从美国运回1000吨黄金

泽连斯基炮轰欧洲石破天惊,德国将从美国运回1000吨黄金

史政先锋
2026-01-23 22:41:06
用顿巴斯换8000亿美元?特朗普惊叹:乌克兰在零下20度环境里生活

用顿巴斯换8000亿美元?特朗普惊叹:乌克兰在零下20度环境里生活

鹰眼Defence
2026-01-24 17:47:39
输球仅一夜,安东尼奥质疑主办方:不公平!亚足联或送中国队大礼

输球仅一夜,安东尼奥质疑主办方:不公平!亚足联或送中国队大礼

侃球熊弟
2026-01-25 03:31:46
日本4-0卫冕!看看中国队球员怎么说,输球原因揭晓,徐彬快哭了

日本4-0卫冕!看看中国队球员怎么说,输球原因揭晓,徐彬快哭了

侃球熊弟
2026-01-25 01:18:59
震惊!网传上海一公司招聘13名海归,4男按时提交,9女都未提交…

震惊!网传上海一公司招聘13名海归,4男按时提交,9女都未提交…

火山诗话
2026-01-24 21:37:07
老百姓没等来“房价如葱”,12%的房产税、20%的“遗产税”已开始

老百姓没等来“房价如葱”,12%的房产税、20%的“遗产税”已开始

猫叔东山再起
2026-01-24 09:25:03
动车组专家:我国旅客列车室内二氧化碳浓度标准限值为2500ppm,限值内浓度对健康无影响

动车组专家:我国旅客列车室内二氧化碳浓度标准限值为2500ppm,限值内浓度对健康无影响

澎湃新闻
2026-01-24 13:27:13
刘卫东被查前,干了两件最不要脸的事。

刘卫东被查前,干了两件最不要脸的事。

南权先生
2025-12-18 16:50:39
国防部新闻发言人蒋斌就近期涉军问题发布消息

国防部新闻发言人蒋斌就近期涉军问题发布消息

中国军视网
2026-01-24 15:55:20
停车11分钟收费16元,车主抱怨收费太贵不合理;市监部门回应:市场自由定价,有公示不算违规

停车11分钟收费16元,车主抱怨收费太贵不合理;市监部门回应:市场自由定价,有公示不算违规

大风新闻
2026-01-24 17:12:03
众生相!中国队无缘冠军 徐彬眼眶泛红+王钰栋失落 日本球员跳舞

众生相!中国队无缘冠军 徐彬眼眶泛红+王钰栋失落 日本球员跳舞

侃球熊弟
2026-01-25 00:22:31
澳网神剧本:4届大满贯冠军退赛!王欣瑜创历史,1/8决赛对阵如下

澳网神剧本:4届大满贯冠军退赛!王欣瑜创历史,1/8决赛对阵如下

侃球熊弟
2026-01-24 20:42:43
特朗普承认:美军在委内瑞拉使用“秘密声波”武器,俄罗斯称将调查搜集相关信息

特朗普承认:美军在委内瑞拉使用“秘密声波”武器,俄罗斯称将调查搜集相关信息

鲁中晨报
2026-01-24 14:03:03
李湘王诗龄被曝已经跑路,妄图用外籍身份扯保护旗,逃脱法律制裁

李湘王诗龄被曝已经跑路,妄图用外籍身份扯保护旗,逃脱法律制裁

花哥扒娱乐
2026-01-24 16:06:55
蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

素衣读史
2026-01-24 17:12:53
刺激!华为突然官宣:1月24日,开启全品降价!

刺激!华为突然官宣:1月24日,开启全品降价!

科技堡垒
2026-01-24 12:40:11
2026-01-25 05:35:00
互联网思想 incentive-icons
互联网思想
AI时代,互联网思想观察
2389文章数 16903关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

U23国足获亚洲杯亚军 体育总局电贺创历史最佳成绩

头条要闻

U23国足获亚洲杯亚军 体育总局电贺创历史最佳成绩

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

数码
游戏
健康
时尚
手机

数码要闻

UnifyDrive UC250/450 Pro家庭存储NAS发布,配置与价格曝光

梦幻西游珍宝阁拿下新出第一化生神衣,毅力帝300万帮贡求超越?

耳石脱落为何让人天旋地转+恶心?

冬天最佳“显瘦”公式:上短+下长

手机要闻

追觅首款手机狂揽亿元订单:自研芯片+模块化影像,硬刚华为小米

无障碍浏览 进入关怀版