网易首页 > 网易号 > 正文 申请入驻

公里级场景也能稳住了,国产团队把长视频3D重建又往前推了一步

0
分享至



长视频 3D 重建最怕的,其实不是 "看不清"。

前面几十帧拍得再好,序列一拉长,轨迹就开始慢慢歪。模型在短片段上表现还行,但让它一口气吃掉几百上千帧,误差会一段接一段往后累。到了公里级大场景,这个问题被放得非常大。

浙江大学、地平线机器人和之江实验室最近的新工作Scal3R,要解决的就是这件事。

以往做长序列重建,大家主要在 "怎么切块、怎么拼回去" 上做文章。

Scal3R 则更进一步关注问题本质:推理时要处理超长序列,训练时也应该让模型见过超长序列。作者借助 test-time training 技术,设计了一个全局上下文模块和同步机制,将长序列训练、推理以及跨 chunk 的信息更新放进同一个流程里,大幅提升了长序列重建的稳定性和精度。

Scal3R 能够处理超万帧几千米的超大规模场景三维重建,输出精确的相机位姿和点云,下面是真实拍摄浙大紫金港校区的重建效果:



视频链接:https://mp.weixin.qq.com/s/Yi8AMQ3BxcTCLUDlzvLlcg

和 Depth Anything 3(Streaming 模式)的可视化对比:



视频链接:https://mp.weixin.qq.com/s/Yi8AMQ3BxcTCLUDlzvLlcg

论文 Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction 已上线 arXiv,代码和模型权重分别发布在 GitHub 和 Hugging Face 平台:



  • 论文链接:https://arxiv.org/abs/2604.08542
  • 论文主页:https://zju3dv.github.io/scal3r/
  • 代码仓库:https://github.com/zju3dv/Scal3R
  • 模型地址:https://huggingface.co/xbillowy/Scal3R

超大规模场景重建问题在哪

这两年 VGGT 这类前馈式 3D foundation model 已经能直接从 RGB 估计相机参数、深度和点云,精度相当不错。

但场景一变大、序列一拉长,麻烦就来了。

一方面,Transformer 的长序列建模本身就贵,计算和显存都会飞涨。

另一方面,很多方法训练和测试时面对的序列形态根本对不上。训练通常喂短序列或局部窗口,测试却要求模型吞几百帧甚至上千帧,这种错位会把长程漂移放大。

目前应对长序列大致有两条路。

一条是压缩 token,把更长序列硬塞进模型。确实能省一些计算,但细节和长程依赖也容易跟着被压掉。

另一条是 chunk-based 路线:先切成多个重叠片段各自重建,再做跨块对齐。这条路比较实用,扩展性也好,只是前提是每一块的局部几何预测要够准,否则块间误差会继续被放大。

所以问题的重点并不是 "怎么处理长序列",而是怎么让模型训练时就学会处理长序列,再用同一套机制在测试时稳住局部几何和全局一致性。

Scal3R 是怎么做的

Scal3R 是在 VGGT 的视觉几何能力上往前走的。局部几何依然重要,Scal3R 没打算绕开它,只是希望这份能力在长序列训练和长序列推理里以一致方式被使用。

作者的想法很直接:要让模型测试时稳住长视频,就不能只拿短片段训练然后指望它自然泛化到长序列。所以 Scal3R 借助 test-time training 相关机制,把长序列训练、长序列推理以及跨 chunk 的信息更新放进同一个流程里



Scal3R 的整体框架。输入长序列首先被切成多个重叠 chunk 并行处理,训练和推理都围绕长序列展开,并通过测试时更新与跨 chunk 同步提升大规模场景重建的一致性。

围绕这个思路,论文给出了两个核心模块。

一个是全局上下文记忆模块(Global Context Memory,GCM)。

它由若干自适应存储单元(Adaptive Memory Units)组成,可以当成一组轻量的、可更新的上下文模块。每处理完一个 chunk,模型会通过自监督目标更新这些单元。GCM 在这里起两个作用:一是跨 chunk 累积并保留上下文信息;二是让训练和测试阶段用同一套逐 chunk 更新方式,模型从训练第一步起就在适应长序列。

另一个是全局上下文同步机制(Global Context Synchronization,GCS)。

GCM 管逐 chunk 更新和上下文累积,GCS 负责把这些更新在不同 chunk 之间同步起来,使用 PyTorch DDP 的 all-reduce 机制,在不同的 chunk 之间同步自适应存储单元的自监督梯度。

Scal3R 处理长序列时会把它切成多个重叠 chunk,分配到不同 GPU 上并行跑。GCS 让这些 chunk 的更新彼此同步,不管训练还是推理,整个长序列机制都是一致的,不会出现训练时学局部、测试时临时拼一下的情况。

关键的点是,作者并没有把 test-time training 当成测试阶段的临时补丁,而是把它变成支撑长序列训练和长序列推理对齐的一种方式;GCM/GCS 则在这种长序列机制里做更新、保留和同步。

为什么 Scal3R 的做法可以稳住长序列

长序列重建里最棘手的情形,经常不是 "看不见",而是局部都能看懂、时间跨度一长就不一定稳得住。

大尺度室外场景里的重复纹理、长距离视角变化、稀疏采样、长走廊、回环闭合 —— 每一项都在考验局部几何预测的鲁棒性。局部块必须先算得准,跨块同步和长程约束才有意义;否则局部误差会顺着整条序列一路被放大。

Scal3R 的价值就在这里。

它没有把长视频简单切开再拼回去,而是让模型在训练阶段就反复经历 "长序列 + 逐 chunk 更新 + 跨 chunk 同步" 的完整过程。等到测试时,模型遇到的行为模式和训练时是一样的。

这时 memory 的角色就清楚了:GCM 不替代局部几何预测,只是在逐 chunk 训练和推理里提供一份可更新的上下文状态,把前后 chunk 的信息接起来 —— 前提依然是局部几何得可靠。

所以 Scal3R 重要的地方不在削弱局部几何,而在把局部几何、可更新上下文、长序列训练、测试时同步这四件事放到同一个框架里。

一,长序列被拆成 chunk 来算。这把原本随序列长度平方增长的计算压力摊平了。按论文里的视角,全序列注意力的复杂度会随长度快速上升,chunk-wise 处理则把问题改写成更可控的局部计算,再通过融合扩展到整段序列。

二,不是简单分块,而是逐 chunk 更新、再做同步。很多分块方法块和块之间是割裂的,算完就算完了。Scal3R 会在每个 chunk 上算可更新模块的变化,再由 GCS 把这些更新在 chunk 之间同步起来。网络虽然按块处理,但训练和测试时都在学习怎么把局部结果放回长序列里。

三,训练时就直接面向长序列。论文里讲得比较清楚:训练阶段会直接采样连续长序列,再用不同 GPU 分组去覆盖不同的有效序列长度。TTT 在这里更像是一种手段 —— 让长序列训练可行,也让测试行为和训练行为保持一致。

这三条合起来就能解释为什么 Scal3R 不止是 "能跑长序列",而是在长序列上把局部几何质量、效率和整体一致性都稳住了。

在基准测试上的效果

论文从相机位姿和三维重建两部分做了比较完整的评估,覆盖室内外和不同尺度的场景,结果显示提升很扎实。



论文主表中的位姿与资源对比,覆盖 VKITTI2、KITTI Odometry 和 Oxford Spires。

相机位姿估计:表里 baseline 大致可以分成三类。SLAM / SfM 方法在条件合适时很准,比如 COLMAP 在 Oxford Spires 上很强,DPVO++ 在 VKITTI2 上误差也低;但它们要么需要内参,要么速度慢,在资源统计中,COLMAP 平均一次推理要 6614.73 秒。前馈和 streaming 方法更快,但长序列漂移压不住,FastVGGT 还会遇到显存问题。最接近的对照是 VGGT-Long:它比不少 streaming baseline 稳,但 KITTI 上 ATE / RTE / RRE 仍是 25.94 / 9.67 / 1.71,而 Scal3R 是 14.55 / 4.61 / 0.97;Oxford Spires 上也从 15.46 m 降到 4.45 m。



大规模多场景轨迹对比。蓝线是预测轨迹,红色虚线是真值轨迹。

轨迹图更直观:KITTI 00 上 Scal3R 的 ATE 是 4.298,VGGT-Long 是 8.637;Oxford Keble 04 和 Oxford Quarter 01 上 ATE 分别是 2.448 和 1.624。蓝线基本能贴住真值轨迹,其他方法更容易漂成局部团块。

再看三维重建精度



三维重建点云评测,指标为 Chamfer Distance(越低越好)和 F1(越高越好)

这张表更直接。Scal3R 在 ETH3D、Oxford Spires、VKITTI2 三个数据集上六个指标都是最优:ETH3D 是 0.11 / 0.91,Oxford Spires 是 0.96 / 0.96,VKITTI2 是 0.40 / 0.91。对比最强的 VGGT-Long,ETH3D 从 0.24 / 0.84 提到 0.11 / 0.91;Oxford Spires 从 3.41 / 0.80 提到 0.96 / 0.96;VKITTI2 则从 1.78 / 0.70 提到 0.40 / 0.91。这里的差距不只是局部几何更准,也和前面的位姿稳定性有关:轨迹一旦漂了,后面拼出来的点云通常也会散。



重建对比图,展示 Oxford Keble 04 和 ETH3D Terrains 等场景。

定性图也对得上表格。像 Oxford Keble 04 这种大尺度校园场景,Scal3R 的建筑轮廓和庭院结构更完整;ETH3D Terrains 红框里的墙面和门框边界也更规整。FastVGGT、VGGT-Long、TTT3R 在不同场景里会出现局部破碎、漂散或者结构发糊,原因往往不是某一帧深度错了,而是长序列位姿和局部几何没有一起稳住。

精度之外再看下资源和扩展性。Scal3R 可以在单张 RTX 4090 上完成推理,它不是吞吐最快的方案,但在精度、长序列稳定性和可扩展性之间做了一个比较实用的取舍。补充材料里还分析了随序列变长的趋势:从 150 帧涨到 990 帧,整体运行时间基本呈线性增长,相对位姿误差则稳在 0.07 到 0.08 m,说明它不是只适配某个固定长度。

结语

Scal3R 最值得留意的地方,不只是又做出来一个更强的长序列 3D 重建方法,而是它把问题的重点重新摆过一遍。

它没有把 "大规模 3D 重建" 简单理解成更大的 backbone、更多 token 或者更激进的压缩,而是问了一个更靠前的问题:模型要想在测试时吞下长序列,训练时是不是也得先真正学过长序列?

顺着这个视角往下看,Scal3R 提出的其实不只是一个记忆模块,更像是一种把局部几何、可更新上下文、长序列训练和测试时同步串起来的思路。对 3D 重建如此,搬到更广泛的长视频场景理解任务上,可能也差不多。

如果你正在关心这几件事 —— 长视频怎么做高质量 3D 重建;foundation model 怎么扩展到公里级场景;test-time training 除了语言和分类任务,还能怎么真正落到 3D 视觉里 —— Scal3R 值得花点时间细读。



视频链接:https://mp.weixin.qq.com/s/Yi8AMQ3BxcTCLUDlzvLlcg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李嘉欣和闺蜜提前庆祝母亲节,一旁闺蜜脸型怪异,医美后遗症严重

李嘉欣和闺蜜提前庆祝母亲节,一旁闺蜜脸型怪异,医美后遗症严重

娱乐团长
2026-05-05 16:00:08
班主任连带出5届状元,评优却没她,被私立学校挖走后,校长上门

班主任连带出5届状元,评优却没她,被私立学校挖走后,校长上门

卡西莫多的故事
2025-11-18 10:27:13
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
詹姆斯:缺少37分悍将,霍姆格伦:以为要等老詹执教时才能交手

詹姆斯:缺少37分悍将,霍姆格伦:以为要等老詹执教时才能交手

体育新角度
2026-05-06 21:54:18
北京国安3-0大连英博,赛后评分:北京国安7号排第一

北京国安3-0大连英博,赛后评分:北京国安7号排第一

侧身凌空斩
2026-05-06 21:33:04
19岁儿子被内马尔打巴掌!42岁罗比尼奥狱中暴怒:就这样报答我?

19岁儿子被内马尔打巴掌!42岁罗比尼奥狱中暴怒:就这样报答我?

风过乡
2026-05-06 06:49:56
这一次,韩国人真是赢麻了…

这一次,韩国人真是赢麻了…

巴山侃侃
2026-05-06 22:57:51
离谱他妈给离谱开门,英博半场多打一人反倒三球惨败国安

离谱他妈给离谱开门,英博半场多打一人反倒三球惨败国安

懂球帝
2026-05-06 21:51:36
过程预料之外结果预料之中,山东男篮惜败上海,主要输在三点

过程预料之外结果预料之中,山东男篮惜败上海,主要输在三点

姜大叔侃球
2026-05-06 21:47:41
逐渐闹大!女子玩“悬崖秋千”坠亡,闺蜜玩笑竟一语成谶,通报了

逐渐闹大!女子玩“悬崖秋千”坠亡,闺蜜玩笑竟一语成谶,通报了

千言娱乐记
2026-05-06 15:23:08
女老板介绍她妹妹给我,我说“不如娶你”,第二天她叫我去办公室

女老板介绍她妹妹给我,我说“不如娶你”,第二天她叫我去办公室

千秋文化
2026-05-05 20:23:38
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
俗话说“惹金莫惹银,惹银害死人”,银环蛇毒性有多强?为何专挑夜钓的人下手?

俗话说“惹金莫惹银,惹银害死人”,银环蛇毒性有多强?为何专挑夜钓的人下手?

农夫也疯狂
2026-05-06 15:42:59
美股半导体盘前全线大涨,AMD狂飙近20%,英特尔涨超5%,美油失守90美元,白银猛拉近7%

美股半导体盘前全线大涨,AMD狂飙近20%,英特尔涨超5%,美油失守90美元,白银猛拉近7%

21世纪经济报道
2026-05-06 19:29:22
陕西一博物馆回应“展出假编钟”

陕西一博物馆回应“展出假编钟”

界面新闻
2026-05-06 17:31:10
7冠王亨德利调侃吴宜泽:别拿8个世锦赛冠军 奥沙利文:他能夺8冠

7冠王亨德利调侃吴宜泽:别拿8个世锦赛冠军 奥沙利文:他能夺8冠

念洲
2026-05-06 07:42:00
深圳女环卫工遭男子当街殴打、拖拽倒地!只因劝阻违规,警方已介入

深圳女环卫工遭男子当街殴打、拖拽倒地!只因劝阻违规,警方已介入

南方都市报
2026-05-06 22:57:39
俄想截胡?乌总理紧急赴京:图们江教训惨痛,中国不可贸然应允

俄想截胡?乌总理紧急赴京:图们江教训惨痛,中国不可贸然应允

潋滟晴方DAY
2026-05-06 14:34:29
黑尾酱,彻底消失了?

黑尾酱,彻底消失了?

生如稗草
2026-03-15 08:48:11
企业取河水售卖10年,“不合规”比“饮食健康”还重要?我服了

企业取河水售卖10年,“不合规”比“饮食健康”还重要?我服了

走读新生
2026-05-06 22:06:55
2026-05-06 23:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12930文章数 142643关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

目击者:"没绑紧"不是遇难女孩说的 现场不少未成年人

头条要闻

目击者:"没绑紧"不是遇难女孩说的 现场不少未成年人

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

广电总局发布2026年“微短剧+”行动计划推荐剧目

财经要闻

最新GDP!全国30强城市,又变了

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

数码
旅游
教育
公开课
军事航空

数码要闻

华硕天选7 Pro Max游戏本上架,搭锐龙9 9955HX处理器

旅游要闻

联播一瞬丨凭实力圈粉!外国游客在沉浸式打卡游里点赞中国

教育要闻

现在的留学生玩的可真6!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版