网易首页 > 网易号 > 正文 申请入驻

WACV 2026 | FB-4D:利用记忆提升4D数字资产生成

0
分享至

本文介绍了来自 WACV 2026 的最新科研成果——FB-4D,一种在无需额外训练的前提下,利用特征记忆机制显著提升 4D 动态生成质量的新方法。面对扩散模型与 4D 生成中长期存在的时空一致性难题,FB-4D 通过构建可动态更新的特征记忆库,将前序帧信息有效融入后续生成,显著提升跨时间与多视角的稳定性。同时,该方法首次证明:结合特征库机制后,通过多轮自回归生成额外多视角参考序列,可以持续提升最终 4D 内容的质量,在零训练成本下即可达到当前同类方法的最高水平。


论文题目: FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks 论文链接: https://arxiv.org/abs/2503.20784 项目主页: https://fb-4d.c7w.tech/
一、动机

当前 4D 生成技术通常依赖两阶段流程:先生成多视角序列,再基于这些视角训练 4D 表达。然而,无论是需要大规模显存支持的训练型方法,还是依赖预训练模型的无需训练方法,均存在一个共同瓶颈——时空一致性不足。训练型方法受显存限制难以处理长序列与多视角,而无需训练的方法由于将运动建模与多视角生成割裂开,极易产生空间错位与随时间累积的噪声。

近年的研究如 diffusionfeatures[1] 表明,扩散模型在去噪过程中提取的中间特征蕴含跨视角、跨帧的隐式对应关系。然而现有方法并未利用这些天然的对应性,这导致 4D 场景中不同帧、不同视角之间往往缺乏一致的结构表现。

此外,虽然现有的研究工作如 SAP3D[2] 已经表明在静态 3D 中通过引入额外 2D 参考图像可以显著提升质量,但在 4D 场景中,传统自回归生成更多的多视角序列用作参考,会累积噪声,难以稳定提升下游表现。

基于上述观察,我们将“利用扩散模型中间特征指导当前生成”的思想系统地扩展到动态 4D 场景,并设计了一个可动态更新的特征记忆库,用于在生成过程中持续存储和调用历史帧与历史视角的中间特征。该机制在无需额外训练的前提下,实现了跨时间与跨视角的一致性:一方面,历史特征为当前生成提供稳定的结构参照,显著减少时间方向上的漂移;另一方面,不同视角的共享特征增强了空间对齐效果。同时,我们发现这一特征记忆库还能够有效抑制自回归生成中固有的误差积累,使多轮迭代生成的额外参考序列不再降低质量,反而持续强化特征记忆,从而不断提升最终的 4D 生成效果。

二、方法
FB-4D 方法流程

给定单视角输入视频,FB-4D 将多视角扩散生成模型与特征记忆库结合,以增强空间与时间维度的一致性。每一轮迭代中,生成的多视角序列会作为下一轮的输入,从而在不同视角与时间之间形成持续的特征交互。方法从初始视角出发,并在随后的迭代中逐步选择新的输入视角,不断提升几何与运动质量。经过多轮迭代后,最终的多视角序列用于训练可形变的 3D 高斯场,从而得到一致性更高的 4D 表达。

2.1 背景知识

我们的方法主要基于 STAG4D[3] 进行构建,该方法是一个结合预训练多视角扩散模型与可变形高斯的高保真 4D 重建框架,主要由两阶段组成:

2.1.1 阶段一:多视角序列生成

首先输入单视角视频 ,之后使用多视角扩散模型(如 Zero123++)生成输出视角 的多视角序列:

但是,原生的多视角扩散模型如 Zero123++ 在自注意力中融合参考图像特征,但它逐帧独立处理,导致生成序列在时间维度上存在不一致性。STAG4D 尝试通过引入第一帧的特征作为额外条件注入,来改善时间一致性,但依然不足。

2.1.2 阶段二:4D 高斯优化

使用多视角序列与原始视角,通过多视角 SDS 损失优化 4D 高斯,其中 为权重系数,并依据渲染视角与生成视角的接近程度选择对应视角的 SDS:


2.1.3 目前方法的局限

STAG4D 在第一阶段中,仅将第一帧的特征作为生成后续帧的条件,无法捕捉跨时间的完整一致性。因此,我们提出:在生成第 i 帧时,应有效利用所有历史帧 (t < i)的特征信息作为额外条件注入,以实现更强的时序一致性,这促使我们设计了能动态融合所有过往帧特征的注意力结构。

2.2 特征库机制与更新2.2.1 自注意力层中的特征库机制

为保留历史帧信息,我们在多视角生成模型的自注意力层中引入特征库模块。处理第 帧输入 时,对应特征库记为(其中 K,V 分别代表自注意层中的 keys 以及 values, 而 O 则代表该层输出):


在第 i 帧的去噪过程中,使用对应中间层特征 来更新全局特征库。不同扩散推理的时间戳,使用独立特征库,以提升一致性。该机制贯穿所有自注意力层,保证生成过程中可以访问跨帧的时空信息。后续将详细介绍:如何高效更新特征库(紧凑表示与融合)以及特征库的利用方法。在本文的设计,特征库能够高效积累并利用历史信息,同时保持较低的计算与存储开销。

2.2.2 特征库更新:紧凑表示(Compact Representation)


在传统做法中,当前帧的所有中间特征通常会被直接追加到特征库中,但这种无选择的堆积不仅造成严重的信息冗余,也显著增加显存占用。为在充分保留历史信息价值的同时有效控制存储开销,我们进一步设计了一个更高效的特征管理策略,使特征库能够以紧凑、高效的方式持续吸收历史特征,从而在保持代表性的前提下最大化利用跨时间的信息。我们提出了一种动态贪心融合策略,构建紧凑而信息丰富的特征库。具体过程如下(可见上图):首先,将当前帧特征与特征库拼接:


随后随机将其划分为两部分srcdst。对每个 src token,找到最相似的 dst token:


最后,将匹配到同一 dst 的 token 做平均融合,得到更新后的特征库:


该方法在有效控制特征库规模的同时,能够保持对前 (i-1) 帧的紧凑表示和信息完整性。

2.2.3 高效利用特征库

(I)读取自注意力层 Key 与 Value(K/V)

在自注意力机制中,当前帧的特征通过查询(Query)与当前帧、参考帧及特征库的键(Key)进行匹配,从而获取对应的值(Value)信息,实现信息增强。公式表示为:


这里, 表示当前帧的查询, 分别表示当前帧、参考帧以及特征库的键, 为对应的值, 是缩放因子。通过这个操作,当前帧的特征能够充分利用历史帧的信息,从而增强表示能力,达到更高的时空一致性。随后通过一个简单的多层感知机(MLP)得到最终输出:


(II)读取自注意力层 Output 并融合(Similarity Fusion)

为了进一步利用扩散过程中的中间特征的信息,我们对当前帧中间自注意力层输出的每个 token ,在特征库对应输出中找到与之最相似的 token :


然后进行加权融合得到增强后的输出:


这里, 被用来控制融合比例,平衡当前帧与特征库信息的贡献。为了避免过度融合,保持当前帧的运动细节,当相似度低于固定阈值 时,不执行融合:


通过这种方式,特征库信息能够在保持当前帧动态细节的前提下,有选择地增强输出质量,使帧间一致性和细节表现得到提升。

整体流程可理解为两步:第一步,通过自注意力机制利用 K/V 计算增强当前帧表示;第二步,通过相似度匹配从特征库中提取高质量信息并融合,进一步提升输出效果。

2.3 特征库机制用于自回归生成

在多视角自回归生成过程中,生成器依赖前一帧或前一次迭代的输出作为下一步输入。然而,随着迭代次数增加,累积误差和视角差异容易导致帧间不一致、细节丢失以及生成质量下降。为了解决这一问题,我们将特征库机制(Feature Bank)引入,用于在自回归过程中保持多视图信息的一致性并增强生成质量。

2.3.1 特征库的构建与管理

每一次迭代生成的图像特征(Key / Value 对)都会被存入特征库 ,其中 j 表示迭代编号,特征库分别记录了不同迭代和视角的高质量特征,可在后续迭代中被访问和融合,利用这些特征库,生成模型能够聚焦多样化特征,同时避免自回归过程中信息混乱。

2.3.2 特征库在自回归生成中的利用

在生成当前帧或当前迭代的输出时,我们将特征库中的历史迭代特征与当前迭代特征加权融合,即 ,其中 J 表示当前迭代编号,权重 根据历史输入视角与当前输入视角的差异计算,视角差异越大,历史特征的权重越低,从而保证当前迭代的生成过程既能够有效利用历史迭代信息,又能够避免过度干扰当前迭代图片生成。

2.3.3 渐进式自回归生成

在本文的自回归多视角生成过程中,作者通过逐步缩小当前输入视角与后方视角( 度)之间的差异 ,实现视角的平滑过渡,从而提升生成图像在不同角度间的一致性。

具体来说,前 次迭代的输入视角形成集合 ,输出视角形成集合 ,从 中筛选比当前最靠后的视角,即更接近 的候选视角集合 。然后,对 中每个候选视角 与历史输入视角计算加权相似度:


选择得分最高的视角作为当前迭代的输入。权重 根据视角差异分配,差异越大说明视角关联性越弱,因此其对当前候选视角的相似度贡献也应越低。

综合上述步骤,我们得以在每一轮生成中从大量潜在视角中自动筛选出一个既与历史输入保持连续、又与目标方向慢慢接近的最优视角。该自适应视角选择策略不仅避免了视角顺序的盲目扩展,也最大化减少冗余和噪声累积,从而在整个自回归生成过程中稳步提升多视角序列的时空一致性与结构稳定性。

三、实验结果

作者在 Consistent4D[4] 数据集上进行了实验,该数据集包含七个动态物体的多视角视频。评估指标包括 CLIP、LPIPS 和 FVD :其中 CLIP 和 LPIPS 用于衡量图像级语义与感知相似性,而 FVD 同时评估帧质量与时间一致性,非常适合视频生成任务。此外,我们还在野外场景的 STAG4D[3]数据集上进行了定性评估,共生成 28 个视频的 4D 内容。此外,作者还对框架的各个组件进行了全面的消融研究,以验证其有效性。

这里展示主要结果,更多结果请参考论文。
3.1 与当前基线方法的定量对比


与现有基线方法的比较。我们的方法在性能上与需要大量训练的方法 SV4D 相当,显著高于同类型无需训练的其他方法。T-F 表示在 Stage1 中无需训练(training-free)

3.2 与当前基线方法的定量对比


我们在多个数据集上对比了不同基线方法的 4D 生成质量。结果显示,在多视角渲染的结构一致性、细节保真度以及时空稳定性方面,我方法均显著优于现有基线。


4D 生成质量比较(背面视角)。 在其余两种基线范式中 (a) SV4D 和 (b) STAG4D 中,背面视角均存在时间维度不一致的现象。

四、总结

此研究提出了 FB-4D 框架,用于从单目视频生成 4D 内容。通过引入特征库,FB-4D 能显著提升空间和时间一致性,并在渐进式迭代中缓解漂移问题,展示了在实际应用中的潜力。其局限在于生成仍为逐帧渐进式,长序列生成效率仍有提升空间。未来可能的改进方向包括:(i) 在保持时空一致性的前提下实现并行生成;(ii) 采用模型蒸馏或轻量化扩散结构。

参考文献

[1] Tang, L., Jia, M., Wang, Q., Phoo, C. P., & Hariharan, B. (2023). Emergent correspondence from image diffusion. Advances in Neural Information Processing Systems, 36, 1363-1389.

[2] Han, X., Gao, Z., Kanazawa, A., Goel, S., & Gandelsman, Y. (2024). The more you see in 2d the more you perceive in 3d. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 20912-20922).

[3] Zeng, Y., Jiang, Y., Zhu, S., Lu, Y., Lin, Y., Zhu, H., ... & Yao, Y. (2024, September). Stag4d: Spatial-temporal anchored generative 4d gaussians. In European Conference on Computer Vision (pp. 163-179). Cham: Springer Nature Switzerland.

[4] Jiang, Y., Zhang, L., Gao, J., Hu, W., & Yao, Y. (2023). Consistent4d: Consistent 360 {\deg} dynamic object generation from monocular video. arXiv preprint arXiv:2311.02848.

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列特拉维夫市中心遭导弹袭击 现场浓烟滚滚

以色列特拉维夫市中心遭导弹袭击 现场浓烟滚滚

新京报
2026-03-22 19:43:30
1993年,毛远新出狱后全家在韶山的留影,16岁女儿出镜,相貌出众

1993年,毛远新出狱后全家在韶山的留影,16岁女儿出镜,相貌出众

历史龙元阁
2026-03-20 15:15:09
内塔尼亚胡:推翻伊朗政权需“地面”战争;特朗普:不会把美军部署到任何地方

内塔尼亚胡:推翻伊朗政权需“地面”战争;特朗普:不会把美军部署到任何地方

上观新闻
2026-03-22 12:26:07
A股跌破4000点!股民怒怼量化,五部门连夜托底

A股跌破4000点!股民怒怼量化,五部门连夜托底

慧眼看世界哈哈
2026-03-22 14:55:01
亚历山大MVP危险了!他最近实在太猛!!

亚历山大MVP危险了!他最近实在太猛!!

柚子说球
2026-03-21 21:10:10
福建一医院党委书记,任上被查(附简历)

福建一医院党委书记,任上被查(附简历)

新浪财经
2026-03-22 15:46:36
4000公里一剑封喉!伊朗版东风4首战,目标轰炸B-2,射程覆盖欧洲

4000公里一剑封喉!伊朗版东风4首战,目标轰炸B-2,射程覆盖欧洲

军机Talk
2026-03-21 19:55:38
他是千年来唯一没有污点的皇帝,史书对他大有称赞,至今香火不断

他是千年来唯一没有污点的皇帝,史书对他大有称赞,至今香火不断

铭记历史呀
2026-03-14 12:50:03
伊朗强硬指挥官伊斯梅尔卡尼回归,以色列阴谋彻底失败!

伊朗强硬指挥官伊斯梅尔卡尼回归,以色列阴谋彻底失败!

音乐时光的娱乐
2026-03-22 19:37:11
实话确实很难听,但这就是阿富汗的真实情况,和网上说的完全不同

实话确实很难听,但这就是阿富汗的真实情况,和网上说的完全不同

番外行
2026-03-21 13:50:19
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
蒋孝章究竟有多美丽?1967年参加寿宴时的照片揭示她独特的气质

蒋孝章究竟有多美丽?1967年参加寿宴时的照片揭示她独特的气质

阿器谈史
2026-03-20 10:19:05
悲催!深圳程序员月薪超5万,优化后求职一年,现将预期降至1.5万

悲催!深圳程序员月薪超5万,优化后求职一年,现将预期降至1.5万

火山詩话
2026-03-22 15:06:16
“山姆”这6款生活用品才是精髓,内部员工推荐,太太太实用啦!

“山姆”这6款生活用品才是精髓,内部员工推荐,太太太实用啦!

泪满过眼
2026-03-21 02:52:50
要把女生送往伊朗前线的博主,销号跑路了

要把女生送往伊朗前线的博主,销号跑路了

大张的自留地
2026-03-22 15:33:24
人贩子“梅姨”落网,为何多年难抓捕?

人贩子“梅姨”落网,为何多年难抓捕?

环球网资讯
2026-03-22 13:17:04
被申军谊伤透心后,赌气嫁给他的好兄弟,如今靠《逐玉》再度翻红

被申军谊伤透心后,赌气嫁给他的好兄弟,如今靠《逐玉》再度翻红

冷紫葉
2026-03-21 16:17:41
为股市悬着的心,终于死了

为股市悬着的心,终于死了

金牛远望号
2026-03-20 21:00:52
33连败了,还要输多久…

33连败了,还要输多久…

刺猬篮球
2026-03-21 23:58:04
解放台湾,解放军准备了70多年,我军战区罕见说出:受不了了

解放台湾,解放军准备了70多年,我军战区罕见说出:受不了了

命运自认幽默
2026-03-22 19:24:37
2026-03-22 21:43:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2318文章数 596关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

以色列防空神话被击穿损失惨重核圈失守 伊朗表态

头条要闻

以色列防空神话被击穿损失惨重核圈失守 伊朗表态

体育要闻

郑钦文连续迎战大满贯冠军 “双教练”团队正式亮相

娱乐要闻

今晚首播!央视年代剧《冬去春来》来了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

手机
健康
时尚
艺术
教育

手机要闻

华为蝉联榜首,苹果紧追不舍,OPPO、vivo、小米、荣耀差距不大!

转头就晕的耳石症,能开车上班吗?

伊姐周六热推:电视剧《隐身的名字》;电视剧《正义女神》......

艺术要闻

美人计,每一幅都是顶级人像

教育要闻

地理模型的制作

无障碍浏览 进入关怀版