网易首页 > 网易号 > 正文 申请入驻

ControlNet作者张吕敏最新论文:长视频也能实现超短上下文

0
分享至



编辑|冷猫

大部分的高质量视频生成模型,都只能生成上限约15秒的视频。清晰度提高之后,生成的视频时长还会再一次缩短。

这就让尝试AI视频创意的创作者们非常苦恼了。要想实现创意,必须使用分段生成,结合首尾帧,不仅操作起来很麻烦,而且需要来回抽卡来保证画面的一致性。

那么,限制视频生成时长的瓶颈在哪里?

大家可能不知道的是,一段 60 秒、480p、24 帧/秒的视频,在模型内部会被拆解成超过 50 万个「潜在 token」

这些 token 就像一条极长的记忆胶带,模型想要保持剧情连贯、画面一致,就必须从头到尾保存上下文记忆。但代价是:算力直接爆炸,普通显卡根本扛不住。

这正是当前自回归视频生成模型的核心矛盾。一边是越长的上下文,画面越连贯;另一边是越长的上下文,计算成本越高。

于是,研究者们不得不做出妥协:要么用滑动窗口切掉大部分历史,换取可运行的算力;要么对视频进行激进压缩,牺牲清晰度和细节。

问题在于,这些压缩方法往往最先丢掉的,正是决定画面真实感与一致性的高频细节。

也正是在这一困境下,苏州大学校友,斯坦福大学博士,ControlNet 创作者张吕敏团队为此投入了研究提出了一种新的解决思路,给出了专为长视频设计的记忆压缩系统,在压缩的同时尽可能保留精细视觉信息。



  • 论文标题:Pretraining Frame Preservation in Autoregressive Video Memory Compression
  • 论文链接:https://arxiv.org/abs/2512.23851v1

研究团队提出了一种神经网络结构,用于将长视频压缩为短上下文,并设计了一种显式的预训练目标,使模型能够在任意时间位置保留单帧中的高频细节信息。

基线模型可以将一段20 秒的视频压缩为约 5k 长度的上下文表示,同时支持从中随机检索单帧,并在感知质量上保持良好的外观保真度

这种预训练模型可以直接微调为自回归视频模型的记忆编码器(memory encoder),从而以较低的上下文成本实现长历史记忆建模,并且仅带来相对较小的保真度损失。



该视频是使用完整历史上下文(不切割任何历史帧)逐秒自回归生成的。20 多秒的历史被压缩为 ∼ 5k 上下文长度,并由 RTX 4070 12GB 处理。

全新的记忆压缩架构

具体而言,研究团队采用两阶段策略

首先,预训练一个专用的记忆压缩模型,其目标是在任意时间位置上尽可能保留高保真帧级细节信息。

该预训练目标通过对从压缩历史中随机采样的帧最小化其特征距离来实现,从而确保模型在整个序列范围内都能稳健地编码细节信息。

在网络结构设计上,提出了一种轻量级双路径架构:模型同时处理低分辨率视频流和高分辨率残差信息流,并通过将高分辨率特征直接注入 Diffusion Transformer 的内部通道,绕过传统 VAE 所带来的信息瓶颈,从而进一步提升细节保真度。

预训练记忆压缩模型



记忆压缩模型的预训练。记忆压缩模型需要将长视频(例如 20 秒)压缩成短上下文(例如长度为 5k)。预训练的目标是在任意历史时间位置检索具有高频细节的帧。

该方法的核心创新在于其预训练目标设计

研究团队观察到,衡量视频压缩机制保留上下文细节能力的一个合适的指标是其任意时间位置高质量帧检索的能力。对于高压缩率,完美检索变得不切实际,因此目标变为最大化任意帧的检索质量。



随后,研究团队将所选的干净帧复制作为扩散模型的目标,使扩散系统能够在任意时间位置重建目标帧。该过程可表示为:



这种随机化选择机制有效防止模型通过仅编码易于访问的帧(例如首帧或末帧)来「投机取巧」,从而迫使模型学习一种能够在整个时间序列范围内持续保留细节信息的表示方式。



内存压缩模型的架构。使用 3D 卷积、SiLU 和注意力机制来构建一个轻量级的神经网络结构,作为基准压缩模型。

视频扩散模型的微调



微调自回归视频模型。展示了最终自回归视频模型的微调和推理过程。记忆压缩模型的预训练在微调之前完成。



由此得到的视频生成模型具备超长历史窗口(例如超过 20 秒)、极短的历史上下文长度(例如约 5k),并且对帧检索质量进行了显式优化。

该扩散过程亦可按照公式表示为:



实验结果

在实验中,研究团队使用 8 × H100 GPU 集群进行预训练,并使用 1 × H100s 或 A100s 进行 LoRAs 微调。所有实验均在 HunyuanVideo和 Wan 系列的基础模型上进行。

数据集由来自多个网站的约 500 万互联网视频组成。其中约一半是竖屏短视频,其余为普通横屏视频。数据经过质量清洗,然后使用 Gemini-2.5-flash VLM 对高质量部分进行字幕标注,剩余部分使用本地 VLM(如 QwenVL)进行处理。测试集包括由 Gemini-2.5-pro 编写的 1000 个故事板提示和 4096 个未在训练数据集中出现过的视频。

定性与定量评估



故事板上的定性结果。通过从故事板中流式传输提示来展示结果。故事板是一组提示,其中每个提示涵盖一定数量的帧。故事板可以由外部语言模型编写。

在定性评估方面,如图所示,研究者证明了模型能够处理多种多样的提示和故事板,同时在角色、场景、物体和情节线方面保持一致性。

在定量评估方面,研究者们从 VBench、VBench2等平台引入了多个视频评估指标,并进行了一些修改。



视频内容一致性的定量评测结果。其中,Qwen 中的 「1p」 表示仅使用 1 张图像 作为图像模型输入。由于部分方法存在严重伪影,因此未将其纳入人工 ELO 评分统计。

如表所示,本文提出的方法在多个一致性指标上表现出合理的分数。Wan+Qwen 组合在实例分数上似乎具有领先分数,这可能是由于图像模型不会显著改变或移动对象,从而避免了 VLM 问答检测到的伪影。本文的方法在对象一致性方面表现出有竞争力的分数。此外,用户研究和 ELO 分数验证了本文提出的架构,证实它在压缩和质量之间实现了有效的权衡。

消融实验



压缩结构的定量结果。展示了使用不同消融压缩架构的数值测试。

评测结果如表所示。结果表明,本文方法在 PSNR、SSIM 等指标上取得了相对更优的性能。此外,即便在 4×4×2 的较高压缩率条件下,该方法仍然能够有效保持原始图像结构。



压缩重建的视觉比较。展示了使用不同可能的神经网络结构和各种压缩设置进行预训练后的重建结果。



记忆压缩模型预训练的影响。展示了使用或未使用记忆压缩模型预训练的结果。输入是相同的 20 秒历史视频,在输出帧中可视化中间帧。

除此以外,研究团队还在论文中讨论了不同神经网络架构设计之间的权衡取舍。

更多信息,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈永贵说:毛主席和周总理百年之后,只有邓小平能支撑中国

陈永贵说:毛主席和周总理百年之后,只有邓小平能支撑中国

华人星光
2025-12-30 11:37:53
5人反穿鳌山最新!2人身亡1人坠崖,救援队曝猛料,一点也不无辜

5人反穿鳌山最新!2人身亡1人坠崖,救援队曝猛料,一点也不无辜

游者走天下
2026-01-06 15:38:50
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
省委书记不打招呼、直奔现场

省委书记不打招呼、直奔现场

新京报政事儿
2026-01-06 22:37:08
马杜罗卫队确实殊死抵抗,不过却是古巴人,最终阵亡了32人

马杜罗卫队确实殊死抵抗,不过却是古巴人,最终阵亡了32人

战风
2026-01-05 11:45:55
2026年4款全新MPV曝光:零跑将推“半价MEGA”,吉利华为有新品

2026年4款全新MPV曝光:零跑将推“半价MEGA”,吉利华为有新品

蜗牛车志V
2026-01-07 10:53:12
呼吁美军抓普京,泽连斯基话音刚落就失联了?后方基地被炸成火海

呼吁美军抓普京,泽连斯基话音刚落就失联了?后方基地被炸成火海

书纪文谭
2026-01-07 13:35:39
分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

娱说瑜悦
2026-01-06 17:28:42
被司晓迪点名后,“一言不发”的张一山,终不再顾及所谓的体面

被司晓迪点名后,“一言不发”的张一山,终不再顾及所谓的体面

查尔菲的笔记
2026-01-05 20:53:02
20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

元哥说历史
2026-01-05 07:45:02
杨利伟“成名”背后:妻子做出巨大牺牲,女儿已离世

杨利伟“成名”背后:妻子做出巨大牺牲,女儿已离世

老特有话说
2025-12-14 17:53:35
她是国家一级演员,享正军级待遇,离异后至今单身,67岁依然美丽

她是国家一级演员,享正军级待遇,离异后至今单身,67岁依然美丽

老谢谈史
2025-12-16 14:59:41
0.9分0.7板!真没油了!再见,马刺

0.9分0.7板!真没油了!再见,马刺

篮球教学论坛
2026-01-07 13:22:46
广东今日早报!朱芳雨回购徐昕,徐杰最新伤情,麦考尔主动请战

广东今日早报!朱芳雨回购徐昕,徐杰最新伤情,麦考尔主动请战

多特体育说
2026-01-07 06:20:03
血管堵塞的真凶是肉?是糖?都不是,而是它,比肥肉伤 10 倍!

血管堵塞的真凶是肉?是糖?都不是,而是它,比肥肉伤 10 倍!

神奇故事
2025-12-18 22:10:05
CBA拿到10000分有多难?31年来历史仅5人,王治郅差312分,姚易呢

CBA拿到10000分有多难?31年来历史仅5人,王治郅差312分,姚易呢

兵哥篮球故事
2026-01-07 11:09:47
进口头孢西力欣涨价30倍!国内已停供2年,医生称非理性囤货没必要

进口头孢西力欣涨价30倍!国内已停供2年,医生称非理性囤货没必要

红星资本局
2026-01-06 19:35:05
0:4+0:11惨败!21岁陈熠多哈赛硬仗掉链子,冲冠遇考验

0:4+0:11惨败!21岁陈熠多哈赛硬仗掉链子,冲冠遇考验

阿晞体育
2026-01-07 12:23:07
林良锋:有一个人可救曼联,但曼联看不明白

林良锋:有一个人可救曼联,但曼联看不明白

体坛周报
2026-01-07 13:47:21
女子攀爬江苏一景区野道不慎坠崖?官方回应:事发点不到2米高

女子攀爬江苏一景区野道不慎坠崖?官方回应:事发点不到2米高

半岛晨报
2026-01-05 21:00:03
2026-01-07 14:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12068文章数 142530关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

外媒披露美国在委内瑞拉下个目标:系马杜罗关键盟友

头条要闻

外媒披露美国在委内瑞拉下个目标:系马杜罗关键盟友

体育要闻

全明星次轮票数:东契奇票王 詹皇超KD升西部第8

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

50万亿存款"洪流"将至 四大去向引关注

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

健康
家居
旅游
公开课
军事航空

这些新疗法,让化疗不再那么痛苦

家居要闻

宁静不单调 恰到好处的美

旅游要闻

黄山雪霁现雾凇云海奇观

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版