网易首页 > 网易号 > 正文 申请入驻

ControlNet作者张吕敏最新论文:长视频也能实现超短上下文

0
分享至



编辑|冷猫

大部分的高质量视频生成模型,都只能生成上限约15秒的视频。清晰度提高之后,生成的视频时长还会再一次缩短。

这就让尝试AI视频创意的创作者们非常苦恼了。要想实现创意,必须使用分段生成,结合首尾帧,不仅操作起来很麻烦,而且需要来回抽卡来保证画面的一致性。

那么,限制视频生成时长的瓶颈在哪里?

大家可能不知道的是,一段 60 秒、480p、24 帧/秒的视频,在模型内部会被拆解成超过 50 万个「潜在 token」

这些 token 就像一条极长的记忆胶带,模型想要保持剧情连贯、画面一致,就必须从头到尾保存上下文记忆。但代价是:算力直接爆炸,普通显卡根本扛不住。

这正是当前自回归视频生成模型的核心矛盾。一边是越长的上下文,画面越连贯;另一边是越长的上下文,计算成本越高。

于是,研究者们不得不做出妥协:要么用滑动窗口切掉大部分历史,换取可运行的算力;要么对视频进行激进压缩,牺牲清晰度和细节。

问题在于,这些压缩方法往往最先丢掉的,正是决定画面真实感与一致性的高频细节。

也正是在这一困境下,苏州大学校友,斯坦福大学博士,ControlNet 创作者张吕敏团队为此投入了研究提出了一种新的解决思路,给出了专为长视频设计的记忆压缩系统,在压缩的同时尽可能保留精细视觉信息。



  • 论文标题:Pretraining Frame Preservation in Autoregressive Video Memory Compression
  • 论文链接:https://arxiv.org/abs/2512.23851v1

研究团队提出了一种神经网络结构,用于将长视频压缩为短上下文,并设计了一种显式的预训练目标,使模型能够在任意时间位置保留单帧中的高频细节信息。

基线模型可以将一段20 秒的视频压缩为约 5k 长度的上下文表示,同时支持从中随机检索单帧,并在感知质量上保持良好的外观保真度

这种预训练模型可以直接微调为自回归视频模型的记忆编码器(memory encoder),从而以较低的上下文成本实现长历史记忆建模,并且仅带来相对较小的保真度损失。



该视频是使用完整历史上下文(不切割任何历史帧)逐秒自回归生成的。20 多秒的历史被压缩为 ∼ 5k 上下文长度,并由 RTX 4070 12GB 处理。

全新的记忆压缩架构

具体而言,研究团队采用两阶段策略

首先,预训练一个专用的记忆压缩模型,其目标是在任意时间位置上尽可能保留高保真帧级细节信息。

该预训练目标通过对从压缩历史中随机采样的帧最小化其特征距离来实现,从而确保模型在整个序列范围内都能稳健地编码细节信息。

在网络结构设计上,提出了一种轻量级双路径架构:模型同时处理低分辨率视频流和高分辨率残差信息流,并通过将高分辨率特征直接注入 Diffusion Transformer 的内部通道,绕过传统 VAE 所带来的信息瓶颈,从而进一步提升细节保真度。

预训练记忆压缩模型



记忆压缩模型的预训练。记忆压缩模型需要将长视频(例如 20 秒)压缩成短上下文(例如长度为 5k)。预训练的目标是在任意历史时间位置检索具有高频细节的帧。

该方法的核心创新在于其预训练目标设计

研究团队观察到,衡量视频压缩机制保留上下文细节能力的一个合适的指标是其任意时间位置高质量帧检索的能力。对于高压缩率,完美检索变得不切实际,因此目标变为最大化任意帧的检索质量。



随后,研究团队将所选的干净帧复制作为扩散模型的目标,使扩散系统能够在任意时间位置重建目标帧。该过程可表示为:



这种随机化选择机制有效防止模型通过仅编码易于访问的帧(例如首帧或末帧)来「投机取巧」,从而迫使模型学习一种能够在整个时间序列范围内持续保留细节信息的表示方式。



内存压缩模型的架构。使用 3D 卷积、SiLU 和注意力机制来构建一个轻量级的神经网络结构,作为基准压缩模型。

视频扩散模型的微调



微调自回归视频模型。展示了最终自回归视频模型的微调和推理过程。记忆压缩模型的预训练在微调之前完成。



由此得到的视频生成模型具备超长历史窗口(例如超过 20 秒)、极短的历史上下文长度(例如约 5k),并且对帧检索质量进行了显式优化。

该扩散过程亦可按照公式表示为:



实验结果

在实验中,研究团队使用 8 × H100 GPU 集群进行预训练,并使用 1 × H100s 或 A100s 进行 LoRAs 微调。所有实验均在 HunyuanVideo和 Wan 系列的基础模型上进行。

数据集由来自多个网站的约 500 万互联网视频组成。其中约一半是竖屏短视频,其余为普通横屏视频。数据经过质量清洗,然后使用 Gemini-2.5-flash VLM 对高质量部分进行字幕标注,剩余部分使用本地 VLM(如 QwenVL)进行处理。测试集包括由 Gemini-2.5-pro 编写的 1000 个故事板提示和 4096 个未在训练数据集中出现过的视频。

定性与定量评估



故事板上的定性结果。通过从故事板中流式传输提示来展示结果。故事板是一组提示,其中每个提示涵盖一定数量的帧。故事板可以由外部语言模型编写。

在定性评估方面,如图所示,研究者证明了模型能够处理多种多样的提示和故事板,同时在角色、场景、物体和情节线方面保持一致性。

在定量评估方面,研究者们从 VBench、VBench2等平台引入了多个视频评估指标,并进行了一些修改。



视频内容一致性的定量评测结果。其中,Qwen 中的 「1p」 表示仅使用 1 张图像 作为图像模型输入。由于部分方法存在严重伪影,因此未将其纳入人工 ELO 评分统计。

如表所示,本文提出的方法在多个一致性指标上表现出合理的分数。Wan+Qwen 组合在实例分数上似乎具有领先分数,这可能是由于图像模型不会显著改变或移动对象,从而避免了 VLM 问答检测到的伪影。本文的方法在对象一致性方面表现出有竞争力的分数。此外,用户研究和 ELO 分数验证了本文提出的架构,证实它在压缩和质量之间实现了有效的权衡。

消融实验



压缩结构的定量结果。展示了使用不同消融压缩架构的数值测试。

评测结果如表所示。结果表明,本文方法在 PSNR、SSIM 等指标上取得了相对更优的性能。此外,即便在 4×4×2 的较高压缩率条件下,该方法仍然能够有效保持原始图像结构。



压缩重建的视觉比较。展示了使用不同可能的神经网络结构和各种压缩设置进行预训练后的重建结果。



记忆压缩模型预训练的影响。展示了使用或未使用记忆压缩模型预训练的结果。输入是相同的 20 秒历史视频,在输出帧中可视化中间帧。

除此以外,研究团队还在论文中讨论了不同神经网络架构设计之间的权衡取舍。

更多信息,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子返程被堵高速,发现20多辆私家车占用应急车道行驶,花半小时挨个拍照举报,当事人发声;交警回应:处理中

女子返程被堵高速,发现20多辆私家车占用应急车道行驶,花半小时挨个拍照举报,当事人发声;交警回应:处理中

扬子晚报
2026-02-24 16:27:31
一个疯子,造出便宜100倍的AI芯片

一个疯子,造出便宜100倍的AI芯片

傅盛
2026-02-23 15:18:48
吵架将孩子扔河里后续:原因曝光,夫妻身份被扒,娃状态让人担忧

吵架将孩子扔河里后续:原因曝光,夫妻身份被扒,娃状态让人担忧

社会日日鲜
2026-02-24 09:37:52
妈祖被换女孩三天涨粉几十万:一场“自导自演”的流量狂欢?

妈祖被换女孩三天涨粉几十万:一场“自导自演”的流量狂欢?

听心堂
2026-02-24 11:27:44
女子返乡返程把狗装桶固定车顶走红,主人称“狗狗不愿意长时间坐在车内,想去外面透气”

女子返乡返程把狗装桶固定车顶走红,主人称“狗狗不愿意长时间坐在车内,想去外面透气”

观威海
2026-02-24 16:50:04
俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

网易新闻出品
2026-02-24 10:00:05
弱冷空气在广东“开工”,多地有分散性零星小雨!早晚有轻雾

弱冷空气在广东“开工”,多地有分散性零星小雨!早晚有轻雾

南方都市报
2026-02-24 11:37:04
“当心砸了你儿子的饭碗”,无知母亲晒公务员儿子做农活,被群嘲

“当心砸了你儿子的饭碗”,无知母亲晒公务员儿子做农活,被群嘲

妍妍教育日记
2026-02-24 18:13:37
“现在至少要10万”,有人刚花11万买进:这是刚需,不等了

“现在至少要10万”,有人刚花11万买进:这是刚需,不等了

最江阴
2026-02-24 19:15:01
百亿私募再论大方向!春节吹机器人、影视的沉默了,吹恒科的退群了

百亿私募再论大方向!春节吹机器人、影视的沉默了,吹恒科的退群了

金石随笔
2026-02-25 00:08:55
母亲刚过世,姨妈来电:你妈每月给我2500生活费得继续给,我笑了

母亲刚过世,姨妈来电:你妈每月给我2500生活费得继续给,我笑了

小影的娱乐
2026-02-24 20:06:50
机关事业单位“取消双休”即将提上日程?2026年会落地吗?

机关事业单位“取消双休”即将提上日程?2026年会落地吗?

复转小能手
2026-02-24 17:33:33
2月24日俄乌:俄罗斯四年未能实现任何目标

2月24日俄乌:俄罗斯四年未能实现任何目标

山河路口
2026-02-24 19:41:40
汪小菲官宣三胎出生:承诺会照顾好3个孩子,晒马筱梅与儿子合照

汪小菲官宣三胎出生:承诺会照顾好3个孩子,晒马筱梅与儿子合照

素素娱乐
2026-02-24 16:34:48
小卡合同或因违规被判无效 雄鹿全力争夺挽留字母

小卡合同或因违规被判无效 雄鹿全力争夺挽留字母

体坛周报
2026-02-25 09:05:16
李连杰晒影迷耗时100小时自制海报:谢谢这位有才的朋友;此前,该作者用成龙70部电影中的人物形象制作了海报,获大哥当面感谢

李连杰晒影迷耗时100小时自制海报:谢谢这位有才的朋友;此前,该作者用成龙70部电影中的人物形象制作了海报,获大哥当面感谢

极目新闻
2026-02-24 18:36:26
戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

不似少年游
2026-02-24 19:24:23
百万债务还清了!夫妻俩在杭州开饭店,8年来第一次回老家过年,临行宴请老顾客

百万债务还清了!夫妻俩在杭州开饭店,8年来第一次回老家过年,临行宴请老顾客

环球网资讯
2026-02-25 08:28:39
巴拿马接管长江和记两座港口,外交部:中方将坚决维护企业合法权益

巴拿马接管长江和记两座港口,外交部:中方将坚决维护企业合法权益

澎湃新闻
2026-02-24 15:30:29
一条手链涨24000元!周大福启动新一轮涨价,老铺黄金部分门店被抢购一空,只剩下柜台和柜姐……

一条手链涨24000元!周大福启动新一轮涨价,老铺黄金部分门店被抢购一空,只剩下柜台和柜姐……

极目新闻
2026-02-25 08:50:07
2026-02-25 09:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12344文章数 142569关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

87岁上海老人和59岁保姆结婚 称房子被卖遭多次打砸

头条要闻

87岁上海老人和59岁保姆结婚 称房子被卖遭多次打砸

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

时尚
健康
教育
亲子
房产

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

转头就晕的耳石症,能开车上班吗?

教育要闻

弧中点运用第2讲,一个视频学明白!

亲子要闻

坑弟弟,我是一把好手

房产要闻

330万人涌入!春节全国楼市,第一个卖爆的区域出现了!

无障碍浏览 进入关怀版