如何让AI视频生成不再“失忆”？新研究突破长期记忆瓶颈|算法|序列|top|新论文

分享至

当AI开始忘记自己在画什么的时候,视频就会变得一团糟。来自南京大学、地平线机器人和中国移动的研究团队找到了一个巧妙的解决方案,就像给AI装上了一个"智能提醒器",让它在生成长视频时不再犯糊涂。

当AI画视频遇到的"连环翻车"问题

设想你正在用AI生成一段自动驾驶的视频场景。开始的几帧画面看起来很完美:道路清晰、树木自然、天空蔚蓝。但随着视频继续生成,奇怪的事情发生了。到第25帧时,路面标线开始变得模糊;到第45帧,道路两旁的树木变成了绿色的糊状物;等到第75帧,整个画面已经变成了一片诡异的蓝绿色混合物,完全看不出原本应该是什么样子。

这不是某个特定AI模型的问题,而是几乎所有"自回归"视频生成模型都会遇到的通病。自回归模型的工作方式类似于接力赛:它先生成第一帧画面,然后基于第一帧生成第二帧,再基于前两帧生成第三帧,如此循环往复。这种方式的问题在于,每一步的小错误都会被传递到下一步,就像多米诺骨牌一样,越到后面错误累积得越严重,最终导致视频质量严重恶化。

研究团队发现了一个有趣的现象:同样的技术在大语言模型中表现得很好,为什么用到视频生成上就不行了呢?答案藏在"信息密度"这个概念里。当我们说"我沿着街道走"这句话时,每个词都承载着明确的意义,"街道"就是街道,不可能是别的东西。但视频中的每个像素点就不一样了,天空中某个位置的蓝色可以有无数种细微的变化,草地上某片区域的绿色也可以有千百种呈现方式。这种高度的"冗余性"让AI在每一步都面临着海量的选择,稍有不慎就会选错方向。

熵:衡量AI"迷茫程度"的温度计

为了理解AI在生成每个画面元素时有多"迷茫",研究团队引入了一个来自信息论的概念:熵。可以把熵理解为"不确定性"的度量单位。当AI对接下来要生成什么非常确定时,熵值就低;当AI觉得有很多种可能性时,熵值就高。

研究人员通过热力图直观地展示了这种现象。在生成的驾驶场景视频中,蓝色区域代表低熵(AI很确定),红色区域代表高熵(AI很迷茫)。他们发现了一个规律:天空、树叶、路面这些具有重复纹理的区域往往是高熵区,因为这些地方的细节可以有很多种合理的呈现方式;而物体边缘、道路标线、树木与天空的分界线等结构化的内容则是低熵区,因为这些地方的形态相对固定,AI比较容易判断。

更严重的问题是"熵崩塌"现象。研究团队观察到,在传统方法生成长视频的过程中,低熵区域会逐渐扩张,就像传染病一样蚕食原本的高熵区域。到了视频后期,原本应该有丰富细节的树叶变成了纯色块,原本应该有裂纹的路面变成了光滑的平面。这就好比AI变得越来越"懒",对细节越来越不上心,最终整个画面失去了真实感。

现有采样策略为什么会"水土不服"

在文本生成领域,有两种经典的采样策略非常流行:Top-k和Top-p(也叫nucleus采样)。Top-k的做法是每次只从概率最高的k个候选词中选择,比如k设为30,就意味着每次从概率最高的30个词中随机挑一个。Top-p的做法是选择累积概率达到p的最少候选集,比如p设为0.8,就选择那些累积起来概率达到80%的词。

这两种方法在文本生成中效果很好,但用到视频生成上就出了问题。原因在于它们都采用"一刀切"的策略:不管当前位置的不确定性如何,都用同样的标准来选择候选项。

对于低熵区域(比如道路边缘),AI其实已经很确定应该画什么了,这时候如果还提供30个候选项,就等于引入了不必要的噪声,反而会破坏原本清晰的结构。就好比你明明知道答案是"猫",却非要在"猫"、"狗"、"兔子"里随机选一个,结果可能选错。

对于高熵区域(比如树叶纹理),情况正好相反。如果只提供很少的候选项,AI可能会一直重复某几种模式,导致树叶看起来像是用印章盖出来的一样。而且一旦某一步选错了,后面就会基于这个错误继续犯错,错误像雪球一样越滚越大。

ENkG:给每个位置定制专属"候选名单"

研究团队提出的解决方案叫做ENkG,全称是"熵引导的k保护采样"。这个名字听起来很学术,但原理其实很直观:根据每个位置的熵值(不确定性)来动态调整候选项的数量。

具体来说,ENkG的工作流程分为三步。第一步,计算当前位置的熵值,然后将其归一化到0到1之间,这样就得到了一个标准化的"迷茫度指标"。第二步,通过一个线性映射公式,将这个迷茫度转换为应该选择的累积概率阈值。研究团队设定的默认参数是:当熵值在0.25到0.6之间变化时,对应的概率阈值从0.65变化到0.9。这意味着对于低熵区域,只选择累积概率达到65%的候选项(候选集较小);对于高熵区域,选择累积概率达到90%的候选项(候选集较大)。

第三步是"k保护"机制,这是ENkG的核心创新之一。即使在极低熵的情况下,系统也会强制保留至少k个候选项(默认k=3)。这个设计非常关键,因为它避免了两个极端:既不会像纯贪婪算法那样完全确定性地选择单一结果(这会加速纹理退化),也不会引入过多噪声。这就像是给AI设置了一个"最低探索配额",确保它始终保持一定程度的灵活性,不至于钻进死胡同出不来。

整个算法的美妙之处在于它的"无侵入性"。研究团队不需要重新训练模型,不需要修改模型架构,只需要在生成视频的推理阶段改变采样策略就行。这意味着ENkG可以立即应用到任何现有的自回归视频生成模型上,就像是给旧车装上了新的导航系统,不需要换车,只需要换个软件。

效果有多明显?数据说话

研究团队在多个视频生成模型上测试了ENkG的效果,包括DrivingWorld(自动驾驶场景)、VaVIM(通用视频)和Cosmos(英伟达的模型)。他们使用了两个数据集:自己收集的DiverseDrive和公开的nuPlan数据集。

在DiverseDrive数据集上,ENkG让DrivingWorld模型的FVD指标(衡量视频真实度)从696降到了489,降幅达到30%;FID指标(衡量单帧图像质量)从61.78降到26.61,降幅高达57%。对于VaVIM模型,FVD从1473降到1055,FID从91.75降到46.76。即使是在nuPlan数据集上(模型本来就在这个数据集上训练得很好),ENkG仍然能带来明显提升。

从视觉效果来看,差异更加直观。在传统Top-k采样生成的视频中,到第75帧时,道路标线已经完全模糊,路边的树木变成了绿色的色块,整个天空呈现出不自然的蓝绿色。而使用ENkG生成的视频中,即使到第75帧,道路标线依然清晰可见,树木保持着自然的形态和纹理,天空的渐变也很自然。

VaVIM模型的对比更加戏剧化。使用贪婪采样时,模型生成的视频在第40帧之后几乎陷入了"冻结":车辆停在原地不动,整个画面像是被按下了暂停键。这是因为模型陷入了低熵陷阱,每一帧都重复生成几乎相同的内容。而ENkG通过k保护机制保持了最低限度的多样性,让视频保持了流畅的动态感。

研究团队还进行了长时程测试,生成了200帧的视频序列。传统方法在100帧之后就开始出现明显的色彩偏移和背景模糊,到200帧时整个画面已经面目全非。ENkG生成的视频则始终保持了良好的视觉质量,虽然也有细微的累积误差,但远远没有到崩溃的程度。

消融实验:每个设计都有用吗?

为了验证ENkG中每个组成部分的作用,研究团队进行了消融实验。他们分别测试了去掉熵自适应引导和去掉k保护机制的版本。

当去掉熵自适应引导(也就是对所有位置使用固定的采样策略)时,FVD从489上升到532,FID从26.61上升到41.43。视觉效果上,视频出现了明显的纹理退化和色彩偏移问题,说明根据不确定性动态调整候选集大小确实是必要的。

当去掉k保护机制时,FVD从489上升到552,FID从26.61上升到39.76。更严重的是,视频在第60帧之后开始出现"帧冻结"现象:前景中的车辆应该在移动,但实际上几乎停在了原地。这证明了k保护机制在防止模型陷入过度确定性方面发挥了关键作用。

研究团队还测试了不同k保护值的影响。他们发现k=1(相当于没有保护)时效果最差,而k在2到15之间时效果都比较稳定,最终选择k=3作为默认值,在性能和计算效率之间取得了良好平衡。

对于熵映射的参数敏感性,研究团队测试了三种配置:保守型(低熵对应更低的概率阈值)、默认型和激进型(高熵对应更高的概率阈值)。结果显示默认配置效果最好,但即使使用相对极端的参数,性能下降也不太明显,说明ENkG对参数选择并不敏感,具有良好的鲁棒性。

为什么别的方法不够好?

可能有人会问:为什么不直接优化现有的Top-k或Top-p参数呢?研究团队确实做了详尽的参数搜索。他们测试了Top-p从0.5到1.0的各个取值,Top-k从30到500的各个取值,甚至测试了Top-p和Top-k结合使用的各种组合。

结果发现,即使是表现最好的静态配置(比如Top-k=90或Top-p=1.0),FVD也在530以上,FID在34以上,仍然明显差于ENkG的489和26.61。而且,这些"最优"的静态配置往往会导致其他问题。比如当Top-k设置得很大时,虽然FVD数值看起来还可以,但生成的视频在视觉上呈现出明显的"破碎感":物体的结构不连贯,好像被打碎后又拼接起来一样。

这说明ENkG的优势不是来自于更精细的参数调整,而是来自于根本性的策略改进:从"一刀切"变成了"量体裁衣",根据每个位置的实际需求来决定候选集大小。

ENkG能用在其他模型上吗?

为了验证ENkG的通用性,研究团队在两个非自动驾驶领域的模型上进行了测试:Lumos-1(通用视频生成)和NBP(下一块预测)。

在Lumos-1模型上,ENkG同样展现出了明显优势。原始模型使用Top-pk组合采样(先Top-k再Top-p)生成的48帧视频序列,到后期会出现明显的色彩失真和纹理模糊。例如,一个城市夜景的视频,到第36帧时建筑物的灯光开始变得不自然,到第48帧整个画面呈现出诡异的色调。使用ENkG后,视频始终保持了自然的色彩和清晰的细节。

在NBP模型上测试了UCF-101数据集(包含各种人类动作的视频)。原始模型在生成复杂动作时容易出现运动模糊和前景背景混淆的问题。ENkG改善了这些问题,生成的视频中人物动作更加清晰连贯。

这些跨领域的测试表明,ENkG不仅仅适用于自动驾驶场景,而是一个通用的解决方案,可以应用于各种类型的自回归视频生成任务。

视频token和语言token的根本区别

研究团队深入分析了为什么同样的采样策略在文本和视频生成中表现如此不同。他们对比了大语言模型Qwen2.5和视频模型DrivingWorld的输出分布。

在语言模型中,概率最高的token通常能占到70-80%的概率质量,前20个候选token基本上就覆盖了99%以上的概率。这是因为在给定上下文的情况下,下一个词往往有相对明确的少数几个合理选项。例如,"我沿着街道____",下一个词大概率是"走"、"跑"或"骑车",其他选项的概率都很低。

但在视频模型中,情况完全不同。概率最高的token平均只占约20%的概率质量,前20个候选token的概率分布非常平坦,没有明显的主导者。这反映了视频内容的本质特征:在时空上高度冗余,单个token不承载独特的语义信息。天空中某个像素点可以是无数种细微不同的蓝色,草地上某个区域可以是无数种略有差异的绿色。

更有意思的是,研究团队发现视频模型的平均熵随着生成时长逐渐下降。在生成的前几帧,平均熵大约在1.1左右;到了第30帧,下降到约0.8;如果继续生成到第100帧,甚至会降到0.6以下。这种"熵衰减"现象在语言模型中并不明显,因为语言token的高语义密度防止了模型陷入过度自信的循环。

低熵陷阱的视觉表现

低熵陷阱不仅仅是一个数值上的现象,它在视觉上有非常明确的表现形式。研究团队总结了三种主要的视觉退化模式。

第一种是"背景涂抹"。在长时程生成中,原本应该有丰富细节的背景区域(如远处的树林、天空中的云朵)逐渐失去结构,变成模糊的色块。就好比用湿画笔在水彩画上反复涂抹,最终所有细节都糊成一片。这种现象通常从第50帧左右开始显现,到第100帧时变得非常明显。

第二种是"全局色偏"。整个画面的色调会朝着某个不自然的方向漂移。例如,一个正常光照下的街景,到了视频后期整个画面可能变得偏蓝或偏绿,看起来像是加了错误的滤镜。这不是局部的色彩问题,而是整个帧的色彩空间发生了系统性偏移。

第三种是"纹理冻结"。细腻的纹理(如草地的质感、水面的波纹、树叶的脉络)变得异常静态和重复。这些原本应该随着视角变化而动态呈现的细节,变得像是贴纸一样粘在物体表面,完全失去了自然感。

这三种退化模式都与低熵陷阱有关:模型变得过度自信,反复生成高概率但缺乏多样性的token,最终导致视觉质量的系统性崩溃。ENkG通过k保护机制强制保持最低限度的探索,有效防止了模型陷入这种恶性循环。

至顶AI实验室洞见

这项研究揭示了一个重要洞察:AI生成视频的质量,不仅取决于模型有多强大,也取决于我们如何让模型做决策。就像一个有经验的厨师知道什么时候该大胆尝试新配料,什么时候该严格遵循配方,ENkG教会了AI在什么情况下该"放开想象",什么情况下该"谨慎行事"。这种简单而优雅的策略,可能预示着未来视频生成技术的一个重要方向:不仅要训练更好的模型,也要设计更聪明的推理策略。

对于普通用户来说,这项技术最直接的影响就是能够生成更长、更稳定、更真实的AI视频。无论是想用AI生成一段长达数分钟的自动驾驶测试视频,还是想创作一个完整的故事短片,ENkG都能让AI保持"记忆力",不会越画越离谱。而且最妙的是,这个技术可以直接应用到现有的各种视频生成工具上,不需要等待新模型的发布,只需要更新一下生成算法就行。

论文地址：

https://arxiv.org/pdf/2601.19488v1

END本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1:什么是熵崩塌现象?

A:熵崩塌是指在自回归视频生成过程中,低熵(低不确定性)区域逐渐扩张,高熵(高不确定性)区域不断缩小的现象。具体表现为:随着生成帧数增加,原本应该有丰富纹理细节的区域(如树叶、路面裂纹)变成了单调的纯色块,视频整体的平均熵值持续下降。这就像AI变得越来越"懒惰",对细节越来越不上心,最终导致生成的视频失去真实感和多样性。

Q2:ENkG采样策略为什么能防止错误累积?

A:ENkG的核心机制是根据每个位置的熵值动态调整候选token数量。对于低熵区域(如道路边缘),它使用较小的候选集来抑制不必要的噪声,保持结构稳定性;对于高熵区域(如树叶纹理),它使用较大的候选集来包含所有合理选项,避免模型过早锁定错误选择。特别是k保护机制确保即使在极低熵情况下也至少保留k个候选项,防止模型陷入完全确定性的"死循环",从而有效缓解了错误在时间维度上的累积放大效应。

Q3:ENkG能应用在哪些视频生成模型上?

A:ENkG是一个模型无关、无需训练的推理时策略,可以直接应用于任何基于自回归架构的视频生成模型。研究团队已在多个模型上验证了其有效性,包括自动驾驶领域的DrivingWorld和VaVIM,英伟达的Cosmos模型,以及通用视频生成的Lumos-1和NBP模型。只要是采用逐token或逐帧序列生成的模型,都可以通过简单替换采样策略来集成ENkG,无需修改模型架构或重新训练,这使其具有极强的实用性和推广价值。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.