如今的 Transformer 仍难以生成一分钟的视频,原因在于自注意力机制在处理长上下文时效率低下。替代方法如 Mamba 层在生成复杂多场景故事方面也存在困难,因为它们的隐藏状态表达能力较弱。英伟达提出了一种新方法TTT-MLP,尝试引入测试时训练(Test-Time Training, TTT)层,其隐藏状态本身可以是神经网络,因此具有更强的表达能力。将 TTT 层加入预训练的 Transformer 中,使其能够根据文本故事板生成一分钟的视频。(链接在文章底部)
作为概念验证,基于《猫和老鼠》卡通片构建了一个数据集。与 Mamba 2、Gated DeltaNet 和滑动窗口注意力等基线方法相比,TTT 层生成的视频在讲述复杂故事方面更加连贯,尽管结果令人兴奋,但仍存在一些伪影,可能是由于预训练的 50 亿参数模型能力有限。
01 技术原理
左图:在每个注意力层之后添加了一个带有可学习门控机制的 TTT 层,从而修改了原始架构。右图:整体流程将输入序列划分为由多个 3 秒片段组成的结构。这种结构使能够在局部片段上应用自注意力层,同时在整个序列范围内全局应用 TTT 层。
左图:为减少每个 SM(流处理器)在 TTT-MLP 中所需的内存,将隐藏状态中的权重矩阵 W(1) 和 W(2) 在多个 SM 之间进行分片,仅在初始加载和最终输出时在 HBM(高带宽内存)与 SMEM(共享内存)之间传输。右图:在片上完整地更新隐藏状态,并利用 NVIDIA Hopper GPU 架构中的 DSMEM(分布式共享内存)功能,在多个 SM 之间对中间激活值执行 AllReduce 操作。
TTT 层使预训练的扩散式 Transformer 能够根据文本故事板生成一分钟的视频。以《猫和老鼠》卡通片作为概念验证。这些视频讲述了由动态动作组成的连贯场景中的复杂故事。每个视频均由模型一次性直接生成,未经过任何剪辑、拼接或后期处理。每个故事都是全新创作的。
02 演示效果与对比
局部注意力在保持汤姆的颜色一致性、杰瑞的老鼠洞位置以及汤姆身体形态方面表现不佳,容易出现失真。但TTT-MLP在整个视频过程中展现出出色的人物一致性和时间一致性。
TTT-MLP在时间一致性、运动平滑性和整体美学方面优于所有其他基准模型,且在人类评估的Elo评分中表现最佳。(Mamba 2 在汤姆咆哮和追赶杰瑞时扭曲了汤姆的外貌;Gated DeltaNet 在汤姆的不同角度之间缺乏时间一致性;滑动窗口注意力改变了厨房环境,并且重复了杰瑞偷派的场景。)
局限性:生成的一分钟视频展示了作为概念验证的明显潜力,但仍然包含明显的伪影。(时间一致性:盒子在相同场景的3秒段落之间发生形变;运动自然性:奶酪悬浮在空中,而不是自然地落到地面;美学:当汤姆转身时,厨房的光线变得异常明亮。)
https://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
https://github.com/test-time-training/ttt-video-dit欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.