![]()
这项由中国科学技术大学与FrameX.AI联合主导、独立研究员参与合作的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.04461。有兴趣深入了解的读者可通过该编号在arXiv平台上查阅完整论文。
**一、视频生成的烦恼:为什么AI拍出来的长视频总是"翻车"?**
你有没有用过AI生成视频的工具?短则几秒,长则十几秒,刚开始看还挺顺眼,但一旦时间拉长,画面就开始"漂移"——人物的脸变形了,背景的颜色跑偏了,原本流畅的动作开始抽搐,甚至前后两段画面里的主角好像换了个人。这种体验,就像你在看一部拍了一半就换了导演、换了摄影师、还换了布景的电影,前后毫无连贯感。
这并不是个别工具的问题,而是当前AI视频生成技术面临的普遍挑战。特别是在生成较长视频时,如何让画面从头到尾保持一致,是摆在研究者面前的一道硬题。
更棘手的是,想要让AI视频生成得更好,传统的思路是"堆钱堆算力"——用更大的模型、更多的训练数据、更长的训练时间。但这条路越走越贵,已经快走到天花板了。研究者们开始转变思路:既然训练阶段很难再大幅提升,能不能在视频生成的那一刻——也就是"推理阶段"——多下点功夫?
这个思路在大语言模型领域已经被验证过了。比如让AI在回答问题之前多"想一想",多考虑几种可能性再给出答案,结果往往比直接脱口而出要好得多。这种做法被称为"推理时扩展"(Test-Time Scaling,简称TTS)。研究者们自然想到:能不能把同样的方法用到视频生成上?
然而,把TTS搬到视频生成领域并不简单。以往的尝试,比如一种叫做ImagerySearch的方法,需要一次性生成整段视频再从中挑选最好的。这就像你要做一道菜,不管好不好吃,都得从头到尾做完整桌子才能选一个上菜——既费时又费力,而且一旦某个环节出了问题,整段视频就得全盘作废。更糟糕的是,这种方式完全没有办法在视频进行到一半时发现问题、及时纠正。
正是针对这些痛点,中科大与FrameX.AI的团队提出了一套全新的框架——Stream-T1。
**二、分段拍摄:流式视频生成为何天生适合"边想边做"?**
理解Stream-T1之前,先要搞清楚"流式视频生成"(Streaming Video Generation)是什么。
普通的AI视频生成,就像一位画家面对一张巨大的画布,要一笔一笔把整幅画画完,中间不能停、不能改、不能回头。而流式视频生成则更像是拍电视剧的方式:把整部剧切成一集一集来拍,每集拍完确认质量过关,再接着拍下一集,前一集的场景和人物设定会自然延续到下一集。
在技术层面,流式视频生成把视频切成一小段一小段(称为"chunk",可以理解为"片段"),每次只生成一段,并且每段只需要很少的去噪步骤(比如只需4步,而传统方法可能需要几十步)。这种"一段一段生成"的方式,天然地适合"边想边做"——生成完一段,评估一下好不好,再决定下一段怎么拍。
Stream-T1就是建立在这个基础上的。它把推理时扩展的思路和流式视频生成的特点完美结合,形成了一套包含三个核心机制的完整框架:噪声传播、奖励剪枝和记忆沉降。下面我们一个一个来说清楚。
**三、"遗传优良基因":噪声传播如何让每一段视频继承前一段的优点?**
拍电视剧时,导演会把前一集最精彩的结尾作为下一集的开头,确保故事衔接流畅。Stream-T1的第一个机制——"流式缩放噪声传播"(Stream-Scaled Noise Propagation)做的事情与此异曲同工。
在AI视频生成里,每一段视频都从一团"随机噪声"开始,然后通过一系列去噪步骤,逐步变成清晰的画面。这团初始噪声就像是视频的"种子",种什么样的种子,一定程度上决定了长出什么样的画面。
传统方法每次都从完全随机的噪声重新开始,就像每一集电视剧都临时找一批完全陌生的演员,当然很难保持风格一致。Stream-T1的做法是:把上一段视频里质量最好的那批"种子噪声"传递给下一段,作为新段落初始噪声的参考依据。
具体来说,新一段的初始噪声不是纯随机的,而是通过一种叫做"球面插值"的数学方法,在上一段的优质噪声和新的随机噪声之间找一个平衡点。公式非常优雅:新噪声等于上一段噪声乘以一个系数β,再加上一个新随机量乘以根号下(1减β?)。这个设计的精妙之处在于,不管β取什么值,新噪声的整体统计分布始终保持标准高斯分布,不会破坏AI模型对输入的基本要求。β越大,新段落和上一段的相关性越强;β越小,新段落就越"自由发挥"。
这就像是让新演员在上岗前先认真研究老演员的表演录像,既保留了自己的发挥空间,又确保了角色风格的延续性。实验证明,这种设计能有效减少相邻片段之间的"跳跃感",让视频整体更加流畅自然。
**四、"考官评卷":如何同时看顾眼前的画质和整体的连贯性?**
生成了多个候选片段之后,下一步是挑出最好的那个。但"好"的标准是什么?一段画面本身很精美,是好;但如果它跟前面的片段衔接很突兀、动作不连贯,那算不算好?
这就是Stream-T1第二个机制——"流式缩放奖励剪枝"(Stream-Scaled Reward Pruning)需要解决的问题。研究团队提出用一套双轨评分体系来评估每个候选片段。
第一条轨道叫做"短期评分",专门看当前这段视频的画面质量。评委是一个图像奖励模型,它会逐帧审查每一帧画面的美观程度,然后取平均分。这就像是让一位擅长品评静态摄影的摄影师来打分,专注于每一帧是否清晰、色彩是否饱和、构图是否合理。
第二条轨道叫做"长期评分",关注的是更长时间范围内的连贯性。评委是一个视频奖励模型,它不只看当前片段,而是把当前片段和前面若干段(用一个滑动窗口来控制范围)拼在一起,综合评估文字描述与视频内容是否吻合、画面质量如何、动作是否流畅连贯。这就像是让一位电影剪辑师来审看,他的眼睛不只停在单帧上,而是盯着整个故事的走向和节奏。
有了两个分数之后,还需要一个融合策略把它们合并成最终评分。研究团队设计了一个动态加权方案:在视频生成的早期阶段,更多地倚重长期分数,确保整体方向走对了;随着视频逐渐生成到后期,短期分数的权重逐渐上升,确保每一帧的画质也经得起推敲。不过这个权重的上升有上限,一旦达到预设的阈值就不再继续增加,目的是防止过于追求单帧美观而导致画面"原地踏步"——也就是画面虽然好看,但动作停滞不前、内容不再变化。
通过这套双轨评分和动态加权机制,Stream-T1在每一步都能选出局部画质和整体连贯性之间最均衡的候选片段,确保视频既好看又流畅。
**五、"智慧档案馆":如何让AI记住过去却不被过去淹没?**
流式视频生成有一个与生俱来的挑战:随着视频越来越长,AI需要记住的"历史画面"也越来越多,内存很快就会撑爆。为了解决这个问题,研究者们通常会设置一个"滑动窗口"——只保留最近几段视频的记忆,更早的内容就从记忆中删除。
但这样做有个明显的弊端:如果把早期的关键画面全删掉,AI就会忘记"主角是谁"、"场景在哪",导致后面生成的内容开始漂移。一些研究者尝试把最开始的几帧固定保留下来作为"锚点",但如果故事中间发生了重大变化(比如换了场景),这个固定锚点就会造成混乱。还有人尝试用数学方法把所有历史记忆"压缩融合"成一个简化版本,但这样做在场景切换时会把不同场景的特征混在一起,产生奇怪的"幻影"效果。
Stream-T1的第三个机制——"流式缩放记忆沉降"(Stream-Scaled Memory Sinking)用了一套更聪明的方案:根据情况决定如何处理被挤出窗口的旧记忆,而不是一刀切地删除或压缩。
具体来说,每当一段旧视频要被从记忆窗口挤出时,系统会先做两个判断。第一个判断叫"质量门控":这段旧视频本身的画质够不够好?如果连自己都是个劣质片段,那就直接丢弃,不值得保留——这样可以防止糟糕的历史信息污染未来的生成。
通过了质量门控之后,系统还会做第二个判断叫"场景切换检测":这段旧视频和它前一段相比,整体连贯性评分是否发生了明显下降?如果没有明显下降,说明当前视频仍在同一场景内平稳推进,这段旧记忆和现有记忆高度重叠,可以通过"指数移动平均"(EMA)的方式把它融合进最新的记忆快照里——就像是把几张相似的照片叠在一起取平均,保留共同特征而去掉冗余细节。
但如果连贯性评分发生了大幅下降,说明场景可能发生了切换或者动作发生了剧烈变化,这时候如果还用叠平均的方式处理,就会把新旧场景的特征混在一起产生混乱。这种情况下,系统会把这段旧记忆作为一个独立的"锚点"直接追加到记忆库里,单独保存,确保它的特征不被污染。
通过这三种路径——丢弃、融合更新、独立追加——Stream-T1的记忆管理系统就像一个聪明的档案管理员:垃圾不存,重复的内容精简归档,重要的转折点单独建档保存。这样既不会让内存爆炸,也能确保AI在生成后续内容时随时可以翻阅到最关键的历史资料。
**六、实验数据:Stream-T1到底强在哪?**
研究团队在两个不同长度的视频生成任务上验证了Stream-T1的效果,分别是5秒短视频和30秒长视频。对比对象包括CausVid、Self-Forcing和LongLive三种当前较为先进的开源方法。
在5秒视频的测试中,Stream-T1在主体一致性、背景一致性、动作流畅性、美观度、动作质量和文字对齐度六项指标上均排名第一,仅在成像质量和视觉质量两项上位居第二。相比基准模型LongLive,Stream-T1的动作质量提升约79.71%,文字对齐度提升约9.39%,视觉质量提升约49.47%,这些都是非常显著的改善。
在更具挑战性的30秒长视频测试中,Stream-T1的优势更加突出,几乎在所有指标上都拿下了第一名,包括主体一致性、背景一致性、动作流畅性、成像质量、美观度、视觉质量和文字对齐度。其中动作质量这一项相比LongLive提升幅度极为惊人,达到了11400%——这不是笔误,背后的原因是LongLive在长视频生成中动作质量几乎接近零,而Stream-T1能够稳定维持合理的动作表现。
研究团队还专门把Stream-T1和其他推理时扩展方法做了对比,包括"最优N选一"(Best-of-N,即生成N个视频从中挑最好那个)和标准束搜索(Beam Search,即同时维护多条候选路径逐步筛选)。结果显示,这两种方法虽然也能带来一些改善,但都不如Stream-T1全面。背后的逻辑在于:前两种方法都是"被动选择"——只能从已经生成好的视频里挑,而Stream-T1是"主动干预"——在生成过程中就通过噪声传播和记忆管理积极引导方向,从根源上提高了生成质量的上限。
为了验证三个核心组件各自的贡献,研究团队还做了消融实验,分别测试去掉其中某一个组件时的效果。去掉记忆沉降后,视频的主体一致性和背景一致性明显下降,虽然单帧成像质量小有提升,但整体连贯性严重受损。去掉噪声传播后,各项指标普遍下滑,说明它对于系统整体稳定性的贡献是全面性的。去掉奖励剪枝后,成像质量略有提升但其余所有指标都大幅下降,揭示出如果没有长短期联合评分的指引,系统会陷入"只追求单帧美观而牺牲整体连贯性"的困境。三个组件缺一不可,共同构成了Stream-T1的完整能力。
**七、这对我们意味着什么?**
说到底,Stream-T1解决的是一个很实际的问题:怎么让AI生成的长视频变得更靠谱,同时不要花太多钱。
以往想要让AI视频生成更好,要么花大钱训练更大的模型,要么接受凑合的质量。Stream-T1提供了第三条路:在生成过程中用更聪明的策略来引导AI,无需改变模型本身,就能显著提升视频质量,尤其是在长达30秒这样对AI来说颇具挑战性的长度上。
从更长远的视角来看,这套框架的思路——把推理时扩展与流式生成的分段特性结合起来,同时通过噪声传播、质量评估和动态记忆管理三管齐下——为后续的研究提供了一个值得参考的范本。未来随着流式视频生成模型越来越普及,类似的推理时优化策略很可能成为标配。
当然,目前Stream-T1还建立在特定的基础模型(LongLive,基于Wan2.1-T2V-1.3B)之上,能否无缝迁移到其他架构的生成模型上,还需要进一步验证。另外,更长的视频(比如几分钟甚至更长)在记忆管理上面临的挑战会进一步加剧,这也是未来值得探索的方向。
对这项研究感兴趣的读者,可以通过arXiv:2605.04461找到完整论文,团队也在stream-t1.github.io上提供了项目页面供参考。
Q&A
Q1:Stream-T1和普通的AI视频生成有什么区别?
A:普通AI视频生成要么一次性生成整段视频,要么逐帧生成但缺乏质量评估。Stream-T1把视频切成小片段逐段生成,每段生成后都用双轨评分系统评估画质和连贯性,并通过噪声传播让每段继承上一段的优良特征,同时动态管理历史记忆,整体上对生成过程进行主动干预而非被动筛选。
Q2:Stream-T1的记忆沉降机制是如何判断场景切换的?
A:记忆沉降通过监测"长期视频奖励评分"的变化来判断场景切换。具体来说,系统会计算当前片段与上一片段的长期连贯性评分差值,如果差值超过预设阈值,则认为发生了场景切换或剧烈动作变化,此时会把被挤出窗口的旧片段作为独立锚点追加保存,而非融合压缩,以避免不同场景特征混淆。
Q3:Stream-T1在30秒长视频测试中动作质量为何提升了11400%?
A:这个数字看起来夸张,但背后有合理解释。基准模型LongLive在30秒长视频生成中动作质量评分极低,接近于零,这是因为长视频生成过程中动作连贯性迅速崩溃。而Stream-T1通过噪声传播、奖励剪枝和记忆沉降三重机制维持了稳定的动作质量,从接近零的基准大幅跃升,百分比增幅因此显得极为惊人。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.