中科大联手FrameX.AI：让AI视频生成更聪明|单帧|流式|stream

分享至

这项由中国科学技术大学与FrameX.AI联合主导、独立研究员参与合作的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.04461。有兴趣深入了解的读者可通过该编号在arXiv平台上查阅完整论文。

**一、视频生成的烦恼：为什么AI拍出来的长视频总是"翻车"？**

你有没有用过AI生成视频的工具？短则几秒，长则十几秒，刚开始看还挺顺眼，但一旦时间拉长，画面就开始"漂移"——人物的脸变形了，背景的颜色跑偏了，原本流畅的动作开始抽搐，甚至前后两段画面里的主角好像换了个人。这种体验，就像你在看一部拍了一半就换了导演、换了摄影师、还换了布景的电影，前后毫无连贯感。

这并不是个别工具的问题，而是当前AI视频生成技术面临的普遍挑战。特别是在生成较长视频时，如何让画面从头到尾保持一致，是摆在研究者面前的一道硬题。

更棘手的是，想要让AI视频生成得更好，传统的思路是"堆钱堆算力"——用更大的模型、更多的训练数据、更长的训练时间。但这条路越走越贵，已经快走到天花板了。研究者们开始转变思路：既然训练阶段很难再大幅提升，能不能在视频生成的那一刻——也就是"推理阶段"——多下点功夫？

这个思路在大语言模型领域已经被验证过了。比如让AI在回答问题之前多"想一想"，多考虑几种可能性再给出答案，结果往往比直接脱口而出要好得多。这种做法被称为"推理时扩展"（Test-Time Scaling，简称TTS）。研究者们自然想到：能不能把同样的方法用到视频生成上？

然而，把TTS搬到视频生成领域并不简单。以往的尝试，比如一种叫做ImagerySearch的方法，需要一次性生成整段视频再从中挑选最好的。这就像你要做一道菜，不管好不好吃，都得从头到尾做完整桌子才能选一个上菜——既费时又费力，而且一旦某个环节出了问题，整段视频就得全盘作废。更糟糕的是，这种方式完全没有办法在视频进行到一半时发现问题、及时纠正。

正是针对这些痛点，中科大与FrameX.AI的团队提出了一套全新的框架——Stream-T1。

**二、分段拍摄：流式视频生成为何天生适合"边想边做"？**

理解Stream-T1之前，先要搞清楚"流式视频生成"（Streaming Video Generation）是什么。

普通的AI视频生成，就像一位画家面对一张巨大的画布，要一笔一笔把整幅画画完，中间不能停、不能改、不能回头。而流式视频生成则更像是拍电视剧的方式：把整部剧切成一集一集来拍，每集拍完确认质量过关，再接着拍下一集，前一集的场景和人物设定会自然延续到下一集。

在技术层面，流式视频生成把视频切成一小段一小段（称为"chunk"，可以理解为"片段"），每次只生成一段，并且每段只需要很少的去噪步骤（比如只需4步，而传统方法可能需要几十步）。这种"一段一段生成"的方式，天然地适合"边想边做"——生成完一段，评估一下好不好，再决定下一段怎么拍。

Stream-T1就是建立在这个基础上的。它把推理时扩展的思路和流式视频生成的特点完美结合，形成了一套包含三个核心机制的完整框架：噪声传播、奖励剪枝和记忆沉降。下面我们一个一个来说清楚。

**三、"遗传优良基因"：噪声传播如何让每一段视频继承前一段的优点？**

拍电视剧时，导演会把前一集最精彩的结尾作为下一集的开头，确保故事衔接流畅。Stream-T1的第一个机制——"流式缩放噪声传播"（Stream-Scaled Noise Propagation）做的事情与此异曲同工。

在AI视频生成里，每一段视频都从一团"随机噪声"开始，然后通过一系列去噪步骤，逐步变成清晰的画面。这团初始噪声就像是视频的"种子"，种什么样的种子，一定程度上决定了长出什么样的画面。

传统方法每次都从完全随机的噪声重新开始，就像每一集电视剧都临时找一批完全陌生的演员，当然很难保持风格一致。Stream-T1的做法是：把上一段视频里质量最好的那批"种子噪声"传递给下一段，作为新段落初始噪声的参考依据。

具体来说，新一段的初始噪声不是纯随机的，而是通过一种叫做"球面插值"的数学方法，在上一段的优质噪声和新的随机噪声之间找一个平衡点。公式非常优雅：新噪声等于上一段噪声乘以一个系数β，再加上一个新随机量乘以根号下(1减β?)。这个设计的精妙之处在于，不管β取什么值，新噪声的整体统计分布始终保持标准高斯分布，不会破坏AI模型对输入的基本要求。β越大，新段落和上一段的相关性越强；β越小，新段落就越"自由发挥"。

这就像是让新演员在上岗前先认真研究老演员的表演录像，既保留了自己的发挥空间，又确保了角色风格的延续性。实验证明，这种设计能有效减少相邻片段之间的"跳跃感"，让视频整体更加流畅自然。

**四、"考官评卷"：如何同时看顾眼前的画质和整体的连贯性？**

生成了多个候选片段之后，下一步是挑出最好的那个。但"好"的标准是什么？一段画面本身很精美，是好；但如果它跟前面的片段衔接很突兀、动作不连贯，那算不算好？

这就是Stream-T1第二个机制——"流式缩放奖励剪枝"（Stream-Scaled Reward Pruning）需要解决的问题。研究团队提出用一套双轨评分体系来评估每个候选片段。

第一条轨道叫做"短期评分"，专门看当前这段视频的画面质量。评委是一个图像奖励模型，它会逐帧审查每一帧画面的美观程度，然后取平均分。这就像是让一位擅长品评静态摄影的摄影师来打分，专注于每一帧是否清晰、色彩是否饱和、构图是否合理。

第二条轨道叫做"长期评分"，关注的是更长时间范围内的连贯性。评委是一个视频奖励模型，它不只看当前片段，而是把当前片段和前面若干段（用一个滑动窗口来控制范围）拼在一起，综合评估文字描述与视频内容是否吻合、画面质量如何、动作是否流畅连贯。这就像是让一位电影剪辑师来审看，他的眼睛不只停在单帧上，而是盯着整个故事的走向和节奏。

有了两个分数之后，还需要一个融合策略把它们合并成最终评分。研究团队设计了一个动态加权方案：在视频生成的早期阶段，更多地倚重长期分数，确保整体方向走对了；随着视频逐渐生成到后期，短期分数的权重逐渐上升，确保每一帧的画质也经得起推敲。不过这个权重的上升有上限，一旦达到预设的阈值就不再继续增加，目的是防止过于追求单帧美观而导致画面"原地踏步"——也就是画面虽然好看，但动作停滞不前、内容不再变化。

通过这套双轨评分和动态加权机制，Stream-T1在每一步都能选出局部画质和整体连贯性之间最均衡的候选片段，确保视频既好看又流畅。

**五、"智慧档案馆"：如何让AI记住过去却不被过去淹没？**

流式视频生成有一个与生俱来的挑战：随着视频越来越长，AI需要记住的"历史画面"也越来越多，内存很快就会撑爆。为了解决这个问题，研究者们通常会设置一个"滑动窗口"——只保留最近几段视频的记忆，更早的内容就从记忆中删除。

但这样做有个明显的弊端：如果把早期的关键画面全删掉，AI就会忘记"主角是谁"、"场景在哪"，导致后面生成的内容开始漂移。一些研究者尝试把最开始的几帧固定保留下来作为"锚点"，但如果故事中间发生了重大变化（比如换了场景），这个固定锚点就会造成混乱。还有人尝试用数学方法把所有历史记忆"压缩融合"成一个简化版本，但这样做在场景切换时会把不同场景的特征混在一起，产生奇怪的"幻影"效果。

Stream-T1的第三个机制——"流式缩放记忆沉降"（Stream-Scaled Memory Sinking）用了一套更聪明的方案：根据情况决定如何处理被挤出窗口的旧记忆，而不是一刀切地删除或压缩。

具体来说，每当一段旧视频要被从记忆窗口挤出时，系统会先做两个判断。第一个判断叫"质量门控"：这段旧视频本身的画质够不够好？如果连自己都是个劣质片段，那就直接丢弃，不值得保留——这样可以防止糟糕的历史信息污染未来的生成。

通过了质量门控之后，系统还会做第二个判断叫"场景切换检测"：这段旧视频和它前一段相比，整体连贯性评分是否发生了明显下降？如果没有明显下降，说明当前视频仍在同一场景内平稳推进，这段旧记忆和现有记忆高度重叠，可以通过"指数移动平均"（EMA）的方式把它融合进最新的记忆快照里——就像是把几张相似的照片叠在一起取平均，保留共同特征而去掉冗余细节。

但如果连贯性评分发生了大幅下降，说明场景可能发生了切换或者动作发生了剧烈变化，这时候如果还用叠平均的方式处理，就会把新旧场景的特征混在一起产生混乱。这种情况下，系统会把这段旧记忆作为一个独立的"锚点"直接追加到记忆库里，单独保存，确保它的特征不被污染。

通过这三种路径——丢弃、融合更新、独立追加——Stream-T1的记忆管理系统就像一个聪明的档案管理员：垃圾不存，重复的内容精简归档，重要的转折点单独建档保存。这样既不会让内存爆炸，也能确保AI在生成后续内容时随时可以翻阅到最关键的历史资料。

**六、实验数据：Stream-T1到底强在哪？**

研究团队在两个不同长度的视频生成任务上验证了Stream-T1的效果，分别是5秒短视频和30秒长视频。对比对象包括CausVid、Self-Forcing和LongLive三种当前较为先进的开源方法。

在5秒视频的测试中，Stream-T1在主体一致性、背景一致性、动作流畅性、美观度、动作质量和文字对齐度六项指标上均排名第一，仅在成像质量和视觉质量两项上位居第二。相比基准模型LongLive，Stream-T1的动作质量提升约79.71%，文字对齐度提升约9.39%，视觉质量提升约49.47%，这些都是非常显著的改善。

在更具挑战性的30秒长视频测试中，Stream-T1的优势更加突出，几乎在所有指标上都拿下了第一名，包括主体一致性、背景一致性、动作流畅性、成像质量、美观度、视觉质量和文字对齐度。其中动作质量这一项相比LongLive提升幅度极为惊人，达到了11400%——这不是笔误，背后的原因是LongLive在长视频生成中动作质量几乎接近零，而Stream-T1能够稳定维持合理的动作表现。

研究团队还专门把Stream-T1和其他推理时扩展方法做了对比，包括"最优N选一"（Best-of-N，即生成N个视频从中挑最好那个）和标准束搜索（Beam Search，即同时维护多条候选路径逐步筛选）。结果显示，这两种方法虽然也能带来一些改善，但都不如Stream-T1全面。背后的逻辑在于：前两种方法都是"被动选择"——只能从已经生成好的视频里挑，而Stream-T1是"主动干预"——在生成过程中就通过噪声传播和记忆管理积极引导方向，从根源上提高了生成质量的上限。

为了验证三个核心组件各自的贡献，研究团队还做了消融实验，分别测试去掉其中某一个组件时的效果。去掉记忆沉降后，视频的主体一致性和背景一致性明显下降，虽然单帧成像质量小有提升，但整体连贯性严重受损。去掉噪声传播后，各项指标普遍下滑，说明它对于系统整体稳定性的贡献是全面性的。去掉奖励剪枝后，成像质量略有提升但其余所有指标都大幅下降，揭示出如果没有长短期联合评分的指引，系统会陷入"只追求单帧美观而牺牲整体连贯性"的困境。三个组件缺一不可，共同构成了Stream-T1的完整能力。

**七、这对我们意味着什么？**

说到底，Stream-T1解决的是一个很实际的问题：怎么让AI生成的长视频变得更靠谱，同时不要花太多钱。

以往想要让AI视频生成更好，要么花大钱训练更大的模型，要么接受凑合的质量。Stream-T1提供了第三条路：在生成过程中用更聪明的策略来引导AI，无需改变模型本身，就能显著提升视频质量，尤其是在长达30秒这样对AI来说颇具挑战性的长度上。

从更长远的视角来看，这套框架的思路——把推理时扩展与流式生成的分段特性结合起来，同时通过噪声传播、质量评估和动态记忆管理三管齐下——为后续的研究提供了一个值得参考的范本。未来随着流式视频生成模型越来越普及，类似的推理时优化策略很可能成为标配。

当然，目前Stream-T1还建立在特定的基础模型（LongLive，基于Wan2.1-T2V-1.3B）之上，能否无缝迁移到其他架构的生成模型上，还需要进一步验证。另外，更长的视频（比如几分钟甚至更长）在记忆管理上面临的挑战会进一步加剧，这也是未来值得探索的方向。

对这项研究感兴趣的读者，可以通过arXiv:2605.04461找到完整论文，团队也在stream-t1.github.io上提供了项目页面供参考。

Q&A

Q1：Stream-T1和普通的AI视频生成有什么区别？

A：普通AI视频生成要么一次性生成整段视频，要么逐帧生成但缺乏质量评估。Stream-T1把视频切成小片段逐段生成，每段生成后都用双轨评分系统评估画质和连贯性，并通过噪声传播让每段继承上一段的优良特征，同时动态管理历史记忆，整体上对生成过程进行主动干预而非被动筛选。

Q2：Stream-T1的记忆沉降机制是如何判断场景切换的？

A：记忆沉降通过监测"长期视频奖励评分"的变化来判断场景切换。具体来说，系统会计算当前片段与上一片段的长期连贯性评分差值，如果差值超过预设阈值，则认为发生了场景切换或剧烈动作变化，此时会把被挤出窗口的旧片段作为独立锚点追加保存，而非融合压缩，以避免不同场景特征混淆。

Q3：Stream-T1在30秒长视频测试中动作质量为何提升了11400%？

A：这个数字看起来夸张，但背后有合理解释。基准模型LongLive在30秒长视频生成中动作质量评分极低，接近于零，这是因为长视频生成过程中动作连贯性迅速崩溃。而Stream-T1通过噪声传播、奖励剪枝和记忆沉降三重机制维持了稳定的动作质量，从接近零的基准大幅跃升，百分比增幅因此显得极为惊人。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.