腾讯提出的一个面向交互式视频生成的基础性框架Yan,支持由用户输入驱动的实时交互式视频生成,集 AAA 级模拟、多模态生成和多粒度编辑于一体。其核心包括:基于高度压缩低延迟 3D-VAE 与 KV-cache 移窗去噪的1080P/60FPS 实时模拟;通过分层自回归字幕方法,将特定游戏知识融入多模态视频扩散模型,实现逐帧、可控动作的无限制交互视频生成;以及显式解耦交互机制与视觉渲染的混合模型,使用户可在交互过程中通过文本进行多粒度编辑。
整体上,Yan 将高保真实时模拟、提示词可控的多模态生成与多粒度文本驱动编辑有机统一,通过模块化且连贯的设计打通模拟、创作与实时定制,为下一代 AI 内容引擎提供了可行路径。它不仅推动了交互式视频生成从单一功能走向全面 AI 驱动的创作范式,也为未来更加多样化、包容性和创造性的交互媒体应用奠定了基础。(链接在文章底部)
01 AAA 级模拟
Yan-Sim 实现了交互式游戏视频的高保真模拟,既保证1080p 分辨率,又支持实时 60fps性能。为实现逐帧交互,将扩散模型改造为因果架构,并采用diffusion forcing范式进行训练,使每一帧都依赖于先前生成的帧以及逐帧的控制信号。
为同时实现高分辨率与实时运行,Yan引入了三项关键优化:高压缩 VAE:采用 32 × 32 × 2 的时空下采样,大幅减小潜空间表示的尺寸;DDIM 采样:将推理步数减少至 4 步,并结合移窗去噪推理技术,同时处理不同噪声级别的帧,在每一步去噪中均确保生成干净的样本;模型剪枝与量化:显著加快推理速度。这些优化协同作用,实现了目标性能。
02 多模态生成
Yan-Gen 支持从多模态输入中灵活生成多样化的交互式视频内容,擅长在不同场景中进行自适应合成。该模型融合了文本、视觉与基于动作的控制信号,能够根据特定上下文动态调整生成内容,适配从封闭领域游戏到开放世界场景的多种需求。
在架构上,Yan-Gen 采用多模态扩散 Transformer(DiT)作为主干网络,将文本提示、参考图像、动作序列等输入 token 分别通过专用编码器处理(如 umt5-xxl 负责文本理解,ViT-H-14 用于视觉特征提取)。任务相关的约束条件通过交叉注意力层注入,从而精准引导交互机制、视觉风格与叙事元素的生成。
03 多粒度编辑
Yan-Edit 支持通过文本交互实现多粒度的视频内容编辑,包括结构编辑(如添加交互对象)和风格编辑(如改变对象的颜色和纹理)。为实现灵活且可控的编辑,提出了一种混合模型,由交互机制模拟器与视觉渲染器组成,分别学习结构编辑与风格编辑。使用深度图作为中间状态,将这两个模块连接起来。
交互机制模拟器基于Yan-Sim构建,充分利用其对交互视频的高保真模拟能力,同时通过文本交叉注意力层将结构文本提示注入 Yan-Sim,实现结构编辑。视觉渲染器则依托Yan-Gen强大的开放域视觉生成能力,通过 ControlNet 将交互机制模拟器生成的深度图注入 Yan-Gen,再结合风格文本提示,实现多样化的风格编辑。
Yan 虽在模拟、生成与编辑方面达到最新水平,但仍面临长时视频视觉一致性不足、高保真实时性能依赖高端 GPU、动作空间与交互复杂度受底层游戏环境限制,以及编辑模块过度依赖文本描述等问题,未来需在一致性优化、低资源适配、应用可扩展性及更直观的用户控制等方面进一步改进。
https://arxiv.org/pdf/2508.08601欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.