近年来,交互式数字人视频生成受到广泛关注并取得显著进展,但要在实时环境中高效处理多模态输入仍面临挑战。现有方法普遍存在延迟高、计算开销大、可控性不足的问题。为解决这些瓶颈,快手可灵团队提出了一个用于实时视频生成的多模态交互式数字人合成框架MIDAS。该框架基于LLM 驱动的自回归模型,并结合轻量级扩散头,在流式推理中实现了低延迟、交互式的多模态控制。
在训练方面,团队构建了一个涵盖约20,000 小时多源对话的大规模数据集,提供了丰富的交互场景。同时,引入的深度压缩自编码器在保持语义信息的前提下可实现最高 64× 的压缩比,显著减轻了长时推理负担。它只需对标准大语言模型进行最小化改造,即可接收音频、姿态、文本等多模态条件编码,并输出空间和语义一致的表示来引导扩散去噪过程。(链接在文章底部)
01 技术原理
为实现高效的流式生成,将输入与输出组织为逻辑分块(chunk),每个分块包含音频 token、姿态 token、文本 token 与帧 token 的串联序列。这种结构化的 token 组织方式既便于流式控制输入,也支持顺序化的输出生成,从而在保持上下文连贯性的同时,实现实时响应。
![]()
设计了一种专门的帧级因果注意力掩码,以在流式生成与输出质量之间取得平衡。该掩码允许每个 token 仅关注前一帧的 token,以及本帧内的所有 token。这种混合方式跨帧的因果注意力与帧内的完全注意力,兼顾了时间一致性与空间一致性,对于高质量视觉输出至关重要。
在高效推理方面,实现了一个轻量级扩散头,并采用流匹配(flow matching)以提升采样效率。在推理阶段,扩散头仅需4 次采样迭代即可完成生成过程,从而实现实时性能。
长视频效果:通过在指定角色表示上进行微调,系统能够支持多语言的音频驱动长时视频生成。
双向数据微调:在预训练模型的基础上进一步使用400 小时全双工对话数据进行适配,使模型能够以双音频流为条件输入,并生成在说话与聆听模式间无缝切换的视频。
系统能够实现数字人之间的自然轮流对话,并生成同步的音视响应。当一方在讲话时,另一方会保持恰当的聆听表情;而当由对应的音频输入驱动时,角色则会呈现与音频同步的口型与面部表情。
模型通过将多模态条件转化为控制信号,并在 Minecraft 数据集上训练,实现了具备强3D一致性和记忆能力的通用交互式视频生成。
当前模型在泛化能力方面存在不足;当使用任意图像作为初始帧时,生成的视频在身份保持、时间一致性和稳定性方面存在问题,因此难以在保证高质量的前提下进行长时推理。
https://arxiv.org/pdf/2508.19320
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.