近期在音频驱动的虚拟人视频生成方面的研究显著提升了音视听真实感,但现有方法往往仅依赖声学或视觉线索进行低层级跟踪,缺乏对指令语义与交互目的的建模,从而削弱了叙事连贯性与角色表现力。为此,可灵团队提出Kling-Avatar,一种统一多模态指令理解与照片级真实感人像生成的级联框架。Kling-Avatar 可生成生动、流畅的视频,分辨率最高可达1080p、48fps,并在唇形同步精度、情绪与动态表现力、指令可控性、身份保持和跨域泛化方面显著优于现有方法。(链接在文章底部)
该方法采用两阶段流程:首先由多模态大语言模型(MLLM)导演生成蓝图视频,明确高层语义意图与角色情绪动作;随后在蓝图关键帧的引导下,利用首尾帧策略并行生成子片段,保证局部动态与细节的精致还原。并行架构不仅提升了生成的稳定性与效率,也使得长时高质量视频生成成为可能,适用于数字人直播、视频博客等场景。
01 技术原理
Kling-Avatar 级联生成流程示意图:MLLM 导演首先将多模态指令解析为高层语义,并构建故事线。在这一全局规划的指导下,第一阶段生成蓝图视频。第二阶段从蓝图中提取关键帧,并将其作为首尾帧条件,用于并行子片段生成,从而细化局部细节与动态表现,最终合成长时视频。
生动的情绪、丰富的动作以及精确的唇形同步:支持侧脸、多人、中英文、唱歌和口播场景。
支持文本提示,包含多样且明确的情绪表达、角色动作、镜头运动和背景布局。情绪类别包括平静、兴奋、困惑、悲伤、惊讶和愤怒,每种均设有多个强度等级。镜头指令涵盖平移、缩放等操作;动作描述包括转身、举手、摇头等表现性动作,覆盖广泛的动态行为。
长视频生成,生成的帧表现出稳定的身份保持、一致的视觉质量以及丰富的角色动态。
该方法在开放场景中也展现出强大的泛化能力,包括多人场景、卡通与动漫风格,甚至非人类角色。
与 HeyGen 相比,Kling-Avatar在唇形同步和视觉质量方面取得了显著提升。值得注意的是,HeyGen 的视频生成依赖于反复循环一个五秒的动作模式,虽然这增强了动作稳定性和身份一致性,但却严重损害了视频的生动性与多样性。
此外,HeyGen 会将参考图像裁剪为固定的横屏或竖屏分辨率进行生成,而Kling-Avatar支持任意输入与输出分辨率,可生成最高1080p、48fps的视频。而且,HeyGen 专门为数字人场景定制,而Kling-Avatar基于通用视频生成基础模型,因此在未来具有更强的可扩展性与适应性。
https://arxiv.org/pdf/2509.09595
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.