网易首页 > 网易号 > 正文 申请入驻

Kling-Avatar:全新虚拟人视频生成框架

0
分享至

近期在音频驱动的虚拟人视频生成方面的研究显著提升了音视听真实感,但现有方法往往仅依赖声学或视觉线索进行低层级跟踪,缺乏对指令语义与交互目的的建模,从而削弱了叙事连贯性与角色表现力。为此,可灵团队提出Kling-Avatar,一种统一多模态指令理解与照片级真实感人像生成的级联框架。Kling-Avatar 可生成生动、流畅的视频,分辨率最高可达1080p、48fps,并在唇形同步精度、情绪与动态表现力、指令可控性、身份保持和跨域泛化方面显著优于现有方法。(链接在文章底部)

该方法采用两阶段流程:首先由多模态大语言模型(MLLM)导演生成蓝图视频,明确高层语义意图与角色情绪动作;随后在蓝图关键帧的引导下,利用首尾帧策略并行生成子片段,保证局部动态与细节的精致还原。并行架构不仅提升了生成的稳定性与效率,也使得长时高质量视频生成成为可能,适用于数字人直播、视频博客等场景。

01 技术原理

Kling-Avatar 级联生成流程示意图:MLLM 导演首先将多模态指令解析为高层语义,并构建故事线。在这一全局规划的指导下,第一阶段生成蓝图视频。第二阶段从蓝图中提取关键帧,并将其作为首尾帧条件,用于并行子片段生成,从而细化局部细节与动态表现,最终合成长时视频。

生动的情绪、丰富的动作以及精确的唇形同步:支持侧脸、多人、中英文、唱歌和口播场景。

支持文本提示,包含多样且明确的情绪表达、角色动作、镜头运动和背景布局。情绪类别包括平静、兴奋、困惑、悲伤、惊讶和愤怒,每种均设有多个强度等级。镜头指令涵盖平移、缩放等操作;动作描述包括转身、举手、摇头等表现性动作,覆盖广泛的动态行为。

长视频生成,生成的帧表现出稳定的身份保持、一致的视觉质量以及丰富的角色动态。

该方法在开放场景中也展现出强大的泛化能力,包括多人场景、卡通与动漫风格,甚至非人类角色。

与 HeyGen 相比,Kling-Avatar唇形同步视觉质量方面取得了显著提升。值得注意的是,HeyGen 的视频生成依赖于反复循环一个五秒的动作模式,虽然这增强了动作稳定性和身份一致性,但却严重损害了视频的生动性与多样性。

此外,HeyGen 会将参考图像裁剪为固定的横屏或竖屏分辨率进行生成,而Kling-Avatar支持任意输入与输出分辨率,可生成最高1080p、48fps的视频。而且,HeyGen 专门为数字人场景定制,而Kling-Avatar基于通用视频生成基础模型,因此在未来具有更强的可扩展性与适应性。

https://arxiv.org/pdf/2509.09595

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“三只羊”复播,三名主播着装一样,专注讲品,带货风格改变较大

“三只羊”复播,三名主播着装一样,专注讲品,带货风格改变较大

极目新闻
2025-09-15 23:12:38
新闻发布会|加强违法停车治理,重庆公安推出系列“组合拳”

新闻发布会|加强违法停车治理,重庆公安推出系列“组合拳”

王晓爱体彩
2025-09-15 14:37:56
18分惨败!广东男篮被新疆淘汰无缘8强:11冠王未来堪忧?

18分惨败!广东男篮被新疆淘汰无缘8强:11冠王未来堪忧?

篮球快餐车
2025-09-16 00:17:07
英超第二位下课主帅即将产生,不是阿莫林

英超第二位下课主帅即将产生,不是阿莫林

星耀国际足坛
2025-09-15 23:47:31
亚冠精英赛:1-2,C罗争冠劲敌遭绝杀,少一人+98分钟丢球酿苦果

亚冠精英赛:1-2,C罗争冠劲敌遭绝杀,少一人+98分钟丢球酿苦果

侧身凌空斩
2025-09-16 02:04:17
央视灼灼韶华被观众强烈要求下架,理由很一致:挂羊头卖狗肉

央视灼灼韶华被观众强烈要求下架,理由很一致:挂羊头卖狗肉

小椰的奶奶
2025-09-15 15:14:42
新华社快讯:李成钢说,双方就以合作方式妥善解决TikTok相关问题,减少投资障碍,促进有关经贸合作等达成了基本框架共识

新华社快讯:李成钢说,双方就以合作方式妥善解决TikTok相关问题,减少投资障碍,促进有关经贸合作等达成了基本框架共识

新华社
2025-09-15 23:18:03
医生对你暗示过什么?网友:我两次做阴超都是遇到男医生

医生对你暗示过什么?网友:我两次做阴超都是遇到男医生

解读热点事件
2025-09-14 00:15:04
辛芷蕾终遭反噬:面对梁婷的5000字檄文,她真认怂假偿还

辛芷蕾终遭反噬:面对梁婷的5000字檄文,她真认怂假偿还

光影新天地
2025-09-15 21:20:10
中华人民共和国政府与波兰共和国政府间合作委员会第四次全体会议共同文件

中华人民共和国政府与波兰共和国政府间合作委员会第四次全体会议共同文件

新京报
2025-09-15 21:06:21
美国,这太可怕了吧!

美国,这太可怕了吧!

新民周刊
2025-09-15 11:21:05
DeepSeek:一场无解的阳谋,让美国陷入两难之境!

DeepSeek:一场无解的阳谋,让美国陷入两难之境!

遇见洞见
2025-09-15 20:10:09
山东省纪委监委通报,姜青山被查

山东省纪委监委通报,姜青山被查

鲁中晨报
2025-09-15 10:15:33
张维伊节目炫耀买下500万的北京房子,董璇:厕所看起来有点小

张维伊节目炫耀买下500万的北京房子,董璇:厕所看起来有点小

小兰聊历史
2025-09-15 10:40:37
Shams:库明加阵营提出增强版资质报价+放弃否决权 勇士拒绝了

Shams:库明加阵营提出增强版资质报价+放弃否决权 勇士拒绝了

直播吧
2025-09-15 22:09:09
多国宣布:出动战机!

多国宣布:出动战机!

环球时报国际
2025-09-14 10:15:04
小米手机官博头像意外泄露新机背屏,预计为17 Pro系列

小米手机官博头像意外泄露新机背屏,预计为17 Pro系列

IT之家
2025-09-15 16:47:27
他信入狱!前妻朴乍曼携2女儿探视,佩通坦面带笑意、像胜券在握

他信入狱!前妻朴乍曼携2女儿探视,佩通坦面带笑意、像胜券在握

疯说时尚
2025-09-15 15:50:40
“自带苦相”的5位女星越看越丧,五官漂亮却演啥都苦情,太吃亏

“自带苦相”的5位女星越看越丧,五官漂亮却演啥都苦情,太吃亏

梦录的西方史话
2025-09-15 16:55:56
西贝事件反转!贾国龙被扒"假意"道歉,罗永浩暴怒:劝我的都绝交

西贝事件反转!贾国龙被扒"假意"道歉,罗永浩暴怒:劝我的都绝交

派大星纪录片
2025-09-15 12:04:38
2025-09-16 07:08:49
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
347文章数 7关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就妥善解决TikTok问题达成基本框架共识

头条要闻

中美就妥善解决TikTok问题达成基本框架共识

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

时尚
艺术
亲子
本地
军事航空

日常穿衣其实一点都不难,看看这些气质女性,穿得大方高级

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

我该怎么办呢?

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

军事要闻

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

无障碍浏览 进入关怀版