网易首页 > 网易号 > 正文 申请入驻

MIDAS:快手可灵发布实时交互式数字人生成框架

0
分享至

近年来,交互式数字人视频生成受到广泛关注并取得显著进展,但要在实时环境中高效处理多模态输入仍面临挑战。现有方法普遍存在延迟高、计算开销大、可控性不足的问题。为解决这些瓶颈,快手可灵团队提出了一个用于实时视频生成的多模态交互式数字人合成框架MIDAS。该框架基于LLM 驱动的自回归模型,并结合轻量级扩散头,在流式推理中实现了低延迟、交互式的多模态控制

在训练方面,团队构建了一个涵盖约20,000 小时多源对话的大规模数据集,提供了丰富的交互场景。同时,引入的深度压缩自编码器在保持语义信息的前提下可实现最高 64× 的压缩比,显著减轻了长时推理负担。它只需对标准大语言模型进行最小化改造,即可接收音频、姿态、文本等多模态条件编码,并输出空间和语义一致的表示来引导扩散去噪过程。(链接在文章底部)

01 技术原理

为实现高效的流式生成,将输入与输出组织为逻辑分块(chunk),每个分块包含音频 token、姿态 token、文本 token 与帧 token 的串联序列。这种结构化的 token 组织方式既便于流式控制输入,也支持顺序化的输出生成,从而在保持上下文连贯性的同时,实现实时响应。


设计了一种专门的帧级因果注意力掩码,以在流式生成与输出质量之间取得平衡。该掩码允许每个 token 仅关注前一帧的 token,以及本帧内的所有 token。这种混合方式跨帧的因果注意力与帧内的完全注意力,兼顾了时间一致性与空间一致性,对于高质量视觉输出至关重要。

在高效推理方面,实现了一个轻量级扩散头,并采用流匹配(flow matching)以提升采样效率。在推理阶段,扩散头仅需4 次采样迭代即可完成生成过程,从而实现实时性能。

长视频效果:通过在指定角色表示上进行微调,系统能够支持多语言的音频驱动长时视频生成

双向数据微调:在预训练模型的基础上进一步使用400 小时全双工对话数据进行适配,使模型能够以双音频流为条件输入,并生成在说话与聆听模式间无缝切换的视频。

系统能够实现数字人之间的自然轮流对话,并生成同步的音视响应。当一方在讲话时,另一方会保持恰当的聆听表情;而当由对应的音频输入驱动时,角色则会呈现与音频同步的口型与面部表情

模型通过将多模态条件转化为控制信号,并在 Minecraft 数据集上训练,实现了具备强3D一致性和记忆能力的通用交互式视频生成。

当前模型在泛化能力方面存在不足;当使用任意图像作为初始帧时,生成的视频在身份保持、时间一致性和稳定性方面存在问题,因此难以在保证高质量的前提下进行长时推理。

https://arxiv.org/pdf/2508.19320

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
涨疯了!一盒100根,价值400万元,堪比上海一套房,龙头股狂飙

涨疯了!一盒100根,价值400万元,堪比上海一套房,龙头股狂飙

每日经济新闻
2026-01-07 13:59:07
太棒了!苹果推出 iPhone 换电池半价活动

太棒了!苹果推出 iPhone 换电池半价活动

XCiOS俱乐部
2026-01-07 15:03:15
男子听信“偏方”将5厘米的水蛭塞进尿道,水蛭顺着尿道向内爬行“安家”膀胱,开始疯狂吸血释放抗凝血物质

男子听信“偏方”将5厘米的水蛭塞进尿道,水蛭顺着尿道向内爬行“安家”膀胱,开始疯狂吸血释放抗凝血物质

观威海
2026-01-07 09:22:09
塌房的一级演员闫学晶,做错了两件事

塌房的一级演员闫学晶,做错了两件事

李月亮
2026-01-07 19:31:56
针对我国对日本断供稀土等,日本舆论炸锅,日本当局回应让人气愤

针对我国对日本断供稀土等,日本舆论炸锅,日本当局回应让人气愤

时时有聊
2026-01-07 09:58:43
科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

徐德文科学频道
2026-01-06 19:51:55
日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

之乎者也小鱼儿
2026-01-07 13:51:26
江苏调查组在徐湖平别墅搜出啥?太离谱!

江苏调查组在徐湖平别墅搜出啥?太离谱!

鹤羽说个事
2026-01-07 11:06:57
亚洲杯首轮就乱了:东南亚球队领跑,东道主多打一人险胜无缘榜首

亚洲杯首轮就乱了:东南亚球队领跑,东道主多打一人险胜无缘榜首

侧身凌空斩
2026-01-07 04:22:06
南京“一混凝土搅拌车撞电动两轮车致3死1伤”事故,调查报告公布

南京“一混凝土搅拌车撞电动两轮车致3死1伤”事故,调查报告公布

澎湃新闻
2026-01-07 16:30:26
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
中方是否计划采取行动帮助马杜罗夫妇获释?外交部回应

中方是否计划采取行动帮助马杜罗夫妇获释?外交部回应

新京报政事儿
2026-01-07 15:41:25
绑架马杜罗的“原班人马”,全部飞抵欧洲,美军第二战已确定目标

绑架马杜罗的“原班人马”,全部飞抵欧洲,美军第二战已确定目标

依偎在角落
2026-01-07 10:30:44
凌晨1点,老黄又扔“核弹”!英伟达 Vera Rubin 芯片问世,算力暴涨5倍,我看傻了...

凌晨1点,老黄又扔“核弹”!英伟达 Vera Rubin 芯片问世,算力暴涨5倍,我看傻了...

AI范儿
2026-01-06 07:59:53
伊朗安全部队放下武器加入抗议,哈梅内伊倒计时开始

伊朗安全部队放下武器加入抗议,哈梅内伊倒计时开始

移光幻影
2026-01-07 15:18:07
哈梅内伊的末路正徐徐展开

哈梅内伊的末路正徐徐展开

难得君
2026-01-07 00:04:43
世界真是草台班子,小米官方表示新款 SU7 标错了价格!

世界真是草台班子,小米官方表示新款 SU7 标错了价格!

XCiOS俱乐部
2026-01-07 19:38:42
美国衰落,就是一个巨大的谎言

美国衰落,就是一个巨大的谎言

枫冷慕诗
2026-01-06 12:28:30
开局即冲刺!关注这座“双万城市”的升级战

开局即冲刺!关注这座“双万城市”的升级战

智谷趋势
2026-01-06 21:19:45
阿森纳女足新援因外表出众引来低俗评论,俱乐部关闭评论区

阿森纳女足新援因外表出众引来低俗评论,俱乐部关闭评论区

懂球帝
2026-01-07 12:56:05
2026-01-08 00:39:00
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
379文章数 8关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

数码
亲子
本地
旅游
公开课

数码要闻

技嘉Z890主板适配英特尔新处理器,还展示256GB内存!

亲子要闻

雀巢召回多国婴儿配方奶粉,涉及中国市场71个批次

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

旅游要闻

嗨到凌晨3点!仙游一网红夜市即将启用!0成本即可当老板...

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版