近年来,多人视频生成越来越火,但现有的技术在处理“多人一起说话”这件事时仍然很困难。一方面,收集足够多、够多样的多人视频数据成本很高;另一方面,要让不同人物在同一个视频里保持自然互动,也不容易。为了解决这些问题,香港科技大学提出了AnyTalker。它采用一种灵活的多流架构,并在模型中加入“身份感知”注意力机制,可以逐个处理人物和他们的音频,让系统能够轻松扩展到任意数量的人物。(链接在文章底部)
另外,为了训练这种多人说话视频的模型,过去通常需要大量真正的多人视频数据。但 AnyTalker 的训练方式更高效:主要用单人视频就能学到多人说话的规律,只需再加少量真实的多人片段就能让互动变得自然。还设计了专门的指标和数据集,用于评估生成视频的自然度与互动效果。
(a) AnyTalker 的架构中加入了一种全新的多流音频处理层 —音频-人脸交叉注意力(Audio-Face Cross Attention),使模型能够同时处理多个人脸和多路音频输入。
![]()
(b) AnyTalker 的训练分为两个阶段:第一阶段使用由单人视频拼接形成的“伪多人物数据”与原始单人数据混合训练,用于学习精准的唇形动作;第二阶段则利用真实的多人视频数据进一步强化生成视频中的人物互动性。(c) 音频-人脸交叉注意力的具体实现为一种可递归调用的结构,并通过面部掩码对输出进行遮罩处理。
挑选了互动性强的双人视频来构建视频数据集,命名为InteractiveEyes。图 4 展示了其中两段视频片段。每段视频时长约 10 秒,整个片段中始终展示两张人脸。此外,通过严格的人工处理,对每段视频的音频进行了分割,以确保大部分视频都包含两个人物的说话与聆听场景,以及丰富的眼部互动情景,
![]()
左侧为原始视频,右侧为裁剪后的人脸和眼部关键点。头部转向说话者或抬眉动作会提升 Motion 和互动性分数;持续静止则会使两者保持较低。
AnyTalker 驱动生成多人真人视频:
AnyTalker 驱动基于AIGC的多人视频:
AnyTalker 处理卡通角色视频生成:
AnyTalker 支持多种语言:
使用相同的文本提示、参考图像以及多个音频流作为输入,比较了Bind-Your-Avatar、MultiTalk和AnyTalker的生成结果。实验表明,AnyTalker在多人人物场景中能够在口型同步、身份可扩展性和交互性之间取得平衡。
![]()
https://github.com/HKUST-C4G/AnyTalker欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.