想象一下,憨豆先生走进《猫和老鼠》的世界!这一任务的核心挑战在于,既要保持每个角色独特的身份与行为特征,又要让他们在不同语境下自然互动。然而,由于角色往往从未共存,且不同世界的风格差异明显,直接混合常会导致“风格错乱”,如真实人物变得卡通化,或卡通角色变得过于写实。
一个新框架MIMIX,结合跨角色嵌入(CCE)与跨角色增强(CCA)两项关键技术。CCE 从多模态数据中学习角色身份与行为逻辑,使模型能理解并还原其独特风格;CCA 通过生成虚拟共存场景与混合风格数据来扩充训练集,提升模型在跨风格共演时的稳定性。两者协同作用,使得从未共现的角色也能自然互动,同时保持各自的风格一致性。(链接在文章底部)
01 技术原理
通过整合大量电视剧和动画视频、音频及剧本信息,学习角色的核心特质与行为逻辑,旨在捕捉角色独特身份并支持其在不同风格和世界观中灵活组合,使角色能够在新的混合场景中自然互动,无论是单独出现的角色(如《憨豆先生》)还是组合出现的角色(如《猫和老鼠》)。
为了准确再现角色行为,提出了跨角色嵌入(CCE)和跨角色增强(CCA)方法,旨在实现稳健的身份建模、行为保持以及风格可控的角色混合。在多角色节目中,需要对同一片段中的多个身份进行分离,而不同世界观的角色可能在训练数据中从未共现,但推理时必须能够进行一致的互动。
![]()
为解决这一问题,设计了角色–动作提示(Character–Action Prompting)格式,将角色身份与场景背景明确区分:每个角色的动作都单独标注,如 “[Character: <名字> ], <动作> ”。这种设计确保模型学习到独立的角色嵌入,动作和身份互不干扰,从而支持跨世界观角色的组合生成。
利用 GPT-4o 自动生成高质量角色–动作字幕,每个短视频片段提供采样画面、音频对白、源元数据及剧本辅助,构建了 52,000 对带 [character:name] 标签的视频–字幕数据作为身份锚点;随后通过 LoRA 微调 Wan2.1-T2V-14B 模型,使学到的角色嵌入可灵活用于多角色视频生成,实现角色身份、动作、行为和风格的可控生成。
尽管框架在可控的多角色视频生成中表现优异,但仍存在局限。其方法依赖于明确的身份标注和 LoRA 微调,因此引入新角色时必须重新训练或微调模型,这在开放世界场景下限制了可扩展性。用户若希望生成包含任意或自定义角色的视频,目前仍需额外的适配。
此外,虽然字幕生成与数据增强策略在一定程度上缓解了风格错乱并提升了角色解耦能力,但在多个角色外观或动作模式重叠的复杂交互场景中,模型仍会出现偶发性失败。
https://arxiv.org/pdf/2510.05093
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.