字节推出Lynx,这是一个高保真个性化视频生成框架,能够从单张参考图像中保持主体身份。它基于开源的Diffusion Transformer (DiT),并引入了两个轻量级适配器:ID-adapter利用 ArcFace 提取的身份特征生成身份标记,Ref-adapter通过冻结参考通道引入 VAE 的稠密特征,以跨层注入细粒度信息。这一设计在保证身份保真度的同时,还能维持动作自然性、时间一致性和视觉真实感。(链接在文章底部)
在包含40 个主体和20 条无偏提示词的基准数据集(共800 个测试用例)上,Lynx 展现了优异的人脸相似度、出色的视频质量和具备竞争力的提示词遵循能力。作为一个可扩展的适配器框架,Lynx 在身份保真度、可控性与真实感之间实现了平衡,并为未来向多模态和多主体个性化视频生成的拓展奠定了基础。
01 技术原理
Lynx采用了Wan2.1作为基础模型,它是最新开源的视频基础模型之一。Wan 构建于DiT 架构之上,并结合了Flow Matching框架。每个 DiT 模块首先对视觉 token 进行时空自注意力,以实现空间细节与时间动态的联合建模,随后通过交叉注意力融入文本条件。
与其对完整模型进行重构和微调,Lynx提出了两个适配器模块,即ID-adapter和Ref-adapter,用于注入身份特征,从而在基础模型之上实现个性化视频生成。
Lynx数据来自公开和内部采集,包含单图、单视频及同一人的多场景图像和视频。为避免表情和光照过拟合,采用X-Nemo进行表情编辑、LBM进行重光照与背景替换,并用人脸识别过滤低相似度数据,确保身份一致性与高质量训练样本。
与基线方法的定性对比显示,其他方法常存在诸如动作不自然(第 1 行示例 2)、背景(第 4 行示例 2)或光照(第 5 行示例 2)复制粘贴效应,或身份相似度低(第 1 行示例 1,第 3 行示例 2)等问题。相比之下,Lynx始终能够高保真地保持人脸身份,同时生成自然的动作、协调的光照,并能灵活适应场景。
Lynx能够从单张输入图像生成高质量视频,同时精确保留人物的身份特征。在生成的视频序列中,方法可持续保持人脸特征、表情和身份一致性。
单一身份的多样化生成,在仅有一张身份图像的情况下,Lynx能生成多样化的场景和表情,同时保持核心身份特征。
https://arxiv.org/pdf/2509.15496
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.