网易首页 > 网易号 > 正文 申请入驻

夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频

0
分享至

近期,夸克技术团队和浙江大学联合开源了OmniAvatar,这是一个创新的音频驱动全身视频生成模型,只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外,还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。

OmniAvatar已开源:

  • Model:https://huggingface.co/OmniAvatar/OmniAvatar-14B
  • Code:https://github.com/Omni-Avatar/OmniAvatar
  • Arxiv:https://arxiv.org/abs/2506.18866
  • Project Page:https://omni-avatar.github.io/

以下,是OmniAvatar在播客、唱歌、交互、动态背景等场景下的部分案例。

实验表明,OmniAvatar在唇形同步、面部及半身视频生成、文本控制等多个维度上,均取得领先表现,并更好地平衡了视频质量、准确度、审美三要素。

此外,OmniAvatar专门针对长视频生成进行了优化,可以更好地保持人物一致性和时间连贯性。

模型能力

图片+音频=全身视频

当前,音频驱动人体运动的技术已取得显著进展,但大多数方法仍集中在面部运动,缺乏全身驱动的能力,且难以进行精确的提示词控制。

OmniAvatar以Wan2.1-T2V-14B为基础模型,利用LoRA方法进行微调,有效地引入了音频特征。这种结合不仅保留了Wan2.1-T2V-14B在视频生成方面的强大能力,还提高了模型对音频输入的适应性和生成质量。

OmniAvatar架构图

接下来,我们将通过一些具体案例,更详细地展示模型在多种场景下的能力。

OmniAvatar能够根据输入的音频和提示词,生成虚拟人物视频,其中,人物的唇形运动与音频内容吻合,场景则反映了提示词内容:

通过调整提示词,还可实现对人物情绪的精确控制:

在带有镜头运动的场景中,OmniAvatar仍能够保持面部、动作和背景的自然流畅,展现了模型在动态场景下的强大适应能力:

对于长视频生成,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性:

像素级多层次音频嵌入策略

精准唇部运动+自然肢体动作

大多数现有方法通常依赖交叉注意力机制来引入音频特征,虽然效果良好,但会引入大量额外的计算开销,并且容易过度关注音频与面部特征之间的关系。

针对这一问题,团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入。通过这一方法,不仅可以自然地将唇部运动与音频内容对齐,还能够确保音频信息在整个视频像素中均匀分布,从而使模型生成更协调、更自然的身体动作来匹配音频。

该策略首先使用Wav2Vec2模型提取音频特征,然后对这些特征进行分组打包和压缩,再通过音频打包模块映射到视频的潜在空间中。

接下来,为了确保模型在深层网络中能有效地学习和保留音频特征,OmniAvatar采用了一种多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中。为防止音频特征对潜在空间产生过度干扰,音频嵌入仅应用于模型的第二层至中间层之间的模块 。此外,这些层的权重不共享,使模型能够在不同层次上保持独立的学习路径。

基于LoRA的优化策略

平衡微调,兼顾质量与细节

目前,针对音频条件扩散模型的方法主要遵循两种策略:一种是训练完整的模型,另一种是仅微调特定层。

在进行完整训练时,团队发现更新所有层反而会导致模型生成的连贯性和视频质量下降。具体来看,由于模型过度拟合人类语音数据集,导致泛化能力差,容易生成不切实际或静态的内容,难以捕捉细节。但另一方面,仅微调和音频特征相关的层会导致音频和视频之间的对齐效果差,唇形同步性能受损。

效果对比

为了解决这些挑战,团队提出了一种基于LoRA的平衡微调策略。该策略不同于以上两种方法,而是使用LoRA策略高效地适应模型。LoRA通过在注意力和前向传播(FFN)层的权重更新中引入低秩矩阵,使模型能够在不改变底层模型容量的情况下学习音频特征。

长视频生成

身份保留+时间一致性

长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,团队提出了参考图嵌入和重叠帧策略,以实现人物的身份保留和时间一致性。

代码示例

身份保留。OmniAvatar引入了一个参考帧,作为人物身份的固定指导。具体来看,首先需提取参考帧的潜在表示;然后将这些表示多次重复,使其长度与视频帧数匹配;接下来,再在每个时间步,将这个重复的参考帧潜在表示与视频潜在表示进行连接。因此,通过参考帧设计,可有效锚定人物身份,确保在整个长视频序列中的人物一致性。

时间一致性。为了实现无缝的视频连续性,OmniAvatar采用了一种潜在重叠策略。首先,在训练时使用单帧和多帧前缀潜在变量的组合进行训练;其次,在推理过程中,对于第一批的帧,参考帧既作为前缀潜在变量,又作为身份指导;对于后续批次,则用前一组的最后帧作为潜在变量,参考帧仍保持固定用作身份指导。

One More Thing

OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李亚鹏直播透露董宇辉捐款金额:不是小钱,比200万高很多

李亚鹏直播透露董宇辉捐款金额:不是小钱,比200万高很多

第一财经资讯
2026-02-08 13:46:39
重庆美女篮球手邓圣洁去世!年仅20岁185公分,长期喝酒一天两场

重庆美女篮球手邓圣洁去世!年仅20岁185公分,长期喝酒一天两场

裕丰娱间说
2026-02-07 12:09:45
“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

叮当当科技
2026-02-08 04:31:30
广州正佳广场老板为自家嘉年华表演魔性舞蹈出圈,员工:他平时“玩得比较开”

广州正佳广场老板为自家嘉年华表演魔性舞蹈出圈,员工:他平时“玩得比较开”

上游新闻
2026-02-08 14:50:07
冬奥会争议一幕:日本裁判给日本选手高分 包揽金银牌 苏翊鸣吃亏

冬奥会争议一幕:日本裁判给日本选手高分 包揽金银牌 苏翊鸣吃亏

侃球熊弟
2026-02-08 04:06:52
上海开售烟花爆竹 全市设9个销售点

上海开售烟花爆竹 全市设9个销售点

看看新闻Knews
2026-02-08 15:47:05
有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

青苹果sht
2026-02-08 05:48:26
被专家“批评”的腊肉,川渝人每年疯狂地吃,为啥北方人一口不碰

被专家“批评”的腊肉,川渝人每年疯狂地吃,为啥北方人一口不碰

老特有话说
2026-02-06 13:19:07
2月7日炸场!特斯拉光伏落地,国内链主迎来史诗级机遇

2月7日炸场!特斯拉光伏落地,国内链主迎来史诗级机遇

前沿天地
2026-02-08 05:57:16
王楚钦挺进亚洲杯决赛:比赛中遭闪光灯干扰无奈摇头,多次被打乱节奏;此前其罕见发火怒吼“闭嘴吧”,官方发文称已采取措施

王楚钦挺进亚洲杯决赛:比赛中遭闪光灯干扰无奈摇头,多次被打乱节奏;此前其罕见发火怒吼“闭嘴吧”,官方发文称已采取措施

极目新闻
2026-02-08 13:31:09
阿玛尼,让全世界记住意大利国旗

阿玛尼,让全世界记住意大利国旗

设计癖
2026-02-07 13:15:28
暴跌900%,按摩第一股炸雷了

暴跌900%,按摩第一股炸雷了

投资家
2026-02-06 22:05:25
记者卧底揭秘黑茶营销内幕:收身份证、屏蔽信号、话术围攻,以卖茶为名拉人头,领队称“每天来四五千人,30天排满”

记者卧底揭秘黑茶营销内幕:收身份证、屏蔽信号、话术围攻,以卖茶为名拉人头,领队称“每天来四五千人,30天排满”

大风新闻
2026-02-07 12:08:18
外媒:由于“作战任务”需要,美空军两架F-22战机退出“超级碗”飞行表演

外媒:由于“作战任务”需要,美空军两架F-22战机退出“超级碗”飞行表演

环球网资讯
2026-02-08 15:35:08
苏轼见到友人妻子漂亮,羡慕之余写下一首词,感动世人近千年

苏轼见到友人妻子漂亮,羡慕之余写下一首词,感动世人近千年

掠影后有感
2026-02-06 12:01:30
2-3到4-3!赵心童德比战连得275分逆转,张安达2局0分颗粒无收!

2-3到4-3!赵心童德比战连得275分逆转,张安达2局0分颗粒无收!

刘姚尧的文字城堡
2026-02-08 15:38:22
特朗普终于肯缴纳会费,但有个前提条件,把联合国安排得明明白白

特朗普终于肯缴纳会费,但有个前提条件,把联合国安排得明明白白

东极妙严
2026-02-08 09:49:36
12投29分!快船队记酸了,哈登:只合练10分钟,莫布里复出也一样

12投29分!快船队记酸了,哈登:只合练10分钟,莫布里复出也一样

你的篮球频道
2026-02-08 14:42:09
博主外网造谣“中国每年50万人冻死”,内地特供视频换说法,一条视频两套词

博主外网造谣“中国每年50万人冻死”,内地特供视频换说法,一条视频两套词

可达鸭面面观
2026-02-07 22:55:27
今天凌晨,谈国新在武汉逝世,官网已变黑白

今天凌晨,谈国新在武汉逝世,官网已变黑白

极目新闻
2026-02-08 14:43:27
2026-02-08 17:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

金手镯断裂掉出2颗钢珠少0.3克 同批产品查验结果意外

头条要闻

金手镯断裂掉出2颗钢珠少0.3克 同批产品查验结果意外

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

数码
旅游
教育
公开课
军事航空

数码要闻

微软:Copilot+ PC也是游戏PC,硬核玩家推荐32GB内存

旅游要闻

六九风渐暖,普陀寻水趣!这条水主题打卡线路别错过

教育要闻

二次函数,等面积三角形,初中中考几何压轴题必考题型

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

捐钱造航母的男孩登上军舰

无障碍浏览 进入关怀版