网易首页 > 网易号 > 正文 申请入驻

谷歌推出多模态视频模型,自动生成丰富动作视频

0
分享至

谷歌的研究人员推出了一款多模态扩散模型——VLOGGER。

用户只需要向VLOGGER输入图像、语音,就能生成带语音、丰富动作的人物视频。VLOGGER基于扩散模型开发而成,并提出了一种全新的架构,将文本生成图像模型与空间、时间控制相结合,提升视频生成的逼真效果和丰富动作。

研究人员在HDTF、TalkingHead-1KH和MENTOR等多个数据集对VLOGGER进行了综合测试。结果显示,VLOGGER在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。

技术报告:https://enriccorona.github.io/vlogger/paper.pdf



随着数字化经济的飞速发展,各行业对虚拟数字人的需求越来越多。但要制作出逼真的人物动画视频需要大量的人工调整和修补才能获得真实感,不然会出现动作缺失、肢体动作僵硬、五官不协调等问题。

VLOGGER模型的创新之处在于,提出了全新的多阶段扩散模型架构:首先,通过使用随机扩散模型,根据输入语音生成对应的人体运动轨迹,包括表情、姿势、视线和眨眼细节。

然后,使用创新的时空扩散架构,将生成的人体运动轨迹及参考图像作为条件实现完整的人物视频合成。

此外,VLOGGER无需针对每个新人物重新训练模型,不依赖人脸检测框选区域,而是直接生成完整目标图像。更重要的是,VLOGGER考虑到了现实中复杂的交流场景,例如,可见躯干、不同身份等,这对正确合成有效交流的人物动作至关重要。

语音生成

第一阶段,VLOGGER使用了Transformer的神经网络用于接收音频波形输入,并生成一系列3D面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。

为了获得逼真的运动效果,该模型利用了一种统计的3D人体模型,能够精确捕捉面部表情、头部运动、眼球转动、眨眼以及手势等细节。通过预测基于参考图像的姿势残差,该模型可以针对特定身份生成个性化的运动序列。

为了与基于CNN的架构相兼容,该模型将预测的3D参数渲染为密集的2D表示,包括身体的语义区域掩码和部分参考图像的扭曲视图。这些2D控制信号将在下一阶段用于指导视频生成过程。

人物生成

第二阶段,VLOGGER在空间和时间上进行条件控制,以生成高质量、任意长度的视频。该模块接收了来自第一阶段的2D控制信号作为输入,并以参考图像中的人物身份为条件,生成逼真的运动视频帧序列。

VLOGGER基于成熟的文本到图像扩散模型,并通过一种新颖的架构对其进行扩展,增加了时域卷积层,使其能够处理时序数据。此外,VLOGGER还引入了一种"时序外推"的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性

为了提高生成效果,VLOGGER采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高达512x512分辨率的高质量影像。

VLOGGER数据集

为提高VLOGGER的泛化能力和安全性,研究人员构建了一个大规模训练数据集MENTOR。该数据集包含80万名不同身份的人物视频,视频长度总计超过2200小时,覆盖了不同年龄、肤色、体型和文化背景的人群。

值得一提的是,数据集中的视频均捕捉了单个人物在相机前交流的场景,并提供了相应的3D姿势和表情标注,这对于训练VLOGGER的多模态能力发挥了重要作用。

本文素材来源VLOGGER论文,如有侵权请联系删除


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当叶童同框赵雅芝,终于见识了自然老与“医美老”的差距有多大了

当叶童同框赵雅芝,终于见识了自然老与“医美老”的差距有多大了

时髦范
2024-06-13 09:08:52
拱火烧鹅!一觉醒来全是坏消息,普京心里拔凉拔凉的

拱火烧鹅!一觉醒来全是坏消息,普京心里拔凉拔凉的

娱宙观
2024-06-13 10:10:05
新加坡门将发文呼吁中国粉丝停止网络转账,请大家理性支持,门店二维码已遮挡处理

新加坡门将发文呼吁中国粉丝停止网络转账,请大家理性支持,门店二维码已遮挡处理

极目新闻
2024-06-14 00:03:15
冤家路窄!中国足球又抽到韩国,抗韩三部曲来临,必须把他们打怕

冤家路窄!中国足球又抽到韩国,抗韩三部曲来临,必须把他们打怕

时刻体育正版
2024-06-13 22:45:39
网传深圳一19岁小伙突然坠楼!疑似高考引发的悲剧,现场惨烈…

网传深圳一19岁小伙突然坠楼!疑似高考引发的悲剧,现场惨烈…

火山诗话
2024-06-13 20:12:27
维维股份税务被倒查30年,股票压力来了!这到底传递怎样的信号?

维维股份税务被倒查30年,股票压力来了!这到底传递怎样的信号?

火山诗话
2024-06-14 06:08:07
王思聪黄一鸣牵手照曝光,黄一鸣挺着大孕肚,挑选母婴用品!

王思聪黄一鸣牵手照曝光,黄一鸣挺着大孕肚,挑选母婴用品!

柠檬有娱乐
2024-06-13 11:20:07
瓦屋山游客身亡后续:知情人曝猛料,女子身份复杂,景区恐摊大事

瓦屋山游客身亡后续:知情人曝猛料,女子身份复杂,景区恐摊大事

王小花谈历史
2024-06-13 18:30:38
多位留学生证实韩国大学食堂限量一块肉,拿多就会被人冷眼相待

多位留学生证实韩国大学食堂限量一块肉,拿多就会被人冷眼相待

映射生活的身影
2024-06-13 23:20:16
王思聪换头像,头像上配文字“你爹来了”!私生女传闻再起波澜

王思聪换头像,头像上配文字“你爹来了”!私生女传闻再起波澜

明星爆料客
2024-06-13 15:51:49
马斯克与多名女下属发生性关系?还要给他生娃?这在美国真不算啥

马斯克与多名女下属发生性关系?还要给他生娃?这在美国真不算啥

不掉线电波
2024-06-13 10:19:02
坎耶29岁娇妻现身日本东京,连体衣内搭空气,让店员看得目瞪口呆

坎耶29岁娇妻现身日本东京,连体衣内搭空气,让店员看得目瞪口呆

译言
2024-06-13 22:01:18
问界M9翻滚下山崖全景图曝光之后,网友们对山崖又有了新的认识

问界M9翻滚下山崖全景图曝光之后,网友们对山崖又有了新的认识

映射生活的身影
2024-06-13 18:26:51
哪些国家参加瑞士和平峰会?巴西去了可以理解,连阿富汗都参加?

哪些国家参加瑞士和平峰会?巴西去了可以理解,连阿富汗都参加?

翻开历史和现实
2024-06-13 12:42:21
网约配送员要“感党恩、听党话、跟党走”,如何正确看待?

网约配送员要“感党恩、听党话、跟党走”,如何正确看待?

一见财经
2024-06-13 15:23:57
森林北深夜发文:已报案,她和汪峰的感情遭受巨大压力

森林北深夜发文:已报案,她和汪峰的感情遭受巨大压力

素素娱乐
2024-06-13 08:52:58
森林北急了!活动停止,代言被撤,口碑全面崩盘,已报案维权

森林北急了!活动停止,代言被撤,口碑全面崩盘,已报案维权

叶公子
2024-06-13 16:38:44
中国市场监管总局:要引导网约配送员感党恩、听党话、跟党走

中国市场监管总局:要引导网约配送员感党恩、听党话、跟党走

界面新闻
2024-06-11 15:02:39
一名美国签证官写给中国拒签者的信:我不会无故拒签一个人

一名美国签证官写给中国拒签者的信:我不会无故拒签一个人

小刀99
2024-06-13 20:24:25
提前晋级奥运!中国女排锁定巴黎奥运资格

提前晋级奥运!中国女排锁定巴黎奥运资格

懂球帝
2024-06-13 19:13:53
2024-06-14 07:18:44
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的专业、开放性社区
332文章数 51关注度
往期回顾 全部

科技要闻

小红书员工仅1/5工龄满2年 32岁就不让进了

头条要闻

欧盟拟加税 玉渊谭天:中方可对欧盟白兰地等采取行动

头条要闻

欧盟拟加税 玉渊谭天:中方可对欧盟白兰地等采取行动

体育要闻

乔丹最想单挑的男人走了

娱乐要闻

森林北报案,称和汪峰的感情遭受压力

财经要闻

私募大佬孙强:中国为什么缺少耐心资本

汽车要闻

升级8155芯片 新款卡罗拉锐放售12.98-18.48万

态度原创

本地
亲子
教育
数码
公开课

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

亲子要闻

3岁前做好这三件事,能让孩子更聪明

教育要闻

快收藏!@山东高考生,手把手教你填报志愿!附视频操作步骤+图文详解

数码要闻

三星 Galaxy Watch 首款 FE 产品正式发布,199 美元起

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版