网易首页 > 网易号 > 正文 申请入驻

阿里通义实验室薄列峰:从兵马俑跳“科目三”到照片唱歌,四大框架让AI生成的人物活起来丨GenAICon 2024

0
分享至


智东西
作者 GenAICon 2024

智东西5月6日报道,2024中国生成式AI大会于4月18-19日在北京举行,在大会首日的主会场开幕式上,阿里巴巴通义实验室XR团队负责人薄列峰博士以《人物视频生成新范式》为题发表演讲。

随着Sora等文生视频模型掀起热潮,很多人都在探讨文生视频模型能不能算作世界模型。对此,薄列峰认为,文生视频模型与世界模型的机制存在差异,视频是一个观察者角色,并不能真正改变世界,文字与物理世界描述之间也具有不对应关系

人物视频生成模型是阿里通义实验室XR团队的一个研究重点。薄列峰通过人物动作、人物换装、人物替身、人物唱演4个框架来解读人物视频生成新范式。基于这些框架的应用,正逐步落地通义千问APP

人物动作视频生成框架Animate Anyone可基于单张图和动作序列,输出稳定、可控的人物动作视频;人物换装视频生成框架Outfit Anyone是基于服饰图和人物形象;人物视频角色替换框架Motionshop采用Video2Motion,基于视频人物动作驱动3D数字人;人物唱演视频生成框架Emote Portrait Alive能够基于单张图和音频,输出准确、生动的人物唱演视频。

以下为薄列峰的演讲实录:

我的分享前半部分讲行业趋势以及我在多模态、文生文等方向的思考;后半部分分享我们在文生视频生成方向的工作。可以非常自信地说,我们在整个业界具备领先性,整个工作也有很强的特色。

一、文生视频模型基于统计关系,不是世界模型

首先,文生视频高速发展,大家讲发展基石的时候都会讲到数据、机器、人才。什么是多模态?什么是视频?文生视频这个领域基础又是什么?目前思考得还比较少。

先回顾一下进程,大家可以看到Midjourney在文生图方向的突破;OpenAI借助非常强的理解大模型、能够对图像实现精标的能力,在文生图上做出自己有特色的工作和突破;创业公司像Pika、Runway也在做自己的工作,分别从不同的路径和方向来演进;包括谷歌、大的创业公司,过去一年有很多文生视频方向的研究工作。

这些工作从研究的角度有一定数量的数据集,做一些方向的突破可能没有那么难。OpenAI相当于把这个事情做到了极致,在现在的时间节点,整个Sora展示出非常好的效果。

文生视频是不是世界模型?它和世界模型的机制还是有所差异的。

首先视频是一个观察者的角色,我们有一些摄像机在记录这个世界,但它不是真的去改变这个世界。如果说我需要做一些世界模型,类似我需要一些具身智能,当然这也是大家提出的一些新名词,具身智能是在仿照我们生物智能。生物智能不光有思考,同样也有实体,如果看实体的部分,具身智能现阶段还是远远落后的,因为人体具备非常强的灵活性和低碳的消耗,不是今天物理机器所具备的,这是一个差异点。

另一点,如果看文生视频,视频的存在并不依赖于文字是否存在。文字出现以前,地球上的生物就可以看到这个物理世界。文字是我们引入去描述人自身的思想,随着人类进化了很多代,是我们引入的一个工具,实际可能跟今天的编程语言也是类似的。我们引入一个工具来描述这个物理世界,它具有相当的描述能力,但是它和物理世界之间也不对应,也就是说它有简化、有抽象、有归纳等。

整个文生视频做的工作是什么?有一个视频空间,还有一个文字空间。我们在文字空间给每个视频打上标或者找到一个对应。整个关系是一个统计的依赖关系,通过这样的关系和暴力的关联,再加上大数据,展现出了一定的文生视频能力,但是不代表这是我们物理世界真实运作的规律

如果看文生文、文生视频,它们并不影响我们的物理世界,如果要影响物理世界,它还是需要达到生物智能所具备的特点

在这里也分享我对AGI的理解。通过文字我们是否能实现AGI?首先文字的能力于生物智能而言,不是完整的。非完整的AI智能是否达到人类智能所具备的能力?现在看还是有相当的距离。如果今天让大模型去造一辆汽车,造一台电视可以吗?以我的观点来看,还是比较遥远的。

二、做特色的人物视频生成,能换装唱演、角色富有表现力

通义实验室在视频生成方向有一些探索,我们也有完整的视频生成矩阵性的产品和研究。

回到今天分享主题的核心——人物视频生成,当大家讨论这个问题的时候,第一个问题是,为什么不做一个通用的视频生成就完了,为什么还要做人物视频生成?

视频生成和人物视频生成有共性,需要高质量的画质,包括整个运动要符合物理规律。如果看人的组成,包括人脸、人手、人的头发、人的服饰都具有相当的唯一性,同时展示出了非常精细的颗粒度。人物的特点、声音,这些还是人的感知部分,我们都还没有讲到人的实体部分,包括人是由物质组成的等,不同的部分是不同的物质,这些模拟可能是另一个层面,包括我们是否能制造出一种材料跟生物智能是类似的等等,这部分不是我们覆盖的主题。

整体来看,它(人物视频生成)是相当有特色的,会导致在生成中有很多特性,包括控制是多样的,比如可以用声音来做控制,可以用人体的一些表达来做控制,可以用文本来做控制。控制具备丰富性,同时它生成的人的整体表现力需要非常丰富,如果生成的人表现力非常呆板,很难满足今天应用的需求。另外,生成的颗粒度、数字资产和人物运动的分离等,都是极具特色的部分。

我们的工作包括人物动作人物换装人物替身人物唱演等。接下来分享每个模块各自的工作。

三、人物动作视频生成框架Animate Anyone:让兵马俑跳《科目三》

第一部分,我们在2023年11月发布人物动作视频生成框架Animate Anyone,在人物视频生成方向的发布早于Sora几个月,当我们把这个结果发布出来之后,引发了非常强烈的关注,主要是达到的视觉效果超越了之前的结果,可以说是一个数量级的超越


整个方案的框架有几个特色:

第一,有一张参考图,整个生成过程会对参考图做高度的保真。大家如果在生成的时候看视频的细节,可能会发现,随着时间的推移,整个像素的物理合理性可能不太对。我们有机制,在融入的过程中,不光有CLIP的特征,还有视觉特征的融入,可以把更精确的信息编码进来,这是一个特点。

第二个特点,我们用骨骼训练控制人物的动作。大家如果看整个人体的模拟,特别是整个人体的关节,每个关节点有它的自由度,整体上骨骼与人体也是非常匹配的表达。

第三,引入时序模块,保证时序上的一致性。我们和Sora的效果对比,视频效果比Sora的方法有一个非常明显的提升。

我们也把技术产品化,部署到通义APP,欢迎大家下载体验。

我们的舞蹈生成获得了相当多的关注,整个视频内容播放达到了非常高的数字。画面中的舞蹈,包括真人、卡通形象(都可以)来跳《科目三》。

当看产品演进的时候,我们发现一个非常有意思的事情,真人来跳舞这件事是我们自己可以去实现的能力,虽然对于每个人而言难度各有不同,舞蹈跳得比较好的能跳出比较好的《科目三》,舞蹈跳得不好也能跳出《科目三》的样子。但是对于一些其它类人的形象,比如兵马俑,我们不太可能去让它跳《科目三》。

如果过去要让一个兵马俑跳《科目三》,我们要走的流程是什么?(以前)我们要做一个三维模型,人为设计它的动作,整个成本流程非常高。我们现在只要输入一张照片,兵马俑就可以跳《科目三》。画一幅画,给自己喜欢的宠物拍一张照片,输入喜欢的各种二次元形象,它都可以来跳创作者喜欢的舞蹈

Animate Anyone赋予创作者相当大的灵活度,特别在之前很难创作出这样动作视频的领域,给大家提供了一个工具。

新的功能也在开发中,包括任意上传一段视频可以来提取骨骼序列,然后把骨骼序列传递的动作信息转移到这张照片上面,生成一段舞蹈。这会再次释放大家动作视频创作方面的潜力,甚至一些有难度的类人形象,我们能够通过手绘骨骼点,让它也跳起来舞蹈。我们把手绘的骨骼点和自身定义的骨骼点做一个匹配,来完成这样一个工作。

Animate Anyone发布的时候,四个视频在(社交平台)Twitter上总播放量破亿,还有大量的自发报道。

四、人物换装视频生成框架Outfit Anyone:一键为模特换装

第二部分,人物换装视频生成框架Outfit Anyone。在一个文明社会,每个人都有穿着服饰的需求,对美观度有极高的需求。我们打造了一个框架,可以给定一个服饰,然后让这个服饰穿到自己或者模特的身上,具备细节可控、身材可调、全身穿搭甚至多层服饰的叠穿等特征,面临非常细节问题的处理。


当我们真正要满足大家需求的时候,服饰的一致性非常重要,叠穿怎么和拍得高质量照片达到一样的画质、精度,相当有挑战。

在一个模特换装应用中,将鼠标点击、上移、下移,点击试穿,就会让模特试穿衣服。我给定一些特别的材质,比如香蕉(图像)等,我们也能把它当衣服一样穿到身上来。整个模型在尝试把各种各样的布料或者类似布料的东西上身,为创意提供了一个路径。

当然我们也可以把Outfit Anyone和Animate Anyone结合,去生成一段走秀视频等。相关作品获得了相当的关注,在Hugging Face上榜,关注度非常高。

五、人物视频角色替换框架Motionshop:生成3D模型动作视频

人物视频角色替换框架Motionshop,给定一个视频,提取它的骨骼,同时把骨骼和三维模型做绑定,生成三维模型的动作视频,然后还原在原视频中。这样的视频和Animate Anyone的区别是,3D资产(包括3D IP)也是相当大的领域,特别在游戏和影视,现在的Motionshop方案支持多视角的方案。


Motionshop支持多人替换,这样的视频替换成二次元的角色,后面的视频背景相当真实,前面的人物是虚拟人物,包括实际干活儿的视频。这里也产生了一些对机器人能力的思考。

在整个方案中,要让整个视频看起来非常真实,除了大模型的能力,我们还运用了渲染的能力,包括光线追踪,会从原视频估计光照等,这样让整个视频看起来非常一致,没有违和感。

把机器人带到对话场景中,也是非常有意思的一个应用。整个置换会在场景中有非常好的体现,超越了目前一些类似的方法所能做到的能力。

六、人物唱演视频生成框架Emote Portrait Alive:让照片开口唱歌

年后我们沿着对人物视频生成独立的思考,不断地向前探索,最新的工作是人物唱演视频生成框架Emote Portrait Alive。给定一张照片,可以让这个人来唱歌、讲话(这项功能已于近期上线通义APP)。当然了,四五年前大家都在研发这样的能力,对于人物视频生成而言,表现力是极度重要的,如果今天达到一个类人的表现力,在我来看是很难实现的。


我们要达到专业级,这才是真正大家使用的内容生成。很多生成的视频画质是OK的,但是大家有没有思考这样的问题,比如说文生图、生成的视频,你是这个视频的消费者吗?你会看吗?当然模型可能会生成这个世界上不存在的物种,这是很有意思的,但你会长期去消费这样的内容吗?

我觉得在做AIGC内容生成之前,不管是基础研究还是应用思考,大家都在高速迭代,每个人都有自己的思考和对这个问题的答案。

在我们生成的过程中,基于这样一个包括动作、唱歌(嘴型)、声音表演的生成,我们可以去打造一个非常有吸引力的甚至可以去做演艺的形象,甚至可以做一个虚拟的明星。

以上是薄列峰演讲内容的完整整理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央定调:2024年70岁及以上老人可享“3项优待”,包括农民在内

中央定调:2024年70岁及以上老人可享“3项优待”,包括农民在内

天下纵览
2024-04-13 12:39:22
痛心!女子抱着去世儿子不撒手后续,家属发声!网友:让她多抱会

痛心!女子抱着去世儿子不撒手后续,家属发声!网友:让她多抱会

鬼谷子思维
2024-06-01 17:28:09
不出意外,端午节过后这5样东西还要降价,建议大家不要着急买

不出意外,端午节过后这5样东西还要降价,建议大家不要着急买

猫叔东山再起
2024-06-02 11:57:24
印度一天至少85人疑因高温天气死亡,首都居民:水龙头流出的水跟开水没啥区别

印度一天至少85人疑因高温天气死亡,首都居民:水龙头流出的水跟开水没啥区别

极目新闻
2024-06-02 13:23:02
101岁杨振宁月工资惊人!凭什么?回国养老,却把青春奉献给别国

101岁杨振宁月工资惊人!凭什么?回国养老,却把青春奉献给别国

华人星光
2024-05-26 17:24:36
不教胡马度阴山,度过了会怎样?

不教胡马度阴山,度过了会怎样?

地图帝
2024-06-01 12:22:28
台湾收复在即,赖清德开始求和,大陆代表团抵台解放军划下落弹区

台湾收复在即,赖清德开始求和,大陆代表团抵台解放军划下落弹区

北纬的咖啡豆
2024-06-02 09:51:15
孩子画鸡“不及格”,爸爸晒真鸡照片质问老师:画得不够像吗?

孩子画鸡“不及格”,爸爸晒真鸡照片质问老师:画得不够像吗?

新时代的两性情感
2024-05-22 11:01:46
逮捕杜特尔特,时机已到?菲警局收到通告,马科斯突然憋了个大招

逮捕杜特尔特,时机已到?菲警局收到通告,马科斯突然憋了个大招

健身狂人
2024-06-01 10:47:14
章子怡带儿子与女儿一家三口过儿童节,儿子眉清目秀,醒醒长高了

章子怡带儿子与女儿一家三口过儿童节,儿子眉清目秀,醒醒长高了

阿芒娱乐说
2024-06-02 15:15:49
毛晓彤求你别再整了!在《庆余年》里假体都要飞出来了,太吓人

毛晓彤求你别再整了!在《庆余年》里假体都要飞出来了,太吓人

谈娱新语
2024-05-24 22:23:27
西渝高铁重庆段有新进展!建成后重庆至西安有望2.5小时左右通达

西渝高铁重庆段有新进展!建成后重庆至西安有望2.5小时左右通达

上游新闻
2024-06-02 11:58:04
胡连馨性感迷人写真

胡连馨性感迷人写真

娱乐的小灶
2024-06-02 17:34:32
乱套的儿童节,是娱乐至死最好的佐证!

乱套的儿童节,是娱乐至死最好的佐证!

晨露说事
2024-06-01 16:36:13
“最美刘三姐”扮演者出卖身体103次,敛财76万,枪毙前大喊不服

“最美刘三姐”扮演者出卖身体103次,敛财76万,枪毙前大喊不服

北筏话史
2024-04-30 11:36:47
高层终于出手了,深夜消息让人五味杂陈,两大领域或将一飞冲天

高层终于出手了,深夜消息让人五味杂陈,两大领域或将一飞冲天

静守时光落日
2024-06-02 07:00:08
毛主席去世前,有1件怪事及2个巧合,像是“天意征兆”

毛主席去世前,有1件怪事及2个巧合,像是“天意征兆”

纵横三千年
2024-06-01 18:33:50
实话实说,皇马夺第15个欧冠,一举引发五大连锁反应,不接受反驳

实话实说,皇马夺第15个欧冠,一举引发五大连锁反应,不接受反驳

刺头体育
2024-06-02 12:47:34
同是直辖市警备区,但上海、天津、重庆三个警备区的下辖单位各异

同是直辖市警备区,但上海、天津、重庆三个警备区的下辖单位各异

小圣杂谈原创
2024-06-01 17:10:05
秦海璐悄悄的减肥了吗?都瘦成张俪了。

秦海璐悄悄的减肥了吗?都瘦成张俪了。

娱乐的小灶
2024-06-02 11:35:00
2024-06-02 19:36:49
智东西
智东西
聚焦智能变革,服务产业升级。
8587文章数 116483关注度
往期回顾 全部

科技要闻

成功着陆!嫦娥六号将开始月背“挖宝”

头条要闻

媒体:中美防长会谈细节披露 董军的两句话值得注意

头条要闻

媒体:中美防长会谈细节披露 董军的两句话值得注意

体育要闻

我已伤痕累累 却依然感动不了命运之神

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

新造车5月销量: 小鹏乏力 问界暂"缺席"

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

家居
手机
本地
公开课
军事航空

家居要闻

风雅自来 中式的和谐平衡

手机要闻

不再“天价”!华为推出折叠机柔性屏主体更换活动:Mate X5仅换屏1999元

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

公开课

近视只是视力差?小心并发症

军事要闻

匈牙利总理:欧洲已进入对俄开战准备阶段

无障碍浏览 进入关怀版