网易首页 > 网易号 > 正文 申请入驻

重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse

0
分享至

机器之心专栏

作者:MMLab@NTU

来自南洋理工大学和商汤科技的研究者联合提出了一种全新的文本驱动动作生成框架——ReMoDiffuse。

人体动作生成任务旨在生成逼真的人体动作序列,以满足娱乐、虚拟现实、机器人技术等领域的需求。传统的生成方法包括 3D 角色创建、关键帧动画和动作捕捉等步骤,其存在诸多限制,如耗时较长,需要专业技术知识,涉及昂贵的系统和软件,不同软硬件系统之间可能存在兼容性问题等。随着深度学习的发展,人们开始尝试使用生成模型来实现人体动作序列的自动生成,例如通过输入文本描述,要求模型生成与文本要求相匹配的动作序列。随着扩散模型被引入这个领域,生成动作与给定文本的一致性不断提高。

然而,生成动作的自然程度离使用需求仍有很大差距。为了进一步提升人体动作生成算法的能力,本文在 MotionDiffuse [1] 的基础上提出了 ReMoDiffuse 算法(图 1),通过利用检索策略,找到高相关性的参考样本,提供细粒度的参考特征,从而生成更高质量的动作序列。

  • 论文链接:https://arxiv.org/pdf/2304.01116.pdf
  • GitHub:https://github.com/mingyuan-zhang/ReMoDiffuse
  • 项目主页:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通过巧妙地将扩散模型和创新的检索策略融合,ReMoDiffuse 为文本指导的人体动作生成注入了新的生命力。经过精心构思的模型结构,ReMoDiffuse 不仅能够创造出丰富多样、真实度高的动作序列,还能有效地满足各种长度和多粒度的动作需求。实验证明,ReMoDiffuse 在动作生成领域的多个关键指标上表现出色,显著地超越了现有算法。

图 1. ReMoDiffuse 概览

方法介绍

ReMoDiffuse 主要由两个阶段组成:检索和扩散。在检索阶段,ReMoDiffuse 使用混合检索技术,基于用户输入文本以及预期动作序列长度,从外部的多模态数据库中检索出信息丰富的样本,为动作生成提供强有力的指导。在扩散阶段,ReMoDiffuse 利用检索阶段检索到的信息,通过高效的模型结构,生成与用户输入语义一致的运动序列。

为了确保高效的检索,ReMoDiffuse 为检索阶段精心设计了以下数据流(图 2):

图 2:ReMoDiffuse 的检索阶段

扩散过程(图3.c)由正向过程和逆向过程两个部分组成。在正向过程中,ReMoDiffuse 逐步将高斯噪声添加到原始动作数据中,并最终将其转化为随机噪声。逆向过程专注于除去噪声并生成逼真的动作样本。从一个随机高斯噪声开始,ReMoDiffuse 在逆向过程中的每一步都使用语义调制模块(SMT)(图3.a)来估测真实分布,并根据条件信号来逐步去除噪声。这里 SMT 中的 SMA 模块将会将所有的条件信息融入到生成的序列特征中,是本文提出的核心模块。

图 3:ReMoDiffuse 的扩散阶段

3.V 向量提供了动作生成所需的实际特征。类似 K 向量,这里 V 向量也综合考虑了检索样本、用户输入以及当前动作序列。考虑到检索样本的文本描述特征与生成的动作之间没有直接关联,因此在计算 V 向量时我们选择不使用这一特征,以避免不必要的信息干扰。

结合 Efficient Attention 的全局注意力模板机制,SMA 层利用来自检索样本的辅助信息、用户文本的语义信息以及待去噪序列的特征信息,建立起一系列综合性的全局模板,使得所有条件信息能够被待生成序列充分吸收。

实验及结果

我们在两个数据集 HumanML3D [4] 和 KIT-ML [5] 上评估了 ReMoDiffuse。在与文本的一致性与动作质量两个角度上,实验结果(表 1、2)展示了我们提出的 ReMoDiffuse 框架的强大性能和优势。

表 1. 不同方法在 HumanML3D 测试集上的表现

表 2. 不同方法在 KIT-ML 测试集上的表现

以下是一些能定性展示 ReMoDiffuse 的强大性能的示例(图 4)。与之前的方法相比,例如,在给定文本 “一个人在圆圈里跳跃” 时,只有 ReMoDiffuse 能够准确捕捉到 “跳跃” 动作和 “圆圈” 路径。这表明 ReMoDiffuse 能够有效地捕捉文本细节,并将内容与给定的运动持续时间对齐。

图 4. ReMoDiffuse 生成的动作序列与其他方法生成的动作序列的比较

我们对 Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相应动作序列进行了可视化展示,并以问卷形式收集测试参与者的意见。结果的分布情况如图 5 所示。从结果中可以清晰地看出,在大多数情况下,参与测试者认为我们的方法 —— 即 ReMoDiffuse 所生成的动作序列在四个算法中最贴合所给的文本描述,也最自然流畅。

图 5:用户调研的结果分布

引用

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

[5] Matthias Plappert, Christian Mandery, and Tamim Asfour. The kit motion-language dataset. Big data, 4 (4):236–252, 2016.

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴黎奥运会开幕式的28个看点:有种不顾观众死活的美

巴黎奥运会开幕式的28个看点:有种不顾观众死活的美

果壳
2024-07-27 09:34:12
奥运金牌奖励:中国香港77万美元第1,美国近4万,中国呢

奥运金牌奖励:中国香港77万美元第1,美国近4万,中国呢

叶青足球世界
2024-07-27 09:20:16
中国奥运冠军孙一文一轮游,覃海洋状态出大问题,李冰洁预赛出局

中国奥运冠军孙一文一轮游,覃海洋状态出大问题,李冰洁预赛出局

三十年莱斯特城球迷
2024-07-27 20:08:09
闹大了!巴黎奥运会第一天,韩国队投诉奥委会,中国队被严重欺负

闹大了!巴黎奥运会第一天,韩国队投诉奥委会,中国队被严重欺负

宗介说体育
2024-07-27 19:52:16
俄消息人士:赌俄不敢打,乌克兰在第三国驻扎战机

俄消息人士:赌俄不敢打,乌克兰在第三国驻扎战机

澎湃新闻
2024-07-27 12:12:28
中国奥运冠军遭误判!被日本偷走胜利 交涉裁判无果 回放拒绝特写

中国奥运冠军遭误判!被日本偷走胜利 交涉裁判无果 回放拒绝特写

环太平洋老正太
2024-07-27 20:20:05
炸裂啊!中国一女子为了拿到英国永久居住证,主动被外国人家暴

炸裂啊!中国一女子为了拿到英国永久居住证,主动被外国人家暴

杨哥历史
2024-07-27 15:37:14
李冰洁爆冷被淘汰,覃海洋第九晋级100蛙,中国游泳队开局不利

李冰洁爆冷被淘汰,覃海洋第九晋级100蛙,中国游泳队开局不利

体娱一家亲
2024-07-27 18:56:38
看到李亚鹏年轻时的照片,才明白王菲周迅为啥相继“沦陷”了

看到李亚鹏年轻时的照片,才明白王菲周迅为啥相继“沦陷”了

温柔娱公子
2024-07-26 11:59:58
白眼狼!穆斯林难民获德国护照后发视频炫耀:你们的土地是我的了

白眼狼!穆斯林难民获德国护照后发视频炫耀:你们的土地是我的了

古今历史记
2024-07-27 15:39:07
太突然!风向变了,很多人开始骂董宇辉,很多名人猛烈炮轰董宇辉

太突然!风向变了,很多人开始骂董宇辉,很多名人猛烈炮轰董宇辉

影像温度
2024-07-27 12:42:45
1.3亿欧!巴黎奥运开幕式花销曝光,是伦敦的3倍!与08年北京相当

1.3亿欧!巴黎奥运开幕式花销曝光,是伦敦的3倍!与08年北京相当

风过乡
2024-07-27 09:10:24
闹大了,陈若琳晒出全红婵的奥运房间,评论区网友炸锅!

闹大了,陈若琳晒出全红婵的奥运房间,评论区网友炸锅!

娱乐白名单
2024-07-26 15:53:53
乌克兰人带着他们的国旗现身巴黎奥运会,这是俄粉的破防时刻

乌克兰人带着他们的国旗现身巴黎奥运会,这是俄粉的破防时刻

关尔东
2024-07-27 15:44:42
大心脏?黄雨婷14枪全超10环!17岁首战奥运便夺金牌,仍就读高二

大心脏?黄雨婷14枪全超10环!17岁首战奥运便夺金牌,仍就读高二

我爱英超
2024-07-27 18:03:19
中国队入场后全走了!不参加开幕式盛典,美国倒数第二出场有原因

中国队入场后全走了!不参加开幕式盛典,美国倒数第二出场有原因

三十年莱斯特城球迷
2024-07-27 05:12:53
万年县委书记毛奇落马丨对话举报者:被逼躲外省实名举报

万年县委书记毛奇落马丨对话举报者:被逼躲外省实名举报

鲁中晨报
2024-07-27 11:13:06
罗永浩直播间突然被封禁!

罗永浩直播间突然被封禁!

青瓜娱评
2024-07-27 20:20:19
4分惜败爆冷出局!女篮霸主惨遭淘汰无缘12强:4国手缺席被打崩了

4分惜败爆冷出局!女篮霸主惨遭淘汰无缘12强:4国手缺席被打崩了

篮球快餐车
2024-07-27 07:55:15
同名同姓同校同年级!四川两个“张可人”分别被清华北大录取,已互加微信好友

同名同姓同校同年级!四川两个“张可人”分别被清华北大录取,已互加微信好友

红星新闻
2024-07-27 15:42:25
2024-07-27 23:04:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9249文章数 141967关注度
往期回顾 全部

科技要闻

蔚来自研智驾芯片流片!第二代手机也来了

头条要闻

夺奥运首金的黄雨婷:17岁高中生 去年亚运会"三冠王"

头条要闻

夺奥运首金的黄雨婷:17岁高中生 去年亚运会"三冠王"

体育要闻

射落奥运首金的她,还是个17岁高中生

娱乐要闻

《歌手2024》总决赛赛制被质疑好搞笑

财经要闻

董宇辉单飞,与辉同行到底值多少钱?

汽车要闻

售价18.27万/新外观 雪铁龙 天逸C5冠军版上市

态度原创

游戏
时尚
数码
教育
军事航空

原神 X KFC联动第二弹,1:1还原美露莘玩偶曝光,太可爱捏!

2024年最流行的连衣裙,就是这件!

数码要闻

对话韶音:开放式音频的破圈之路-技术创新与Z世代营销的双轮驱动

教育要闻

补录,24届中考终章回顾

军事要闻

巴黎奥运会开幕当天俄乌战斗激烈 俄军发动了23次攻势

无障碍浏览 进入关怀版