网易首页 > 网易号 > 正文 申请入驻

ICCV 2023 | Actformer:从单人到多人,迈向更加通用的3D人体动作生成

0
分享至

本文的主要贡献为:

  • 提出了基于 GAN 和 Transformer混合架构的通用 3D 人体动作生成框

  • 不仅能够实现单人动作生成,还能拓展到多人交互式动作生成;

  • 基于GTA游戏引擎构造了一个合成的多人打架数据集,包括2~5个人同时交互,现已开源。

图1. Actformer支持多种类型的人体动作表征,支持单人/多人动作生成

论文链接: https://arxiv.org/abs/2203.07706 代码链接: https://github.com/Szy-Young/actformer 项目主页: https://liangxuy.github.io/actformer

一、 简介

3D人体动作生成是计算机视觉和图形学中的经典问题,近期通过文本描述生成人体动作的研究方向(text-to-motion)更是吸引了大量关注,其对于游戏、AR/VR、人机交互、具身智能等实际应用有重要的现实意义。本研究旨在探索给定动作类别标签,生成高质量的、多样化的3D人体动作序列。

我们发现,现有的相关工作在以下几个方面存在一定局限性:

  1. 大多工作局限于人体SMPL[5]参数模型表征的3D人体动作,而对于骨架坐标表征泛化性能差;

  2. 大多工作关注单人动作生成,而忽略了多人交互动作的生成;

因此,我们希望设计一种更加通用的、能够支持多种类型的人体动作表征的、支持单人/多人动作生成的3D人体动作生成框架。

二、具体方法

如下图所示,给定一个动作类别语义标签 ,以及从隐式高斯过程先验中采样的 ,Actformer能够生成一段3D人体动作序列 ,每一帧 包含 个个体,即 ,其中人的动作包括全局的根节点位移和局部的人体位姿变化,即人的全局运动轨迹和局部关节运动,对于局部关节运动,我们支持骨架坐标或者SMPL参数模型表示。

图2. Actformer框架图

2.1 单人动作生成

时序连贯性对3D动作生成任务至关重要,因此我们采用高斯过程作为隐式先验,并随机采样一个维度为( )的向量作为 ,其中 为待生成的动作序列长度, 为通道维度。

Actformer构造了一个基于Transformer结构的生成网络来将隐式向量 和给定的动作类别标签 转化成人体动作序列。具体来说,隐式向量 被看成包含 个tokens的列表,通过一个全连接层将其映射到表征空间,随后与动作类别标签的表征合并为长度为 的最终表征。在输入多层时序Transformer之前,我们加上了可学习的位置编码。利用Transformer对于动作数据进行时序建模,输出的结果通过一层全连接层,恢复出3D人体动作序列。

2.2 多人动作生成

从单人拓展到多人动作生成需要额外的人数维度 ,我们可以通过小幅度调整网络框架进行拓展。首先,考虑到在同一时刻,多个人的动作是高度相关且同步的,因此我们将其作为一个整体,多个人共享同一个采样的隐式表征,实验证明这样能够生成更加同步的交互结果。

生成器网络方面,我们设计了交互Transformer结构(I-Former)来建模不同人体之间的交互,以及时序Transformer结构(T-Former)来建模同一个人动作的时序变化,我们通过交替式地建模交互和时序来处理多人动作的建模。多人条件下,可学习的位置编码拓展为时间维度和人数维度的拼接。和单人生成一样,我们通过一层全连接层恢复出多人的3D人体动作序列。

2.3 生成对抗训练

Actformer是条件生成对抗网络框架,训练时,给定动作类别标签后,生成器合成3D人体动作序列,判别器以动作序列为输入,试图区分真实和合成动作序列,而生成器通过判别器的反馈提升生成质量。实验中,我们通过条件Wasserstein GAN损失函数来训练网络,并采用ST-GCN[4]的网络框架作为判别器。

由于多人的动作特征通过在特征通道维度拼接操作进行融合,然而拼接操作不具备排列不变性质,即与的输出结果不同,这是不合理的。因此我们采用了一个简单有效的数据增强方案,即在每个训练阶段都随机变换不同人的位置,从而使得判别网络更加鲁棒。

三、GTA Combat数据集

为了弥补目前多人交互,尤其是超过2个人的复杂交互数据集的缺乏,我们基于GTA-V游戏引擎合成了一个多人打架数据集,每个打架序列包含2~5个参与者,具有交互真实感、丰富的随机性。在GTA-V游戏引擎中,通过随机触发超过10种原子的打架模式,以及组合不同的人物、场景、被打者的随机反应,保证了合成数据集的多样性;同时,GTA-V的物体模型保证了合成数据集的物理真实性。对于2/3/4/5个人的打架行为,我们分别合成了大约2.3/1.9/1.5/1.2K数量的动作序列。数据将开源用作学术使用。

图3. GTA Combat数据集概况四、实验

我们在NTU-13、NTU RGB+D 120、BABEL以及本文提出的GTA Combat数据集上进行了大量实验,来证明算法的有效性和泛化性。评测方面,我们采用了动作识别准确率和FID分数作为量化指标,利用训练好的ST-GCN网络进行动作识别准确率的评测以及FID评测的特征提取,值得注意的是,与之前的工作不同的是,我们的ST-GCN网络考虑了人的全局位移,这是因为位移变化对多人交互的真实性更加重要。

4.1 量化结果

我们和Action2Motion[1]、ACTOR[2]和CSGN[3]等方法在单人和多人动作生成任务上进行了对比。从表1可得,我们的算法在所有数据集上均取得了最好的效果。

表1. 单人动作生成结果对比

对于多人动作生成实验,我们将Action2Motion[1]、ACTOR[2]和CSGN[3]方法拓展到多人场景,从表2可得,我们的算法均取得了最好的效果。

表2. 多人动作生成结果对比。左侧:NTU-2P,右侧:GTA Combat数据4.2. 消融实验

我们在不同网络模块设计上进行了大量消融实验。表3展示了高斯过程隐式先验(1)、Transformer生成网络(2)、可学习的位置编码(3)的有效性。

表3. NTU-1P上的网络模块消融实验

表4展示了判别器的特征融合选择(5-7)、可学习的位置编码(8)、时间维度和人数维度的拼接(9)的有效性。

表4. NTU-2P上的网络模块消融实验

表5展示了多人交互生成中多人共享采样的隐式表征(1)以及I-Former模块(2)的有效性。

表5. 多人交互编码消融实验4.3 可视化结果

如下图4所示,Actformer能够生成高质量的、多样化的3D人体动作序列,支持骨架坐标或者SMPL参数模型,同时支持多人交互的生成。更多的可视化结果以及视频效果可以参见项目主页。

图4. 可视化结果五、结论

本文旨在面向更加通用的3D人体动作生成,并提出了基于GAN和Transformer的生成网络框架,支持多种人体动作表征以及单人/多人动作生成,我们提出的GTA Combat数据集也弥补了当前复杂场景交互数据集不足的现状。

希望大家更多地关注3D人体动作生成领域,并持续关注我们关于人体动作/交互的理解与生成的后续工作,也欢迎对该领域感兴趣的同学加入我们!

参考

  1. Guo, Chuan, et al. “Action2motion: Conditioned generation of 3d human motions.” Proceedings of the 28th ACM International Conference on Multimedia. 2020.

  2. Petrovich, Mathis, Michael J. Black, and Gül Varol. “Action-conditioned 3D human motion synthesis with transformer VAE.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

  3. Yan, Sijie, et al. “Convolutional sequence generation for skeleton-based action synthesis.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

  4. Yan, Sijie, Yuanjun Xiong, and Dahua Lin. “Spatial temporal graph convolutional networks for skeleton-based action recognition.” Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.

  5. Loper, Matthew, et al. “SMPL: A skinned multi-person linear model.” ACM transactions on graphics (TOG) 34.6 (2015): 1-16.

实习生招聘 欢迎对三维人体动作生成、三维人体行为理解、人与物体/环境交互、三维人体生成、隐式神经表征的高年级本科、硕士、博士实习生加入我们! 联系方式: 简历接收邮箱:liangxuy96@gmail.com cc jinxin@eias.ac.cn 联系微信:liangxuy96 作者:徐良

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
立陶宛总统通告全球,不会对中国跪下认错,除非中方先做出让步

立陶宛总统通告全球,不会对中国跪下认错,除非中方先做出让步

趣生活
2026-02-25 21:28:03
回顾:四川一男子阴茎撕裂入院,9天后复查结果如何了

回顾:四川一男子阴茎撕裂入院,9天后复查结果如何了

新时代的两性情感
2026-02-23 18:01:52
突发!黄金直线拉升突破5200美元,白银站上90美元

突发!黄金直线拉升突破5200美元,白银站上90美元

每日经济新闻
2026-02-25 15:36:12
瑞典为何结束210年中立,加入北约并援乌近百亿美元?

瑞典为何结束210年中立,加入北约并援乌近百亿美元?

高博新视野
2026-02-22 20:16:40
手里有200万存款,能躺平吗?网友:我要是你早就躺了,够花得了

手里有200万存款,能躺平吗?网友:我要是你早就躺了,够花得了

带你感受人间冷暖
2026-02-21 00:22:37
浙江一家四口新年出游住4晚民宿,退房后垃圾带走、地板拖净、床铺整齐;福建房东:打开门被震惊了,超出我认知,素质太高了

浙江一家四口新年出游住4晚民宿,退房后垃圾带走、地板拖净、床铺整齐;福建房东:打开门被震惊了,超出我认知,素质太高了

极目新闻
2026-02-25 14:04:21
女子乘坐动车上厕所时 不慎冲走50g金手链 铁路人员回应

女子乘坐动车上厕所时 不慎冲走50g金手链 铁路人员回应

闪电新闻
2026-02-24 15:53:21
记者:卡塞米罗有可能去意大利,因为莫德里奇已经在米兰了

记者:卡塞米罗有可能去意大利,因为莫德里奇已经在米兰了

懂球帝
2026-02-25 21:10:09
谷爱凌发布会落泪:刚得知外婆去世,我向她保证过会勇敢

谷爱凌发布会落泪:刚得知外婆去世,我向她保证过会勇敢

澎湃新闻
2026-02-22 23:24:28
善恶到头终有报?57岁央视女主持王小丫,已走上另一条大路

善恶到头终有报?57岁央视女主持王小丫,已走上另一条大路

妙知
2026-01-13 11:55:41
41岁独居女子去世,无法定继承人,多位旁系亲属争夺遗产,法院:价值三四百万元的房产归国家所有,银行存款等按帮扶比例进行分配

41岁独居女子去世,无法定继承人,多位旁系亲属争夺遗产,法院:价值三四百万元的房产归国家所有,银行存款等按帮扶比例进行分配

大风新闻
2026-02-25 20:53:04
广东非珠三角城市发展潜力分析:谁将率先突围?

广东非珠三角城市发展潜力分析:谁将率先突围?

蓝色海边
2026-02-25 18:27:35
终于,苹果官方支持测网速了!

终于,苹果官方支持测网速了!

花果科技
2026-02-25 11:53:50
扎心!来广营这些楼价被“腰斩”!最高跌超53%!

扎心!来广营这些楼价被“腰斩”!最高跌超53%!

来广营邻友圈
2026-02-25 14:51:02
普京真勇猛,送给美国一记重拳!中国决定:给俄罗斯一个大面子

普京真勇猛,送给美国一记重拳!中国决定:给俄罗斯一个大面子

荷兰豆爱健康
2026-02-25 19:57:24
两国可能合并,一旦成功将成超级大国,可能终结美国世界霸主地位

两国可能合并,一旦成功将成超级大国,可能终结美国世界霸主地位

国际阿尝
2026-01-18 01:15:03
碧桂园7000亿项目烂尾

碧桂园7000亿项目烂尾

地产微资讯
2026-02-23 21:46:01
打伊朗前,美国找到中国,特朗普很清楚:错一步,中国就不战而胜

打伊朗前,美国找到中国,特朗普很清楚:错一步,中国就不战而胜

知鉴明史
2026-02-24 18:00:13
三只羊(小杨哥)借壳美股上市股价大起大落,蛋蛋晒合影引发热议!辛巴被曝无法回国!

三只羊(小杨哥)借壳美股上市股价大起大落,蛋蛋晒合影引发热议!辛巴被曝无法回国!

TVB的四小花
2026-02-24 11:36:02
2026-02-25 22:19:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

被指涉爱泼斯坦案 挪威前首相自杀未遂命悬一线

头条要闻

被指涉爱泼斯坦案 挪威前首相自杀未遂命悬一线

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

本地
游戏
艺术
公开课
军事航空

本地新闻

津南好·四时总相宜

曾经跟GTA叫板的IP日薄西山了!母公司始终保持沉默

艺术要闻

这位艺术家的马赛克画让人惊叹不已!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄乌冲突四周年:和平谈判希望渺茫

无障碍浏览 进入关怀版