网易首页 > 网易号 > 正文 申请入驻

ICCV 2023 | Actformer:从单人到多人,迈向更加通用的3D人体动作生成

0
分享至

本文的主要贡献为:

  • 提出了基于 GAN 和 Transformer混合架构的通用 3D 人体动作生成框

  • 不仅能够实现单人动作生成,还能拓展到多人交互式动作生成;

  • 基于GTA游戏引擎构造了一个合成的多人打架数据集,包括2~5个人同时交互,现已开源。

图1. Actformer支持多种类型的人体动作表征,支持单人/多人动作生成

论文链接: https://arxiv.org/abs/2203.07706 代码链接: https://github.com/Szy-Young/actformer 项目主页: https://liangxuy.github.io/actformer

一、 简介

3D人体动作生成是计算机视觉和图形学中的经典问题,近期通过文本描述生成人体动作的研究方向(text-to-motion)更是吸引了大量关注,其对于游戏、AR/VR、人机交互、具身智能等实际应用有重要的现实意义。本研究旨在探索给定动作类别标签,生成高质量的、多样化的3D人体动作序列。

我们发现,现有的相关工作在以下几个方面存在一定局限性:

  1. 大多工作局限于人体SMPL[5]参数模型表征的3D人体动作,而对于骨架坐标表征泛化性能差;

  2. 大多工作关注单人动作生成,而忽略了多人交互动作的生成;

因此,我们希望设计一种更加通用的、能够支持多种类型的人体动作表征的、支持单人/多人动作生成的3D人体动作生成框架。

二、具体方法

如下图所示,给定一个动作类别语义标签 ,以及从隐式高斯过程先验中采样的 ,Actformer能够生成一段3D人体动作序列 ,每一帧 包含 个个体,即 ,其中人的动作包括全局的根节点位移和局部的人体位姿变化,即人的全局运动轨迹和局部关节运动,对于局部关节运动,我们支持骨架坐标或者SMPL参数模型表示。

图2. Actformer框架图

2.1 单人动作生成

时序连贯性对3D动作生成任务至关重要,因此我们采用高斯过程作为隐式先验,并随机采样一个维度为( )的向量作为 ,其中 为待生成的动作序列长度, 为通道维度。

Actformer构造了一个基于Transformer结构的生成网络来将隐式向量 和给定的动作类别标签 转化成人体动作序列。具体来说,隐式向量 被看成包含 个tokens的列表,通过一个全连接层将其映射到表征空间,随后与动作类别标签的表征合并为长度为 的最终表征。在输入多层时序Transformer之前,我们加上了可学习的位置编码。利用Transformer对于动作数据进行时序建模,输出的结果通过一层全连接层,恢复出3D人体动作序列。

2.2 多人动作生成

从单人拓展到多人动作生成需要额外的人数维度 ,我们可以通过小幅度调整网络框架进行拓展。首先,考虑到在同一时刻,多个人的动作是高度相关且同步的,因此我们将其作为一个整体,多个人共享同一个采样的隐式表征,实验证明这样能够生成更加同步的交互结果。

生成器网络方面,我们设计了交互Transformer结构(I-Former)来建模不同人体之间的交互,以及时序Transformer结构(T-Former)来建模同一个人动作的时序变化,我们通过交替式地建模交互和时序来处理多人动作的建模。多人条件下,可学习的位置编码拓展为时间维度和人数维度的拼接。和单人生成一样,我们通过一层全连接层恢复出多人的3D人体动作序列。

2.3 生成对抗训练

Actformer是条件生成对抗网络框架,训练时,给定动作类别标签后,生成器合成3D人体动作序列,判别器以动作序列为输入,试图区分真实和合成动作序列,而生成器通过判别器的反馈提升生成质量。实验中,我们通过条件Wasserstein GAN损失函数来训练网络,并采用ST-GCN[4]的网络框架作为判别器。

由于多人的动作特征通过在特征通道维度拼接操作进行融合,然而拼接操作不具备排列不变性质,即与的输出结果不同,这是不合理的。因此我们采用了一个简单有效的数据增强方案,即在每个训练阶段都随机变换不同人的位置,从而使得判别网络更加鲁棒。

三、GTA Combat数据集

为了弥补目前多人交互,尤其是超过2个人的复杂交互数据集的缺乏,我们基于GTA-V游戏引擎合成了一个多人打架数据集,每个打架序列包含2~5个参与者,具有交互真实感、丰富的随机性。在GTA-V游戏引擎中,通过随机触发超过10种原子的打架模式,以及组合不同的人物、场景、被打者的随机反应,保证了合成数据集的多样性;同时,GTA-V的物体模型保证了合成数据集的物理真实性。对于2/3/4/5个人的打架行为,我们分别合成了大约2.3/1.9/1.5/1.2K数量的动作序列。数据将开源用作学术使用。

图3. GTA Combat数据集概况四、实验

我们在NTU-13、NTU RGB+D 120、BABEL以及本文提出的GTA Combat数据集上进行了大量实验,来证明算法的有效性和泛化性。评测方面,我们采用了动作识别准确率和FID分数作为量化指标,利用训练好的ST-GCN网络进行动作识别准确率的评测以及FID评测的特征提取,值得注意的是,与之前的工作不同的是,我们的ST-GCN网络考虑了人的全局位移,这是因为位移变化对多人交互的真实性更加重要。

4.1 量化结果

我们和Action2Motion[1]、ACTOR[2]和CSGN[3]等方法在单人和多人动作生成任务上进行了对比。从表1可得,我们的算法在所有数据集上均取得了最好的效果。

表1. 单人动作生成结果对比

对于多人动作生成实验,我们将Action2Motion[1]、ACTOR[2]和CSGN[3]方法拓展到多人场景,从表2可得,我们的算法均取得了最好的效果。

表2. 多人动作生成结果对比。左侧:NTU-2P,右侧:GTA Combat数据4.2. 消融实验

我们在不同网络模块设计上进行了大量消融实验。表3展示了高斯过程隐式先验(1)、Transformer生成网络(2)、可学习的位置编码(3)的有效性。

表3. NTU-1P上的网络模块消融实验

表4展示了判别器的特征融合选择(5-7)、可学习的位置编码(8)、时间维度和人数维度的拼接(9)的有效性。

表4. NTU-2P上的网络模块消融实验

表5展示了多人交互生成中多人共享采样的隐式表征(1)以及I-Former模块(2)的有效性。

表5. 多人交互编码消融实验4.3 可视化结果

如下图4所示,Actformer能够生成高质量的、多样化的3D人体动作序列,支持骨架坐标或者SMPL参数模型,同时支持多人交互的生成。更多的可视化结果以及视频效果可以参见项目主页。

图4. 可视化结果五、结论

本文旨在面向更加通用的3D人体动作生成,并提出了基于GAN和Transformer的生成网络框架,支持多种人体动作表征以及单人/多人动作生成,我们提出的GTA Combat数据集也弥补了当前复杂场景交互数据集不足的现状。

希望大家更多地关注3D人体动作生成领域,并持续关注我们关于人体动作/交互的理解与生成的后续工作,也欢迎对该领域感兴趣的同学加入我们!

参考

  1. Guo, Chuan, et al. “Action2motion: Conditioned generation of 3d human motions.” Proceedings of the 28th ACM International Conference on Multimedia. 2020.

  2. Petrovich, Mathis, Michael J. Black, and Gül Varol. “Action-conditioned 3D human motion synthesis with transformer VAE.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

  3. Yan, Sijie, et al. “Convolutional sequence generation for skeleton-based action synthesis.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

  4. Yan, Sijie, Yuanjun Xiong, and Dahua Lin. “Spatial temporal graph convolutional networks for skeleton-based action recognition.” Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.

  5. Loper, Matthew, et al. “SMPL: A skinned multi-person linear model.” ACM transactions on graphics (TOG) 34.6 (2015): 1-16.

实习生招聘 欢迎对三维人体动作生成、三维人体行为理解、人与物体/环境交互、三维人体生成、隐式神经表征的高年级本科、硕士、博士实习生加入我们! 联系方式: 简历接收邮箱:liangxuy96@gmail.com cc jinxin@eias.ac.cn 联系微信:liangxuy96 作者:徐良

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
34岁萨拉赫带队创历史赛后再次落泪,亚洲球队全部止步32强回家。

34岁萨拉赫带队创历史赛后再次落泪,亚洲球队全部止步32强回家。

体育书生阿南
2026-07-04 07:30:15
NBA两笔重磅交易完成!湖人1换3放弃状元,首发阵容彻底解散

NBA两笔重磅交易完成!湖人1换3放弃状元,首发阵容彻底解散

锐评利物浦
2026-07-04 09:45:10
北约峰会将出台重磅决定 川普TACO的最大原因浮出水面?

北约峰会将出台重磅决定 川普TACO的最大原因浮出水面?

西楼饮月
2026-07-03 17:27:38
不止损是等死,乱止损是找死——很多散户搞错了止损的真正意义

不止损是等死,乱止损是找死——很多散户搞错了止损的真正意义

薛洪言
2026-07-03 08:03:07
香港名媛就未帮郭富城方媛p图道歉:绝无丑化或炒作意图

香港名媛就未帮郭富城方媛p图道歉:绝无丑化或炒作意图

可乐谈情感
2026-07-04 00:18:32
朱珠晒意大利旅游美照,4岁女儿王珠宝颜值逆袭,松弛育儿上热搜

朱珠晒意大利旅游美照,4岁女儿王珠宝颜值逆袭,松弛育儿上热搜

嘴角上翘的弧度
2026-07-04 03:50:54
拒绝冷门!阿根廷3-2战胜佛得角,创造3大奇迹,卫冕几率大幅提升

拒绝冷门!阿根廷3-2战胜佛得角,创造3大奇迹,卫冕几率大幅提升

锐评利物浦
2026-07-04 09:46:40
他出门女秘书相伴,非法敛财100亿!从狂妄巨富到阶下囚

他出门女秘书相伴,非法敛财100亿!从狂妄巨富到阶下囚

聪明小石头
2026-02-15 18:42:58
606万损失为何要赔1154.6万?律师:超出上限

606万损失为何要赔1154.6万?律师:超出上限

看看新闻Knews
2026-07-03 21:50:22
伊布:克罗地亚绝平进球被吹是误判,葡萄牙是被保送晋级

伊布:克罗地亚绝平进球被吹是误判,葡萄牙是被保送晋级

懂球帝
2026-07-03 19:32:36
20美元神裤:一眼贵气,詹妮弗·劳伦斯让家居服都变高级了

20美元神裤:一眼贵气,詹妮弗·劳伦斯让家居服都变高级了

赴一场山海啊
2026-07-04 01:04:32
董卿当年那句话含金量还在上升:韩红的厚度,从不是嘴上说说而已

董卿当年那句话含金量还在上升:韩红的厚度,从不是嘴上说说而已

子芫伴你成长
2026-07-02 23:04:56
追平个人单届纪录,梅西是首位两届世界杯进球7+的球员

追平个人单届纪录,梅西是首位两届世界杯进球7+的球员

懂球帝
2026-07-04 06:57:25
丰田六代混动正式量产!国产混动这下到底慌不慌?

丰田六代混动正式量产!国产混动这下到底慌不慌?

生活魔术专家
2026-07-03 18:54:49
出格式穿搭,小众表达从不是异类

出格式穿搭,小众表达从不是异类

飛尚日记
2026-07-04 07:28:09
韩红带队去内蒙做义诊,大阵仗场景引争议!网友:还差一辆检阅车

韩红带队去内蒙做义诊,大阵仗场景引争议!网友:还差一辆检阅车

火山詩话
2026-07-03 15:01:22
法拉第未来厂房人去楼空,贾跃亭炸上热搜!

法拉第未来厂房人去楼空,贾跃亭炸上热搜!

财经三分钟pro
2026-07-03 15:28:40
恭喜!知名港星25岁儿子北大硕士毕业,夫妻俩赴北京观礼满脸骄傲

恭喜!知名港星25岁儿子北大硕士毕业,夫妻俩赴北京观礼满脸骄傲

十级搞笑选手
2026-07-02 18:22:47
十五五定调,2026年养老金调整或启动,企退人员能涨2.8%吗?

十五五定调,2026年养老金调整或启动,企退人员能涨2.8%吗?

阅微札记
2026-07-04 09:34:46
“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

熙熙说教
2026-07-01 19:29:52
2026-07-04 10:24:50
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2423文章数 596关注度
往期回顾 全部

科技要闻

iPhone 18 Pro泄密影响恶劣,印度调查塔塔

头条要闻

阿根廷加时赛3-2绝杀佛得角 世界杯最大黑马昂首出局

头条要闻

阿根廷加时赛3-2绝杀佛得角 世界杯最大黑马昂首出局

体育要闻

今夏最动人告别!世界从此记住佛得角

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
时尚
艺术
健康
旅游

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

裙子+玛丽珍鞋、背心+阔腿裤,今年夏天最流行搭配,谁穿谁好看!

艺术要闻

这位女子,在画坛默默无闻,作品清新质朴

听说少吃点能抗衰老?专家讲解!

旅游要闻

当意式风情邂逅“上海之夏”,上海FV佛罗伦萨小镇举办2026夏日主题活动

无障碍浏览 进入关怀版