网易首页 > 网易号 > 正文 申请入驻

CVPR 2024 | 长时舞蹈生成:数秒钟可生成极长的3D舞蹈

0
分享至

针对目前音乐生成3D舞蹈动作中存在的长序列生成动作质量差,生成效率低的问题,本文提出了Lodge,可以高效地根据输入音乐生成极长的3D人体舞蹈动作。本文将Lodge设计为两阶段的由粗到细的Diffusion框架,并提出了特征化的舞蹈基元动作作为两阶段Diffusion的中间层表征,从而让Lodge可以兼顾全局编舞规律和局部的动作质量,并且增强舞蹈的表现力。此外,本文还提出了脚步优化模块以缓解脚和地面的接触问题如脚滑、脚步漂浮等。文本通过大量的定量和定性实验证明了Lodge的有效性。代码已经开源,欢迎体验。

论文题目: Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives 论文链接: https://arxiv.org/abs/2403.10518 主页链接: https://li-ronghui.github.io/lodge‍ 代码链接: https://github.com/li-ronghui/LODGE

一、 研究动机

近年来,随着生成式人工智能的快速发展,现有方法如FineDance[1] ,EDGE[2]已经展示出了数秒钟高质量舞蹈的能力。然而,实际应用中的舞蹈表演和社交舞通常持续3至5分钟,舞蹈剧可以持续15分钟以上。因此,现有的舞蹈生成算法难以满足实际需求,而如何生成高质量的长序列舞蹈动作成为了正待解决的问题。然而,生成长序列的舞蹈仍面临着不少挑战:

  1. 长序列数据显著增大了计算开销,如何开发计算友好的方法,提高训练和推理阶段的效率?

  2. 现有的方法主要采用自回归模型,迭代地生成长序列舞蹈。然而这些方法往往面临着误差累积问题,且无法学习到全局的编舞规律。

  3. 由于神经网络的训练只关注与整体loss的收敛,因此网络更倾向于生成保守的动作,这导致了最终的舞蹈缺少富有表现力的动作,展现出了平淡和中庸的效果。

我们认为现有的方法仅仅将舞蹈生成视为序列到序列的生成问题,他们努力提高细粒度局部细节的舞蹈质量,而忽略了音乐和舞蹈之间的全局编舞规律。参考[3][4],舞蹈通常是以从粗到细的方式编排的。提供完整的音乐,舞蹈设计师首先分析节奏、流派、情绪基调等音乐属性,创造出“characteristic dance phrases”,即一些短暂的动作片段,具有强大的表现力和更丰富的语义信息。在这个阶段,舞蹈设计师可以集中精力设计具有有特点的舞蹈短语,例如“倒立”和“太空步”。这些具有特色的舞蹈乐句按照音乐的结构化信息进行排列,整体的舞蹈结构就奠定了。随后,通过将舞蹈短语与过渡动作连接起来,创作出整个舞蹈。

有了以上的认识之后,我们认为“dance phrases”包含丰富的独特动作,可以传递全局的舞蹈模式。因此,与dance phrases类似,我们提出了适合网络学习的characteristic dance primitives。这些dance primitives是具有高运动能量的富有表现力的8帧关键动作,具有以下主要优点:(1)它们是稀疏的,从而减少了计算需求。(2)它们具有丰富的语义信息,并且可以传递编舞模式。(3)它们具有富有表现力的运动特征,可以指导运动扩散模型产生更多的动态运动并避免单调。

接下来,我们设计了一个具有两个运动扩散模型的从粗到细的舞蹈生成框架,并采用 characteristic dance primitives 作为它们的中间表示。第一阶段是粗粒度的全局扩散模型,它以长音乐作为输入并产生dance primitives。随后,我们采用并行局部扩散模型来独立生成短舞蹈片段。基于一些已经生成的dance primitives,我们可以利用扩散引导来严格限制这些片段的开头和结尾之间的一致性。因此,这些舞蹈片段可以串联成一段连续的长舞蹈。同时,dance primitives的引导下,每个舞蹈片段的质量、表现力和多样性都得到增强。

综上所述,我们的主要贡献如下:

  1. 我们提出了一个可以并行生成长舞蹈的扩散模型。我们的方法能够学习整体的编舞模式,同时保证局部动作的质量。并行生成策略可以在数秒钟生成极长的3D舞蹈。

  2. 我们提出了characteristic dance primitives作为两个扩散模型之间的中间表示,提高了生成舞蹈的张力。

  3. 我们提出了一个脚部优化模块,并采用足部与地面的接触损失来缓解脚步和地面接触的问题诸如脚滑、脚部漂浮和脚与地面穿模等。

二、方法

为了同时考虑全局编舞规律和局部舞蹈质量,我们设计了一个由粗到细的两阶段的扩散网络,分别是Global Diffusion Model和Local Diffusion Model。两个模型可以独立地训练。Global Diffusion Model在更大的时间尺度上学习全局编舞规律,为了让Global Diffusion生成characteristic dance primitives,我们从对应的舞蹈序列种提取一些运动速度的极值点,并将这些极值点附近的8帧有表现力的关键动作片段做为Global Diffusion训练的Ground Truth。而Local Diffusion Model在一个较小的时间尺度上学习如何生成高质量的短时舞蹈片段。

图1. Lodge训练过程。

在推理阶段,首先输入长音乐特征 ,用Global Difusion生成蕴含编舞规律的多个dance primitives。每个dance primitives的维度是 ,其中 8 是帧,139是动作的维度。然后,我们将它们按照时间顺序分为用于支持并行生成的hard-cue key motion 和用于增强舞蹈表现的soft-cue key motion 。

图2. Lodge推理过程。“TE”为Transformer Encoder,“LD”为Local Diffusion。

随后进行Local Diffusion的并行生成。我们将 在时间维度切分为 ,并行地采用4个Local Diffusion并行生成对应的舞蹈片段 。如图3所示,在生成过程种,我们利用hard-cue key motion 和Diffusion inpainting技术控制 的最后四帧与对应 的前4帧一致,而 的前4帧与该 的后4帧一致。从而让 与 可以无缝衔接。同时,在扩散模型去噪过程中,soft-cue key motion仅在最初的 步中起到指导作用,其中 T 是扩散去噪步数。通过调整超参数“ ”, 我们可以控制Local Diffusion受这些soft-cue key motion影响的程度。

图3. Hard/Soft Diffusion Guidance

更多的技术细节请参考我们的论文。


三、实验

我们在FineDance[1]和AIST++[5]两个数据集上进行实验。由于FineDance平均每段舞蹈的时长是152.3秒,远高于AIST++的13.3秒,因此我们主要用FineDance数据集进行训练和测试。

表1. 在FineDacne数据集上与其他方法对比。

值得一提的是,采用DDIM采样策略可以获得不错的性能,并且生成1024帧舞蹈的推理时间降低到了4.57s。而得益于我们的并行生成架构,继续增大需要生成的舞蹈的序列长度,推理时间也不会显著增大。

表2. 超参数“s”的消融实验,测试于FineDance数据集。

我们的soft-cue key motion对结果的影响程度可以使用超参数“s”进行调整,其中“s”值越大表示效果越强。表2 展示了设置各种“s”值所产生的结果。随着“s”的增加 , 和节拍对齐分数BAS也相应增强。当“s”设置为 1 时,可获得最佳的性能。

表3. Foot Refine Block的消融实验,测试于FineDance数据集。

如表3所示,加入Foot Refine Block后,运动质量FID_k有了很大的改善,特别是Foot Skating Ratio从5.94%下降到5.01%,这证明我们提出的Foot Refine Block可以有效改善脚部与地面的接触质量,降低脚部脚滑现象出现的频率。

四、总结

在这项工作中,我们引入了 Lodge,一种两级从粗到细的扩散网络,并提出characteristic dance primitives作为两个扩散模型的中间级表示。Lodge 已通过用户研究和标准指标进行了广泛的评估,取得了最先进的结果。我们生成的样本表明,Lodge 可以并行生成符合编舞规则的舞蹈,同时保留局部细节和物理真实感。广泛的消融实验验证了我们不同模块、粗到细框架、舞蹈基元和足部细化网络的有效性。然而,我们的方法目前无法生成带有手势或面部表情的舞蹈动作,这对于表演也至关重要。我们将很高兴在未来看到长序列全身舞蹈生成的新工作。

参考文献

[1] Li, Ronghui, et al. "FineDance: A Fine-grained Choreography Dataset for 3D Full Body Dance Generation." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[2] Tseng, Jonathan, Rodrigo Castellon, and Karen Liu. "Edge: Editable dance generation from music." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
[3] Blom, Lynne Anne, and L. Tarin Chaplin. The intimate act of choreography. University of Pittsburgh Pre, 1982.
[4] Chen, Kang, et al. "Choreomaster: choreography-oriented music-driven dance synthesis." ACM Transactions on Graphics (TOG) 40.4 (2021): 1-13.
[5] Li, Ruilong, et al. "Ai choreographer: Music conditioned 3d dance generation with aist++." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[6] Huang, Ruozi, et al. "Dance revolution: Long-term dance generation with music via curriculum learning." arXiv preprint arXiv:2006.06119 (2020).
[7] Siyao, Li, et al. "Bailando: 3d dance generation by actor-critic gpt with choreographic memory." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
Illustration From IconScout By 22

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
布伦特原油期货涨幅扩大至7%,报108.35美元/桶

布伦特原油期货涨幅扩大至7%,报108.35美元/桶

每日经济新闻
2026-04-02 14:39:05
伊朗以色列同时大规模互袭

伊朗以色列同时大规模互袭

界面新闻
2026-04-01 22:57:08
女孩自助餐狂吃5小时,老板崩溃上前理论,女孩竟自顾自继续吃!

女孩自助餐狂吃5小时,老板崩溃上前理论,女孩竟自顾自继续吃!

张晓磊
2026-03-27 11:21:53
蓝莓大量上市!医生强调:患这4种疾病的人谨慎食用,千万别乱吃

蓝莓大量上市!医生强调:患这4种疾病的人谨慎食用,千万别乱吃

垚垚分享健康
2026-04-01 17:24:43
4.2今日金价:大家不必等待了!接下来,金价有可能会重演历史!

4.2今日金价:大家不必等待了!接下来,金价有可能会重演历史!

牛锅巴小钒
2026-04-02 04:54:54
国运来了,贵州发现万亿级宝藏,能用几百年,美日居然想分杯羹?

国运来了,贵州发现万亿级宝藏,能用几百年,美日居然想分杯羹?

卷史
2026-04-01 07:33:51
最高院:追债可以直接申请冻结账户,有时候不用诉讼就可要回钱!

最高院:追债可以直接申请冻结账户,有时候不用诉讼就可要回钱!

周军律师聊案子
2026-04-02 09:34:17
发现一个残酷真相:被美军抓走的马杜罗,已经被彻底遗忘?

发现一个残酷真相:被美军抓走的马杜罗,已经被彻底遗忘?

娱乐圈的哔哔王
2026-04-01 18:49:42
张柏芝晒二儿子近照!15岁谢振南超妈半头,侧脸撞脸爸妈

张柏芝晒二儿子近照!15岁谢振南超妈半头,侧脸撞脸爸妈

爱写作的洋洋
2026-04-02 09:39:03
92汽油涨超1.5毛/升后陡然降温,下次4月7日调价,涨幅或降下来!

92汽油涨超1.5毛/升后陡然降温,下次4月7日调价,涨幅或降下来!

猪友巴巴
2026-04-02 15:50:03
清明将至,辛柏青剪短发精神焕发,首谈丧妻后感悟,已卸下重担

清明将至,辛柏青剪短发精神焕发,首谈丧妻后感悟,已卸下重担

非常先生看娱乐
2026-03-30 16:35:34
伊朗取得重大胜利!伊朗武装部队高级发言人谢卡尔奇发布重磅消息

伊朗取得重大胜利!伊朗武装部队高级发言人谢卡尔奇发布重磅消息

阿七说史
2026-03-29 05:10:03
全球首位90后国家领导人来了,他是谁?

全球首位90后国家领导人来了,他是谁?

兴史兴谈
2026-04-01 13:18:15
老婆月薪19000却不帮我弟还房贷,我一气之下提离婚,她反应我愣了

老婆月薪19000却不帮我弟还房贷,我一气之下提离婚,她反应我愣了

匹夫来搞笑
2026-04-02 14:31:01
山西柳林一饭店凌晨突发意外,有三人死亡!疑似死亡原因曝出

山西柳林一饭店凌晨突发意外,有三人死亡!疑似死亡原因曝出

胡侃社会百态
2026-04-02 13:55:24
娜扎真空上阵上海活动,梳丸子头步步生莲冠压群芳,才懂性感尤物

娜扎真空上阵上海活动,梳丸子头步步生莲冠压群芳,才懂性感尤物

八斗小先生
2026-03-31 10:38:39
为啥说准备考公不宜到处说?网友:我妈也是,气得我快要冒烟

为啥说准备考公不宜到处说?网友:我妈也是,气得我快要冒烟

带你感受人间冷暖
2026-03-30 00:10:09
刚刚过去的一个小时 以色列遭开战以来最大规模导弹袭击

刚刚过去的一个小时 以色列遭开战以来最大规模导弹袭击

每日经济新闻
2026-04-02 00:24:09
出大事了,伊朗导弹精准斩首!大批美军官被抬走?英法德俄失声

出大事了,伊朗导弹精准斩首!大批美军官被抬走?英法德俄失声

二大爷观世界
2026-04-01 07:18:05
河南女子花28000元买“高铁安检员”名额,上岗后发现月薪1750元

河南女子花28000元买“高铁安检员”名额,上岗后发现月薪1750元

大秦共和国
2026-04-02 11:03:14
2026-04-02 16:23:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2332文章数 596关注度
往期回顾 全部

科技要闻

三年亏20亿,最新估值58亿,Xreal冲刺港股

头条要闻

四川复刻版"泰坦尼克号"烂尾 只完成90%的钢外壳工程

头条要闻

四川复刻版"泰坦尼克号"烂尾 只完成90%的钢外壳工程

体育要闻

这六个字,代表了邵佳一的新国足

娱乐要闻

宋宁峰带女儿出轨,张婉婷找董璇哭诉

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

用料下本 百万公里的蔚来ES6拆开看

态度原创

艺术
教育
亲子
家居
时尚

艺术要闻

故人西辞黄鹤楼,烟花三月下扬州

教育要闻

天府新区调整划片后,利好不止这个片区

亲子要闻

自查儿童是否弱视,家长朋友们一定要警惕

家居要闻

岁月静好 典雅新章

女人有没有品位看看穿搭就知道,这些造型值得借鉴,温柔高级

无障碍浏览 进入关怀版