网易首页 > 网易号 > 正文 申请入驻

InfiniteDance:面向真实场景的可泛化音乐生成舞蹈

0
分享至

为了推动音乐驱动舞蹈生成在真实(in-the-wild)场景中的应用,我们提出了 InfiniteDance。该工作的核心思想是实现“scale up”:一方面构建可扩展的动作采集管线,另一方面设计能够适应大规模数据的生成模型。同时,我们针对自然数据集中长尾分布带来的学习困难问题,提出了相应的解决方案。


论文标题: InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization 论文链接: https://arxiv.org/abs/2603.13375 代码链接: https://github.com/MotrixLab/InfiniteDance 项目主页: https://infinitedance.github.io

一、简介

现有音乐驱动舞蹈方法在面向开放域真实场景(in-the-wild)的部署中仍面临严峻挑战。当模型面对训练分布之外的音乐风格、节奏或未见过的编舞语境时,现有方法往往产生结构松散、语义不匹配或物理不合理的舞蹈动作,这严重限制了 3D 舞蹈生成技术的实际应用价值。这一局限性主要归因于数据与模型两方面的瓶颈:

  1. 数据层面存在规模稀缺问题,且天然存在长尾分布问题。

  2. 模型层面缺少鲁棒性,过度依赖人工先验与特定条件设计。

为了解决上述问题,本章的主要贡献如下:


  1. 提出了一种新颖的 3D 动作采集管线,能够从单目视频中捕获高质量、物理合理且富有表现力的动作。其核心是一个高效的脚部修复扩散模型(FRDM),有效消除了脚地接触伪影,同时保持了原始动作的几何保真度。

  2. 构建了一个大规模、高质量的 3D 舞蹈数据集InfiniteDance,包含100.69小时的动作,涵盖 30 种风格,并配有丰富的标注,包括 RGB 视频、2D 关键点、音乐和风格标签。

  3. 设计了一个可扩展的基于 LLaMA 的编舞框架,利用检索到的参考舞蹈来提高对真实场景音乐的泛化能力,并采用 混合专家网络Cadence-MoE 来减轻由数据集不平衡引起的生成偏差,从而增强音乐-舞蹈风格一致性。

二、InfiniteDance数据集构建


可规模化的高质量动作采集管线

我们提出了一种新颖的3D动作采集管线,能够从单目视频中提取高质量、物理合理的 3D 动作。

  1. 第一步是使用基于视频的动作估计方法从单目视频中提取高质量的全身动作。我们首先使用 YOLOv8对视频进行预处理,以提取单人视频序列。鉴于其强大的泛化能力和重力感知建模,我们采用 GVHMR来估计身体动作。我们使用 SMPLest-X获取SMPL-X表情和手部参数,因为它能捕捉可见特征并准确估计被遮挡的面部和手部。

  2. 第二步是通过motion tracking在物理仿真环境中重建出这些动作,这有助于通过强制物理约束来修正非物理伪影。这一步有效消除了常见的伪影,如身体穿透、漂浮和脚部滑动。然而,由于基于物理的模拟无法准确建模不同舞蹈动作中涉及的各种地面摩擦,它经常将脚部滑动伪影转换为明显的脚部抖动。

  3. 第三步是应用脚部修复扩散模型(FRDM)进一步校正脚部动作。这也是所提出的动作采集管线的核心,将在下文中详细介绍。

利用这个高质量动作采集管线,我们从互联网舞蹈视频中尽可能广泛的采集了一个大规模高质量的舞蹈数据集InfiniteDance如下图。


提出的InfiniteDance数据集和现有数据集比较 三、舞蹈动作生成模型ChoreoLLaMA

为了实现适用于任何给定音乐的可扩展舞蹈生成,我们提出了 ChoreoLLaMA,一个音乐驱动的舞蹈生成模型。

3.1 基于RAG的编舞

为了提高对多样化甚至稀有音乐的泛化能力,我们提出了一种基于检索增强生成(RAG)的编舞方法。

我们训练了一个音乐-舞蹈跨模态检索网络,遵循 CLIP 架构,其中音乐编码器和舞蹈编码器利用高效注意力机制,模型使用 InfoNCE 损失在 InfiniteDance 数据集的训练集上进行训练。

在 ChoreoLLaMA的训练和推理期间,我们检索前 个最相关的训练集参考舞蹈 。每个 通过线性投影操作处理以获得舞蹈嵌入 。最终参考嵌入 是所有参考舞蹈嵌入 的加权和。

3.2 韵律混合专家网络Cadence-MoE
ChoreoLLaMA方法架构图

为了捕捉高频动作动态和低频优雅动作,并有效利用来自检索到的参考舞蹈的编舞先验,我们提出了韵律混合专家网络(Cadence Mixture of Experts,Cadence-MoE)。

对于流派 ,我们学习一个嵌入并重复它以获得 。

如图所示,参考舞蹈由权重 加权,其中 ,并求和得到 。

然后我们应用实值快速傅里叶变换(RFFT)以获得频域特征 ,其中 对应于奈奎斯特频率分量数目。

频率掩码将频谱分为 个频带,每个频带对应大小为 的有效频域特征,其余置零。

每个频带由一个专家处理,它们的输出使用由线性层后接 Softmax 激活函数组成的门控网络所预测的权重 进行加权组合。

这种设计允许每个专家专注于不同的频率特征,使模型能够更好地适应各种舞蹈风格,从平滑、缓慢的动作到快速、动态的动作。

四、实验结果与分析 4.1 与SOTA对比实验
与SOTA方法对比实验结果

如上表所示,我们将我们的方法与现有先进方法(EDGE、LODGE 和 Bailando)进行评估比较。

4.2 泛化性实验

为了评估真实场景泛化能力,我们在两个跨数据集设置和一个 OOD 设置下测试在 InfiniteDance 上训练的模型。

对于跨数据集评估,我们使用 AIST++ 和 FineDance,它们在捕捉设置、编舞风格和音乐分布上与 InfiniteDance 有很大不同。

对于OOD评估,我们策划了一个罕见音乐集,其 BPM 超出 InfiniteDance 训练范围,具有稀有乐器和风格(例如,特雷门琴、环境音乐、身体打击乐),引入了明显的分布偏移。

如下表 所示,ChorroLLaMA\ 在所有设置下始终优于 Lodge,展示了更强的跨数据集和分布外泛化能力。

泛化性对比实验 4.3 消融实验
消融实验结果 五、总结与展望

本文提出了一个用于3D舞蹈生成的可扩展框架,从数据获取与模型设计两方面进行推进。我们构建了一套高效的3D动作采集流程,用于获取大规模高质量舞蹈数据,并据此构建了 InfiniteDance 数据集,为训练更具泛化能力的舞蹈生成模型提供了坚实基础。我们进一步提出 ChoreoLLaMA,通过基于RAG的编舞机制与节奏感知的MoE结构,提升生成舞蹈的质量与泛化能力。

然而,人类编舞本质上是一个迭代且交互的创作过程,依赖持续的尝试、反馈与协作进行优化。相比之下,当前的 ChoreoLLaMA 仅基于音乐和风格进行单次前向生成,无法融入中间反馈,因此尚不支持交互式细化或与人类共同创作的编舞模式。

Illustration generated by AI.

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家烟草专卖局:坚决拥护党中央决定

国家烟草专卖局:坚决拥护党中央决定

新京报
2026-04-13 15:25:08
下架、召回!广东多款饮用水,细菌超标!情况通报

下架、召回!广东多款饮用水,细菌超标!情况通报

娱乐的硬糖吖
2026-04-14 00:52:32
震惊!大同悬空寺在公路旁砌墙“不让免费看”,当地网友发帖反驳

震惊!大同悬空寺在公路旁砌墙“不让免费看”,当地网友发帖反驳

火山詩话
2026-04-14 06:27:39
家长担心女儿太美,发明“防早恋”发型,网友:颜值已经很安全了

家长担心女儿太美,发明“防早恋”发型,网友:颜值已经很安全了

蝴蝶花雨话教育
2026-04-10 13:25:02
64岁陈庭威:没老婆没孩子,定居广东住豪宅,不服老打球很精彩

64岁陈庭威:没老婆没孩子,定居广东住豪宅,不服老打球很精彩

白面书誏
2026-04-13 19:08:56
水花兄弟要重聚?独行侠专家证实:克莱买断回归勇士,方案已清晰

水花兄弟要重聚?独行侠专家证实:克莱买断回归勇士,方案已清晰

夜白侃球
2026-04-14 10:41:51
裘德·洛花1个月变成普京,新片预告片里连眼神都换了

裘德·洛花1个月变成普京,新片预告片里连眼神都换了

影视情报室
2026-04-14 08:05:09
震惊!一女孩求职不顺焦虑,父亲转来4.8万,按月4000元当作工资

震惊!一女孩求职不顺焦虑,父亲转来4.8万,按月4000元当作工资

火山詩话
2026-04-14 07:33:54
东契奇本周六将归队!多次注射治疗加快康复 里夫斯预计5月初复出

东契奇本周六将归队!多次注射治疗加快康复 里夫斯预计5月初复出

罗说NBA
2026-04-14 05:25:06
DeepSeek:什么样的人,大概率是一事无成?

DeepSeek:什么样的人,大概率是一事无成?

洞见
2026-04-13 09:15:31
安平逝世,享年65岁

安平逝世,享年65岁

南方都市报
2026-04-13 19:26:27
中国明确表态:中方船只将继续通过霍尔木兹,不接受任何拦截

中国明确表态:中方船只将继续通过霍尔木兹,不接受任何拦截

桂系007
2026-04-14 03:28:19
被班主任告知儿子遭殴打,父亲到校调解6分钟后心源性猝死,当地教育局已成立专班处理,公安机关已介入

被班主任告知儿子遭殴打,父亲到校调解6分钟后心源性猝死,当地教育局已成立专班处理,公安机关已介入

封面新闻
2026-04-14 09:39:23
快手搜索人员调整:王毅离职,程稷李宣平接任

快手搜索人员调整:王毅离职,程稷李宣平接任

申妈的朋友圈
2026-04-13 11:09:18
13000名中国人在国内看病骗取日本保险金!肠胃炎也要住院,只为狂薅日本人羊毛!

13000名中国人在国内看病骗取日本保险金!肠胃炎也要住院,只为狂薅日本人羊毛!

东京新青年
2026-04-13 18:22:28
比亚迪回应坪山园区一立体车库火情:为试验及报废车辆专用停放区 火势已扑灭 无人员伤亡

比亚迪回应坪山园区一立体车库火情:为试验及报废车辆专用停放区 火势已扑灭 无人员伤亡

财联社
2026-04-14 09:32:13
请陈芋汐正面回应:在知情的情况下,为何不退出282群?

请陈芋汐正面回应:在知情的情况下,为何不退出282群?

开成运动会
2026-04-13 20:23:15
特朗普:伊朗致电美方说希望达成协议

特朗普:伊朗致电美方说希望达成协议

财联社
2026-04-14 01:08:23
总台海峡时评丨十项促进两岸交流合作新政将给台胞带来实实在在的和平利好

总台海峡时评丨十项促进两岸交流合作新政将给台胞带来实实在在的和平利好

国际在线
2026-04-14 07:01:46
深度 | 从“粉丝”变对手:毛焦尔如何终结欧尔班时代重塑匈牙利?

深度 | 从“粉丝”变对手:毛焦尔如何终结欧尔班时代重塑匈牙利?

上观新闻
2026-04-13 20:53:11
2026-04-14 10:55:01
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2342文章数 596关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

伊朗要求五个中东国家赔偿战争损失

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

教育
数码
艺术
旅游
军事航空

教育要闻

做有思考、有思路、有思想的校长

数码要闻

华为新款鸿蒙电脑来了!MateBook 14鸿蒙版4月20日见:云晰柔光屏+艺术圆键盘

艺术要闻

这位美女画家的夏天竟如此梦幻

旅游要闻

春和景明赏花经济持续火热 “观景+文化+体验”多元场景激发文旅消费新活力

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版