网易首页 > 网易号 > 正文 申请入驻

编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

0
分享至


新智元报道

编辑:LRST

【新智元导读】当元宇宙数字人急需「群舞技能」,音乐驱动生成技术却遭遇瓶颈——舞者碰撞、动作僵硬、长序列崩坏。为解决这些难题,南理工、清华、南大联合研发端到端模型TCDiff++,突破多人生成技术壁垒,实现高质量、长时序的群体舞蹈自动生成。该模型支持跨模态编舞,可一键生成和谐流畅的群舞表演,为虚拟演唱会、数字人集体演出等场景提供完整的AIGC解决方案。作为该领域首批基础模型之一,TCDiff++从AAAI 2025的开源成果TCDiff升级而来,并被IJCV 2025正式接收。

在常见的群舞数据中,超过80%的动作看起来几乎一样!更麻烦的是,每个舞者的动作数据维度高达100多,而位置坐标却只有可怜的3维——模型直接「脸盲」了,根本分不清谁是谁。

结果舞者身份混淆,跳着跳着就撞在一起。

此外,独舞也有可能变「滑步」,导致画面非常魔幻。

你有没有见过舞者上身跳得标准,双脚却像在冰上滑行?这就是典型的「脚部滑动」。其根源在于AI难以协调全身动作和脚下轨迹,导致视觉效果失真,观感十分出戏。

如果编舞时间过长,也可能导致生成崩溃,长序列群舞仍是难题。

现有技术能生成几秒钟的群舞片断,可一旦拉到几分钟甚至更长,动作就开始突变、卡顿、不连贯。而现实中,一场真正的群舞表演动辄数分钟,音乐剧更要持续数小时——这之间的差距,正是当前技术亟待填补的关键空白。


群舞生成三大难题示意图以及TCDiff++效果,从左到右分别为多舞者碰撞、单舞者脚滑、长时生成位置突变问题、TCDiff++克服这些难题

在AAAI 2025发表的TCDiff模型,研究人员首次提出「轨迹可控」的生成思路,通过分离轨迹预测与动作生成的两阶段框架,有效防止了群舞中的舞者碰撞。

然而,该设计也导致动作与位移衔接生硬,且在生成长序列时容易出现抖动、性能下降等问题。

为从根本上克服这些缺陷,研究团队最新推出了升级版——TCDiff++,一个从音乐到舞蹈的端到端生成模型。


论文地址:https://arxiv.org/pdf/2506.18671

项目地址:https://da1yuqin.github.io/TCDiffpp.website/

代码地址:https://github.com/Da1yuqin/TCDiffpp

顾名思义,TCDiff++是一个「轨迹可控」的扩散模型,核心创新在于其两阶段生成流程,专门针对群舞的和谐性与真实感设计:

  1. 团体舞蹈解码器(Group Dance Decoder):作为第一道工序,它根据输入的音乐,首先生成一套整体协调、且能避免舞者相互碰撞的初始舞蹈动作。

  2. 步法适配器(Footwork Adaptor):接着,这个专门的模块会介入,它聚焦于舞者的脚部轨迹,对初始动作进行局部精修,生成扎实的脚步动作,从而有效消除「脚底打滑」的不自然现象。


代码提供的自动化渲染流程,可以得到项目主页中同样的视频结果,对Blender软件初学者友好

最终,系统将优化后的精准步法与协调的团体舞姿无缝融合,直接生成一段步伐稳扎、舞者间无碰撞的和谐群舞序列。


框架图,包含团体舞蹈解码器(Group Dance Decoder)和步法适配器(Footwork Adaptor),团体舞蹈解码器首先生成无轨迹碰撞的初始群舞动作;适配器随后对其脚部轨迹进行优化,减轻滑步现象;最终将优化后的步法自然融入初始动作,合成协调稳定、舞步扎实的完整舞蹈序列

多舞者防碰撞系统

给舞者「排位置」:通过引入舞者定位嵌入(Dance Positioning Embedding),为每位舞者编码其在队伍中的左右相对位置,使模型能记住并维持整体队形,避免混乱。

增强角色区分:新增融合投影模块(Fusion Projection),将舞者特征映射到更高维空间,强化模型对不同舞者动作的辨识能力,减少身份混淆。


融合投影模块,左图是之前投影维度,右图是提出的融合投影模块,增加了输入维度以增强舞者区分度

全局距离约束:通过距离一致性损失函数,在全局层面合理约束舞者间距,确保生成队形既舒展又不会相互碰撞。

精准步态控制

引入交换模式(swap mode)在生成初始动作时,将音乐特征与舞者之间特定的空间交换模式共同作为条件,从源头引导模型生成更合理的步法。

优化脚部轨迹:步法适配器对群舞解码器生成的原始动作进行专门优化。它利用脚跟、脚趾的触地状态和身体根骨骼的速度信息,针对性修正下半身运动,生成脚踏实地的步法,最后再与富有表现力的上半身动作融合,形成自然流畅的最终结果。

长序列生成优化

分段生成,平滑衔接:提出长序列扩散采样策略(Long Group Diffusion Sampling)。模型并非一次生成全部序列,而是以「分段生成、后半段重叠」的自回归方式推进。

在生成新片段时,会利用已生成片段的后半部分作为确定性条件,有效维持长序列中角色位置与动作的连贯性,避免突变。


长序列扩散采样策略,首先生成部分重叠的片段,然后将其合并形成完整的序列

模型对比实验

为何TCDiff++脱颖而出

实验测试表明,相较于现有方法,TCDiff++生成的群舞在个体动作质量和群体协调效果两方面均有显著提升,能够在较长音乐片段上持续产生高度同步、富有表现力且整体和谐的舞蹈表演。


不同模型在群舞指标和单舞者指标上的对比实验,TCDiff++获得多舞者指标最优、单舞者真实性多样性效果卓越


不同模型、不同人数在群舞指标和单舞者指标上的对比实验,TCDiff++定位和身体动作更加一致,从而在团体舞蹈指标中保持持续优势

对比实验显示,现有模型在多人舞蹈生成中各有明显缺陷:

  • EDGE(单舞者模型)在群舞场景中严重「水土不服」,因难以区分不同舞者,导致频繁的「脚底打滑」和舞者间碰撞。

  • GCD过度关注舞者互动,却忽略了位置坐标建模,同样产生严重脚滑问题。

  • CoDancers虽减轻了舞者混淆,却牺牲了整体队形的协调性与舞者间关联,且无法生成精准步法。

  • TCDiff通过分离坐标与动作的两阶段生成,提升了队形质量,但也导致动作与位置不匹配,影响了个体动作的自然度。

相比之下,TCDiff++凭借其端到端架构与内部模块的协同设计,有效解决了舞者身份混淆问题,确保了定位与身体动作的高度一致,从而在所有团体舞蹈指标上持续领先,并在单人动作的多样性与逼真度上表现卓越。


长时生成对比实验,TCDiff++获得最佳性能

长序列生成能力考验

在延伸至720帧的长序列测试(表3)中,所有模型均出现性能衰退,具体表现为:

  • EDGE与GCD因缺乏空间信息引导,生成序列中会出现突兀的舞者位置交换。

  • CoDancers与TCDiff采用的自回归方法各有局限:前者忽略群体特征,导致队形不佳;后者因动作不确定性,误差会随时间累积,最终导致动作与位置严重脱节。

唯有TCDiff++凭借端到端设计,保证了位置与动作的一致性,并有效利用历史生成信息来维持位置稳定,成功实现了最佳的长序列生成效果。


消融实验,所有模块在不同程度上缓解了多名舞者碰撞和脚部滑动,从而使舞蹈动作更加逼真

消融实验的结果也表明当所有模块同时应用时,模型性能最佳。总体而言,所有模块都有助于提升模型在群体指标上的表现,从而证明了它们在增强群体舞蹈和谐性方面的有效性。


用户调研柱状图,TCDiff++生成的视觉效果最受用户喜爱

用户调研

此外,团队还基于四项标准(动作真实感、音乐与动作的关联性、队形美感以及舞者的和谐感)做了用户调查研究。结果表明TCDiff++获得了更多用户的青睐,展现了在审美吸引力方面的卓越表现。

从虚拟舞团到元宇宙

TCDiff++的落地前景展望

尽管TCDiff++在群体舞蹈生成上取得了突破,但它仍处于「基础版」阶段,在实用性与交互性上还存在明显局限:

第一,仅支持音乐跨模态,暂不支持其余「多模态」控制,生成模式较为单一。

目前模型仅支持从音乐生成舞蹈这一基础功能,尚未引入文本描述、动作关键帧、舞种风格等多样化控制信号。

这虽然为跨模态生成打下了坚实基础,但在真实落地场景中(如虚拟演唱会或游戏剧情动画),用户往往需要更灵活的操控手段来精准表达创作意图。

研究人员选择优先攻克生成质量与流畅度这一核心难题,将「多模态交互控制」列为下一步突破的重点——这将是实现产品化应用的关键。

第二,对「舞者换位」这类复杂队形变换的学习能力仍显不足。

这背后既有算法建模处于早期阶段的原因,更受限于现有数据集中「换位动作」样本稀少、缺乏明确标注的客观限制。

随着更丰富的群舞数据与更细致的动作标注出现,结合下一代模型架构的优化,未来系统将能更精准、更自然地呈现队形动态变换之美。

参考资料:

https://arxiv.org/pdf/2506.18671

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

有范又有料
2026-03-24 10:59:07
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
70万韩国青年,选择“消失”

70万韩国青年,选择“消失”

中国新闻周刊
2026-03-26 09:30:07
iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

柴狗夫斯基
2026-03-26 21:15:05
9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

品牌观察官
2026-03-26 17:17:59
西安某建筑公司全方位崩塌!

西安某建筑公司全方位崩塌!

黯泉
2026-03-26 18:49:04
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

春江财富
2026-03-26 15:26:22
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

青眼财经
2026-03-17 16:03:09
2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

万象硬核本尊
2026-03-26 22:23:37
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

感觉会火
2026-03-26 12:06:22
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
2026-03-27 00:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
家居
本地
时尚
公开课

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

400万人爱过的女孩,被黄谣网暴180天后

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版