网易首页 > 网易号 > 正文 申请入驻

从过拟合到通用!ViMoGen开启3D人体动作生成新纪元

0
分享至



随着 AIGC(Artificial Intelligence Generated Content) 的爆发,我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而,3D 人体动作生成(3D MoGen)领域却稍显滞后。

现有的模型在标准数据集上表现良好,但在泛化能力上仍存在明显瓶颈。一旦用户输入训练集中未见过的复杂交互或罕见动作,生成的动作往往会缺乏自然性、崩坏或退化为简单的平均姿态,这严重限制了其在现实场景和交互系统中的应用。

那很自然地就会思考:视频生成模型已经初步学会了通用的物理规律和人类行为,为什么不把这些知识「蒸馏」给 3D 人体动作生成模型呢?





  • 论文链接:https://arxiv.org/abs/2510.26794
  • 项目主页:https://linjing7.github.io/vimogen/

ViGen-to-MoGen 的三大支柱

来自南洋理工大学、商汤科技、清华大学、香港中文大学和英伟达的研究人员提出了题为《The Quest for Generalizable Motion Generation: Data, Model, and Evaluation》的最新研究成果。这项工作从数据、模型、评估三个维度重新定义了通向通用动作生成的路径。

  1. 数据 ViMoGen-228K:结合了从 30 个 MoCap 数据集中筛选的高精度数据,海量互联网视频与由视频模型(Video Gen)合成视频中提取的动作数据,包含了大量罕见、复杂的交互动作,突破了传统数据棚采集的物理限制。
  2. 模型 ViMoGen:采用Text-to-Motion (T2M) 与 Motion-to-Motion (M2M)双分支架构。通过门控机制,将视频生成模型的语义先验与 MoCap 的物理先验完美统一。
  3. 评估 MBench: 首个面向「泛化性」的评测基准。从动作质量、文本忠实度、泛化能力三大维度(细分 9 项指标)对模型进行全方面测评,是目前最全面的动作生成评测方式。

数据 ViMoGen-228K —— 规模与多样性的双重飞跃

传统动作数据集(如 AMASS)虽然精准但语义单一。ViMoGen 引入了 ViMoGen-228K 数据集,包含约 22.8 万条高质量动作样本。

多模态覆盖,包含文本–动作、文本–视频–动作多模态三元组。

多来源实现泛化能力提升:

  • 对来自 30 个公开高质量的光学动作捕捉数据集进行了筛选和重标注。
  • 从网络视频提取动作序列与语义标签。
  • 利用视频生成(ViGen)模型生成了在真实动作捕捉中极难获取的长尾动作,填补了语义空白。

模型 ViMoGen —— 多源先验知识的深度表征与协同优化探索








ViMoGen 模型巧妙地通过门控机制控制Text-to-Motion (T2M)分支与Motion-to-Motion (M2M)双分支,同时利用 MoCap 数据的精准先验和 ViGen 模型的广泛语义先验。该架构模型不仅在传统动作生成测评上取得较好的分数,同时也通过文中提出的 MBench 测评基准,体现了它在泛化性上的卓越表现。

测评 MBench —— 多维分层评测体系



传统的 FID(Frechet Inception Distance)等指标只能衡量生成动作与特定动作集分布的相似度,却无法体现模型在处理复杂、罕见指令时的真实泛化能力。MBench 将评测拆解为相互关联的三个层面,并细化为 9 项具体的量化指标。

动作质量 (Motion Quality)关注动作的合理性。通过计算与地面物理接触、穿模情况以及脚步抖动和平滑度,评判生成动作的动作的物理可实现性。

指令忠实度 (Motion-Condition Consistency)利用多模态大模型评估生成动作与复杂文本描述的一致性。例如,模型是否准确还原了文本中提到的方位(“向左后方倒下”)或特定的交互逻辑。

开放世界泛化力 (Motion Generalizability)设计了一系列 Out-of-Distribution (OOD) 测试案例,涵盖了极端动作、长尾语义以及复合指令,专门考验模型在未见过场景下的稳定性。

赋能具身智能,构建 Real-to-Sim 的高质量动作桥梁

在当前的人形机器人控制研究中(如 [arXiv:2505.03729] ),研究者通常依赖海量的 SMPL 参考轨迹(Reference Motions)来训练高鲁棒性的控制策略(Policy)。然而,传统数据的匮乏严重限制了机器人动作的演化。

传统的机器人训练往往局限于几套标准的行走动作。而 ViMoGen-228k 能够带来大量长尾、边缘场景(Corner Cases)高质量动作, 同时 ViMoGen 凭借强大的泛化能力,能够批量产出一些特殊需求的动作数据。这些数据能够让具身智能体在虚拟训练阶段就完成了对复杂动态的预演,使其在现实部署中具备更强的抗干扰能力。

同时 MBench 针对动作质量的一系列评估,能够为下游的 Real-to-Sim 过程做初步筛选,从而排除了可能导致机器人频繁跌倒或关节自锁的无效动作。

结果展示




空翻

指令:一个人俯身蹲低,双腿积蓄力量,随后蹬地猛然跃起,下巴紧贴胸口。身体蜷缩成一个紧密的球状,在空中优雅地翻转。随着空翻动作的完成,他舒展双腿,膝盖微屈平稳着陆,双臂向外伸展以保持平衡。



多球杂耍

指令:一个人双脚与肩同宽站立,目光紧盯着空中的彩色球。凭借熟练的手腕甩动,他们将每个球依次抛向空中,划出流畅的弧线,双手以协调一致的节奏交替动作。球不断升起又落下,形成连续的循环,杂耍者的动作流畅而精准,在整个表演过程中始终保持着完美的节奏与平衡。



引体向上

指令:一个人在单杠上进行一组标准的引体向上。从双臂完全伸直的悬垂状态开始,利用背部力量将身体垂直向上拉起,直到下巴超过单杠。



空手道

指令:一位武术家在前进的同时,执行一套动态的空手道组合动作。



推箱子

指令:一个人身体前倾,双手抵住一个巨大的重型箱子,在保持接触的同时缓慢向前迈步。

作者介绍

本文由南洋理工大学、商汤科技、清华大学、香港中文大学及英伟达的顶尖学者合作完成。

林靖、王睿思、鲁俊喆为共同第一作者。林靖是南洋理工大学博士生,研究大模型驱动的 3D 感知、生成与理解;王睿思为商汤研究员,兴趣方向在高性能计算与大模型空间智能;鲁俊喆是清华大学硕士,研究生成式模型和 3D 计算机视觉。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

健康科普365
2026-05-09 21:05:04
一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

万象硬核本尊
2026-05-28 21:24:47
日股大跌,韩股休市

日股大跌,韩股休市

第一财经资讯
2026-06-03 08:14:45
大罗盛赞C罗:他改变了葡萄牙足球地位,20年巅峰堪称非凡

大罗盛赞C罗:他改变了葡萄牙足球地位,20年巅峰堪称非凡

星耀国际足坛
2026-06-02 23:01:38
规培生都悄悄“不卷”了?满意度3.88,80%缺乏科研训练!退培要连五险一金都要返还!规培未来向何处去?

规培生都悄悄“不卷”了?满意度3.88,80%缺乏科研训练!退培要连五险一金都要返还!规培未来向何处去?

梅斯医学
2026-06-02 08:37:50
体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

黯泉
2026-05-20 16:13:40
2300名华人被美驱逐出境回国,回家或被关押

2300名华人被美驱逐出境回国,回家或被关押

君笙拂兮啊
2026-06-01 22:35:31
日菲私下瓜分近海,台独捧场不算完,还派船尾随骚扰大陆海警

日菲私下瓜分近海,台独捧场不算完,还派船尾随骚扰大陆海警

健身狂人
2026-06-03 07:49:20
在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

山河路口
2026-06-02 14:04:22
1987年越南王牌飞行员越境挑衅,三枚导弹来袭,精英沦为阶下囚

1987年越南王牌飞行员越境挑衅,三枚导弹来袭,精英沦为阶下囚

唠叨说历史
2026-06-01 16:03:23
法网四强出两席!90后PK05后,德约终结者出局

法网四强出两席!90后PK05后,德约终结者出局

刘哥谈体育
2026-06-03 09:15:51
英国博主坐中国高铁连发十条推特破防:你们管时速三百五叫慢车?

英国博主坐中国高铁连发十条推特破防:你们管时速三百五叫慢车?

李子橱
2026-05-23 11:35:10
19人名单太奇葩!后场挤进10人,内线却只留俩,郭士强怎么选?

19人名单太奇葩!后场挤进10人,内线却只留俩,郭士强怎么选?

酷侃体坛
2026-06-03 09:28:27
鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

云霄纪史观
2026-05-20 13:16:50
湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

哄动一时啊
2026-02-09 16:56:31
美国女子逛中国超市满脸疑惑,直言不敢相信:这真的算是超市吗

美国女子逛中国超市满脸疑惑,直言不敢相信:这真的算是超市吗

复转这些年
2026-05-21 18:54:44
骨瘦如柴、全身涂白、满嘴假牙,内娱的畸形审美,啥时候是尽头

骨瘦如柴、全身涂白、满嘴假牙,内娱的畸形审美,啥时候是尽头

晓肂爱八卦
2026-05-23 04:51:05
钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

林轻吟
2026-05-22 07:33:52
千万不要吃“隔夜”的7种食物,剩了就扔,别拿健康开玩笑!

千万不要吃“隔夜”的7种食物,剩了就扔,别拿健康开玩笑!

牛锅巴小钒
2026-06-03 01:25:01
东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

背包旅行
2026-05-11 14:51:09
2026-06-03 11:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13154文章数 142660关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

房产
手机
教育
健康
公开课

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

手机要闻

苹果自研相机液冷方案:誓要根治iPhone相机发烫难题

教育要闻

小学几何题,难倒了不少的家长和学生,换个思路试试

违规干细胞应用,暗藏致命隐患!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版