网易首页 > 网易号 > 正文 申请入驻

从过拟合到通用!ViMoGen开启3D人体动作生成新纪元

0
分享至



随着 AIGC(Artificial Intelligence Generated Content) 的爆发,我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而,3D 人体动作生成(3D MoGen)领域却稍显滞后。

现有的模型在标准数据集上表现良好,但在泛化能力上仍存在明显瓶颈。一旦用户输入训练集中未见过的复杂交互或罕见动作,生成的动作往往会缺乏自然性、崩坏或退化为简单的平均姿态,这严重限制了其在现实场景和交互系统中的应用。

那很自然地就会思考:视频生成模型已经初步学会了通用的物理规律和人类行为,为什么不把这些知识「蒸馏」给 3D 人体动作生成模型呢?





  • 论文链接:https://arxiv.org/abs/2510.26794
  • 项目主页:https://linjing7.github.io/vimogen/

ViGen-to-MoGen 的三大支柱

来自南洋理工大学、商汤科技、清华大学、香港中文大学和英伟达的研究人员提出了题为《The Quest for Generalizable Motion Generation: Data, Model, and Evaluation》的最新研究成果。这项工作从数据、模型、评估三个维度重新定义了通向通用动作生成的路径。

  1. 数据 ViMoGen-228K:结合了从 30 个 MoCap 数据集中筛选的高精度数据,海量互联网视频与由视频模型(Video Gen)合成视频中提取的动作数据,包含了大量罕见、复杂的交互动作,突破了传统数据棚采集的物理限制。
  2. 模型 ViMoGen:采用Text-to-Motion (T2M) 与 Motion-to-Motion (M2M)双分支架构。通过门控机制,将视频生成模型的语义先验与 MoCap 的物理先验完美统一。
  3. 评估 MBench: 首个面向「泛化性」的评测基准。从动作质量、文本忠实度、泛化能力三大维度(细分 9 项指标)对模型进行全方面测评,是目前最全面的动作生成评测方式。

数据 ViMoGen-228K —— 规模与多样性的双重飞跃

传统动作数据集(如 AMASS)虽然精准但语义单一。ViMoGen 引入了 ViMoGen-228K 数据集,包含约 22.8 万条高质量动作样本。

多模态覆盖,包含文本–动作、文本–视频–动作多模态三元组。

多来源实现泛化能力提升:

  • 对来自 30 个公开高质量的光学动作捕捉数据集进行了筛选和重标注。
  • 从网络视频提取动作序列与语义标签。
  • 利用视频生成(ViGen)模型生成了在真实动作捕捉中极难获取的长尾动作,填补了语义空白。

模型 ViMoGen —— 多源先验知识的深度表征与协同优化探索








ViMoGen 模型巧妙地通过门控机制控制Text-to-Motion (T2M)分支与Motion-to-Motion (M2M)双分支,同时利用 MoCap 数据的精准先验和 ViGen 模型的广泛语义先验。该架构模型不仅在传统动作生成测评上取得较好的分数,同时也通过文中提出的 MBench 测评基准,体现了它在泛化性上的卓越表现。

测评 MBench —— 多维分层评测体系



传统的 FID(Frechet Inception Distance)等指标只能衡量生成动作与特定动作集分布的相似度,却无法体现模型在处理复杂、罕见指令时的真实泛化能力。MBench 将评测拆解为相互关联的三个层面,并细化为 9 项具体的量化指标。

动作质量 (Motion Quality)关注动作的合理性。通过计算与地面物理接触、穿模情况以及脚步抖动和平滑度,评判生成动作的动作的物理可实现性。

指令忠实度 (Motion-Condition Consistency)利用多模态大模型评估生成动作与复杂文本描述的一致性。例如,模型是否准确还原了文本中提到的方位(“向左后方倒下”)或特定的交互逻辑。

开放世界泛化力 (Motion Generalizability)设计了一系列 Out-of-Distribution (OOD) 测试案例,涵盖了极端动作、长尾语义以及复合指令,专门考验模型在未见过场景下的稳定性。

赋能具身智能,构建 Real-to-Sim 的高质量动作桥梁

在当前的人形机器人控制研究中(如 [arXiv:2505.03729] ),研究者通常依赖海量的 SMPL 参考轨迹(Reference Motions)来训练高鲁棒性的控制策略(Policy)。然而,传统数据的匮乏严重限制了机器人动作的演化。

传统的机器人训练往往局限于几套标准的行走动作。而 ViMoGen-228k 能够带来大量长尾、边缘场景(Corner Cases)高质量动作, 同时 ViMoGen 凭借强大的泛化能力,能够批量产出一些特殊需求的动作数据。这些数据能够让具身智能体在虚拟训练阶段就完成了对复杂动态的预演,使其在现实部署中具备更强的抗干扰能力。

同时 MBench 针对动作质量的一系列评估,能够为下游的 Real-to-Sim 过程做初步筛选,从而排除了可能导致机器人频繁跌倒或关节自锁的无效动作。

结果展示




空翻

指令:一个人俯身蹲低,双腿积蓄力量,随后蹬地猛然跃起,下巴紧贴胸口。身体蜷缩成一个紧密的球状,在空中优雅地翻转。随着空翻动作的完成,他舒展双腿,膝盖微屈平稳着陆,双臂向外伸展以保持平衡。



多球杂耍

指令:一个人双脚与肩同宽站立,目光紧盯着空中的彩色球。凭借熟练的手腕甩动,他们将每个球依次抛向空中,划出流畅的弧线,双手以协调一致的节奏交替动作。球不断升起又落下,形成连续的循环,杂耍者的动作流畅而精准,在整个表演过程中始终保持着完美的节奏与平衡。



引体向上

指令:一个人在单杠上进行一组标准的引体向上。从双臂完全伸直的悬垂状态开始,利用背部力量将身体垂直向上拉起,直到下巴超过单杠。



空手道

指令:一位武术家在前进的同时,执行一套动态的空手道组合动作。



推箱子

指令:一个人身体前倾,双手抵住一个巨大的重型箱子,在保持接触的同时缓慢向前迈步。

作者介绍

本文由南洋理工大学、商汤科技、清华大学、香港中文大学及英伟达的顶尖学者合作完成。

林靖、王睿思、鲁俊喆为共同第一作者。林靖是南洋理工大学博士生,研究大模型驱动的 3D 感知、生成与理解;王睿思为商汤研究员,兴趣方向在高性能计算与大模型空间智能;鲁俊喆是清华大学硕士,研究生成式模型和 3D 计算机视觉。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子在胖东来1小时消费近15万,称相信品质,排队也要来买黄金,1分钟试戴加付款,极速购买

女子在胖东来1小时消费近15万,称相信品质,排队也要来买黄金,1分钟试戴加付款,极速购买

观威海
2026-02-26 10:54:09
62岁何赛飞在家约姐妹小聚,不摆架子不搞排场,这氛围太舒服了

62岁何赛飞在家约姐妹小聚,不摆架子不搞排场,这氛围太舒服了

仁慈的视角
2026-02-27 09:37:22
天生一张娃娃脸都已经46了,你敢想

天生一张娃娃脸都已经46了,你敢想

超人强动物俱乐部
2026-02-25 19:21:58
古巴高调反美!美国为啥不打古巴?因为古巴是最“先进”的国家

古巴高调反美!美国为啥不打古巴?因为古巴是最“先进”的国家

南宫一二
2026-01-10 17:41:19
这次荷兰没话说了!中方正式宣布:更换国内供应商,从此不再合作

这次荷兰没话说了!中方正式宣布:更换国内供应商,从此不再合作

晓劗就是我
2026-02-26 15:50:07
白鹿带剧组韩国团建,被骂没边界感?凭实绩随心所欲怎么了

白鹿带剧组韩国团建,被骂没边界感?凭实绩随心所欲怎么了

无心小姐姐
2026-02-27 09:41:45
三星把防窥膜做到屏幕里了?可不只是这样。

三星把防窥膜做到屏幕里了?可不只是这样。

差评XPIN
2026-02-27 00:11:05
怒了!奥塔门迪兄弟嘲讽维尼修斯:将他四肢P成了大猩猩 随后删帖

怒了!奥塔门迪兄弟嘲讽维尼修斯:将他四肢P成了大猩猩 随后删帖

风过乡
2026-02-27 07:22:50
戏子误国!春节刚过就有4位明星相继塌房,走到这一步不值得同情

戏子误国!春节刚过就有4位明星相继塌房,走到这一步不值得同情

墨印斋
2026-02-26 06:21:37
央行大动作,人民币汇率突然跳水

央行大动作,人民币汇率突然跳水

Wind万得
2026-02-27 08:57:00
55岁主持人李静自曝绝经过程,很快失去性魅力,连男人也没兴趣了

55岁主持人李静自曝绝经过程,很快失去性魅力,连男人也没兴趣了

林轻吟
2026-02-23 07:16:08
春天吃一瓜,中药不用抓!一降火、二润肠、三强免疫,鲜嫩营养高

春天吃一瓜,中药不用抓!一降火、二润肠、三强免疫,鲜嫩营养高

阿龙美食记
2026-02-25 13:18:07
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
昨天票房回顾:《惊蛰无声》破10亿,《镖人》连续7天夺票房亚军

昨天票房回顾:《惊蛰无声》破10亿,《镖人》连续7天夺票房亚军

乡野小珥
2026-02-27 09:00:15
又是白嫖!常州一男子与店员发生不正当关系转账3万,被依法追回

又是白嫖!常州一男子与店员发生不正当关系转账3万,被依法追回

火山詩话
2026-02-27 05:39:33
187cm已塌房男演员,试图复出无望,结果又有新“瓜”?

187cm已塌房男演员,试图复出无望,结果又有新“瓜”?

有仁有娱
2026-02-24 23:36:53
服务区红包被捡走续:监控视频曝光,舆论反扑失主,强烈要求自证

服务区红包被捡走续:监控视频曝光,舆论反扑失主,强烈要求自证

千言娱乐记
2026-02-26 22:03:00
养父葬礼结束,分家产时我默默离开,不料养父亲女儿追了我5里地

养父葬礼结束,分家产时我默默离开,不料养父亲女儿追了我5里地

潇湘烟雨水
2026-02-27 08:06:05
杨幂时装周和韩星撞衫,品牌待遇不如韩团爱豆,状态疲惫心情不佳

杨幂时装周和韩星撞衫,品牌待遇不如韩团爱豆,状态疲惫心情不佳

萌神木木
2026-02-25 15:59:57
75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

笑饮孤鸿非
2026-02-24 16:59:29
2026-02-27 13:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12370文章数 142570关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

86岁畅销书作家杨本芬就“抄袭”道歉 曾获谷雨文学奖

头条要闻

86岁畅销书作家杨本芬就“抄袭”道歉 曾获谷雨文学奖

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

魅族手机,终成弃子?

汽车要闻

宝马X5传承版发布:给经典G05的一场体面谢幕?

态度原创

旅游
艺术
健康
教育
家居

旅游要闻

整整俩月!河南这家5A级景区对全国游客免门票

艺术要闻

紫气东来,好运一整年!

转头就晕的耳石症,能开车上班吗?

教育要闻

甘肃广河县教育局发布情况通报

家居要闻

素色肌理 品意式格调

无障碍浏览 进入关怀版