网易首页 > 网易号 > 正文 申请入驻

从过拟合到通用!ViMoGen开启3D人体动作生成新纪元

0
分享至



随着 AIGC(Artificial Intelligence Generated Content) 的爆发,我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而,3D 人体动作生成(3D MoGen)领域却稍显滞后。

现有的模型在标准数据集上表现良好,但在泛化能力上仍存在明显瓶颈。一旦用户输入训练集中未见过的复杂交互或罕见动作,生成的动作往往会缺乏自然性、崩坏或退化为简单的平均姿态,这严重限制了其在现实场景和交互系统中的应用。

那很自然地就会思考:视频生成模型已经初步学会了通用的物理规律和人类行为,为什么不把这些知识「蒸馏」给 3D 人体动作生成模型呢?





  • 论文链接:https://arxiv.org/abs/2510.26794
  • 项目主页:https://linjing7.github.io/vimogen/

ViGen-to-MoGen 的三大支柱

来自南洋理工大学、商汤科技、清华大学、香港中文大学和英伟达的研究人员提出了题为《The Quest for Generalizable Motion Generation: Data, Model, and Evaluation》的最新研究成果。这项工作从数据、模型、评估三个维度重新定义了通向通用动作生成的路径。

  1. 数据 ViMoGen-228K:结合了从 30 个 MoCap 数据集中筛选的高精度数据,海量互联网视频与由视频模型(Video Gen)合成视频中提取的动作数据,包含了大量罕见、复杂的交互动作,突破了传统数据棚采集的物理限制。
  2. 模型 ViMoGen:采用Text-to-Motion (T2M) 与 Motion-to-Motion (M2M)双分支架构。通过门控机制,将视频生成模型的语义先验与 MoCap 的物理先验完美统一。
  3. 评估 MBench: 首个面向「泛化性」的评测基准。从动作质量、文本忠实度、泛化能力三大维度(细分 9 项指标)对模型进行全方面测评,是目前最全面的动作生成评测方式。

数据 ViMoGen-228K —— 规模与多样性的双重飞跃

传统动作数据集(如 AMASS)虽然精准但语义单一。ViMoGen 引入了 ViMoGen-228K 数据集,包含约 22.8 万条高质量动作样本。

多模态覆盖,包含文本–动作、文本–视频–动作多模态三元组。

多来源实现泛化能力提升:

  • 对来自 30 个公开高质量的光学动作捕捉数据集进行了筛选和重标注。
  • 从网络视频提取动作序列与语义标签。
  • 利用视频生成(ViGen)模型生成了在真实动作捕捉中极难获取的长尾动作,填补了语义空白。

模型 ViMoGen —— 多源先验知识的深度表征与协同优化探索








ViMoGen 模型巧妙地通过门控机制控制Text-to-Motion (T2M)分支与Motion-to-Motion (M2M)双分支,同时利用 MoCap 数据的精准先验和 ViGen 模型的广泛语义先验。该架构模型不仅在传统动作生成测评上取得较好的分数,同时也通过文中提出的 MBench 测评基准,体现了它在泛化性上的卓越表现。

测评 MBench —— 多维分层评测体系



传统的 FID(Frechet Inception Distance)等指标只能衡量生成动作与特定动作集分布的相似度,却无法体现模型在处理复杂、罕见指令时的真实泛化能力。MBench 将评测拆解为相互关联的三个层面,并细化为 9 项具体的量化指标。

动作质量 (Motion Quality)关注动作的合理性。通过计算与地面物理接触、穿模情况以及脚步抖动和平滑度,评判生成动作的动作的物理可实现性。

指令忠实度 (Motion-Condition Consistency)利用多模态大模型评估生成动作与复杂文本描述的一致性。例如,模型是否准确还原了文本中提到的方位(“向左后方倒下”)或特定的交互逻辑。

开放世界泛化力 (Motion Generalizability)设计了一系列 Out-of-Distribution (OOD) 测试案例,涵盖了极端动作、长尾语义以及复合指令,专门考验模型在未见过场景下的稳定性。

赋能具身智能,构建 Real-to-Sim 的高质量动作桥梁

在当前的人形机器人控制研究中(如 [arXiv:2505.03729] ),研究者通常依赖海量的 SMPL 参考轨迹(Reference Motions)来训练高鲁棒性的控制策略(Policy)。然而,传统数据的匮乏严重限制了机器人动作的演化。

传统的机器人训练往往局限于几套标准的行走动作。而 ViMoGen-228k 能够带来大量长尾、边缘场景(Corner Cases)高质量动作, 同时 ViMoGen 凭借强大的泛化能力,能够批量产出一些特殊需求的动作数据。这些数据能够让具身智能体在虚拟训练阶段就完成了对复杂动态的预演,使其在现实部署中具备更强的抗干扰能力。

同时 MBench 针对动作质量的一系列评估,能够为下游的 Real-to-Sim 过程做初步筛选,从而排除了可能导致机器人频繁跌倒或关节自锁的无效动作。

结果展示




空翻

指令:一个人俯身蹲低,双腿积蓄力量,随后蹬地猛然跃起,下巴紧贴胸口。身体蜷缩成一个紧密的球状,在空中优雅地翻转。随着空翻动作的完成,他舒展双腿,膝盖微屈平稳着陆,双臂向外伸展以保持平衡。



多球杂耍

指令:一个人双脚与肩同宽站立,目光紧盯着空中的彩色球。凭借熟练的手腕甩动,他们将每个球依次抛向空中,划出流畅的弧线,双手以协调一致的节奏交替动作。球不断升起又落下,形成连续的循环,杂耍者的动作流畅而精准,在整个表演过程中始终保持着完美的节奏与平衡。



引体向上

指令:一个人在单杠上进行一组标准的引体向上。从双臂完全伸直的悬垂状态开始,利用背部力量将身体垂直向上拉起,直到下巴超过单杠。



空手道

指令:一位武术家在前进的同时,执行一套动态的空手道组合动作。



推箱子

指令:一个人身体前倾,双手抵住一个巨大的重型箱子,在保持接触的同时缓慢向前迈步。

作者介绍

本文由南洋理工大学、商汤科技、清华大学、香港中文大学及英伟达的顶尖学者合作完成。

林靖、王睿思、鲁俊喆为共同第一作者。林靖是南洋理工大学博士生,研究大模型驱动的 3D 感知、生成与理解;王睿思为商汤研究员,兴趣方向在高性能计算与大模型空间智能;鲁俊喆是清华大学硕士,研究生成式模型和 3D 计算机视觉。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
《浪姐7》二公小考:庄法优胜组 淡淡组垫底 曾沛慈带不动队友

《浪姐7》二公小考:庄法优胜组 淡淡组垫底 曾沛慈带不动队友

情感大头说说
2026-04-19 01:10:47
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
皇马悔恨!不听安切洛蒂的忠告,如今阿韦洛亚用惨败验证

皇马悔恨!不听安切洛蒂的忠告,如今阿韦洛亚用惨败验证

奶盖熊本熊
2026-04-18 05:03:56
北京队签下NBA发展联盟超级得分手,他在奇才的表现相当不错?

北京队签下NBA发展联盟超级得分手,他在奇才的表现相当不错?

稻谷与小麦
2026-04-19 01:55:31
李敖之子李勘:大陆网民以为邱毅在台湾很有影响力!邱毅的价值

李敖之子李勘:大陆网民以为邱毅在台湾很有影响力!邱毅的价值

风雨与阳光
2026-02-25 10:10:44
郭冬临现状:住北京老房子,身形消瘦、脸颊凹陷,59岁无儿无女

郭冬临现状:住北京老房子,身形消瘦、脸颊凹陷,59岁无儿无女

揽星河的笔记
2026-04-17 18:36:52
48岁田蕊妮癌扩散,老公被传瘫痪出轨,她含泪回应真相太心酸!

48岁田蕊妮癌扩散,老公被传瘫痪出轨,她含泪回应真相太心酸!

生性洒脱
2026-04-18 15:05:35
美驻日大使:如果中国不按美国的意愿行事,就让十四亿人陷入饥荒

美驻日大使:如果中国不按美国的意愿行事,就让十四亿人陷入饥荒

荆楚寰宇文枢
2025-09-28 21:58:22
盐湖股份,全球抢“盐”!

盐湖股份,全球抢“盐”!

飞鲸投研
2026-04-18 19:20:55
抵达北京!乒协出手,邓亚萍正式上任,新岗位曝光,孙颖莎发声

抵达北京!乒协出手,邓亚萍正式上任,新岗位曝光,孙颖莎发声

郝小小看体育
2026-04-14 00:35:13
中雨+10级阵风!山东19日傍晚到夜间将自西向东出现强对流天气

中雨+10级阵风!山东19日傍晚到夜间将自西向东出现强对流天气

闪电新闻
2026-04-18 16:34:58
巴西女子发现丈夫正在强奸未成年的女儿,女子一怒之把丈夫杀死

巴西女子发现丈夫正在强奸未成年的女儿,女子一怒之把丈夫杀死

西楼知趣杂谈
2026-04-18 15:11:24
115度大电池上车!1000V高压平台,全新MPV申报,要我选会选增程

115度大电池上车!1000V高压平台,全新MPV申报,要我选会选增程

车矩阵更懂车
2026-04-18 23:44:54
54岁俞飞鸿带火了一种新穿法:“上松下紧+色不过三”,减龄高级

54岁俞飞鸿带火了一种新穿法:“上松下紧+色不过三”,减龄高级

蓓小西
2026-04-18 09:30:54
《八千里路云和月》笑不活了!孟万福斗菜赢主厨,太爷双标名场面太真实

《八千里路云和月》笑不活了!孟万福斗菜赢主厨,太爷双标名场面太真实

喜欢历史的阿繁
2026-04-18 20:01:39
当着193国,卢卡申科提醒美国:连伊朗都应付不了,就别插手中俄

当着193国,卢卡申科提醒美国:连伊朗都应付不了,就别插手中俄

共工之锚
2026-04-19 00:07:05
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
孙楠之女买宝瑶逆袭成功,25岁在北电重拾梦青春!

孙楠之女买宝瑶逆袭成功,25岁在北电重拾梦青春!

动物奇奇怪怪
2026-04-17 21:36:52
个人账户只有78149元,养老金竟然超过5000了

个人账户只有78149元,养老金竟然超过5000了

乐天果果
2026-04-18 16:38:00
2026-04-19 05:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12792文章数 142632关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

伊朗革命卫队向油轮开火 伊朗最高领袖发声

头条要闻

伊朗革命卫队向油轮开火 伊朗最高领袖发声

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

房产
本地
教育
时尚
家居

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

教育要闻

“抱歉,我们只看第一学历”,985硕士面试被拒,考研还有必要吗

选对发型,真的能少走很多变美弯路

家居要闻

法式线条 时光静淌

无障碍浏览 进入关怀版