网易首页 > 网易号 > 正文 申请入驻

从过拟合到通用!ViMoGen开启3D人体动作生成新纪元

0
分享至



随着 AIGC(Artificial Intelligence Generated Content) 的爆发,我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而,3D 人体动作生成(3D MoGen)领域却稍显滞后。

现有的模型在标准数据集上表现良好,但在泛化能力上仍存在明显瓶颈。一旦用户输入训练集中未见过的复杂交互或罕见动作,生成的动作往往会缺乏自然性、崩坏或退化为简单的平均姿态,这严重限制了其在现实场景和交互系统中的应用。

那很自然地就会思考:视频生成模型已经初步学会了通用的物理规律和人类行为,为什么不把这些知识「蒸馏」给 3D 人体动作生成模型呢?





  • 论文链接:https://arxiv.org/abs/2510.26794
  • 项目主页:https://linjing7.github.io/vimogen/

ViGen-to-MoGen 的三大支柱

来自南洋理工大学、商汤科技、清华大学、香港中文大学和英伟达的研究人员提出了题为《The Quest for Generalizable Motion Generation: Data, Model, and Evaluation》的最新研究成果。这项工作从数据、模型、评估三个维度重新定义了通向通用动作生成的路径。

  1. 数据 ViMoGen-228K:结合了从 30 个 MoCap 数据集中筛选的高精度数据,海量互联网视频与由视频模型(Video Gen)合成视频中提取的动作数据,包含了大量罕见、复杂的交互动作,突破了传统数据棚采集的物理限制。
  2. 模型 ViMoGen:采用Text-to-Motion (T2M) 与 Motion-to-Motion (M2M)双分支架构。通过门控机制,将视频生成模型的语义先验与 MoCap 的物理先验完美统一。
  3. 评估 MBench: 首个面向「泛化性」的评测基准。从动作质量、文本忠实度、泛化能力三大维度(细分 9 项指标)对模型进行全方面测评,是目前最全面的动作生成评测方式。

数据 ViMoGen-228K —— 规模与多样性的双重飞跃

传统动作数据集(如 AMASS)虽然精准但语义单一。ViMoGen 引入了 ViMoGen-228K 数据集,包含约 22.8 万条高质量动作样本。

多模态覆盖,包含文本–动作、文本–视频–动作多模态三元组。

多来源实现泛化能力提升:

  • 对来自 30 个公开高质量的光学动作捕捉数据集进行了筛选和重标注。
  • 从网络视频提取动作序列与语义标签。
  • 利用视频生成(ViGen)模型生成了在真实动作捕捉中极难获取的长尾动作,填补了语义空白。

模型 ViMoGen —— 多源先验知识的深度表征与协同优化探索








ViMoGen 模型巧妙地通过门控机制控制Text-to-Motion (T2M)分支与Motion-to-Motion (M2M)双分支,同时利用 MoCap 数据的精准先验和 ViGen 模型的广泛语义先验。该架构模型不仅在传统动作生成测评上取得较好的分数,同时也通过文中提出的 MBench 测评基准,体现了它在泛化性上的卓越表现。

测评 MBench —— 多维分层评测体系



传统的 FID(Frechet Inception Distance)等指标只能衡量生成动作与特定动作集分布的相似度,却无法体现模型在处理复杂、罕见指令时的真实泛化能力。MBench 将评测拆解为相互关联的三个层面,并细化为 9 项具体的量化指标。

动作质量 (Motion Quality)关注动作的合理性。通过计算与地面物理接触、穿模情况以及脚步抖动和平滑度,评判生成动作的动作的物理可实现性。

指令忠实度 (Motion-Condition Consistency)利用多模态大模型评估生成动作与复杂文本描述的一致性。例如,模型是否准确还原了文本中提到的方位(“向左后方倒下”)或特定的交互逻辑。

开放世界泛化力 (Motion Generalizability)设计了一系列 Out-of-Distribution (OOD) 测试案例,涵盖了极端动作、长尾语义以及复合指令,专门考验模型在未见过场景下的稳定性。

赋能具身智能,构建 Real-to-Sim 的高质量动作桥梁

在当前的人形机器人控制研究中(如 [arXiv:2505.03729] ),研究者通常依赖海量的 SMPL 参考轨迹(Reference Motions)来训练高鲁棒性的控制策略(Policy)。然而,传统数据的匮乏严重限制了机器人动作的演化。

传统的机器人训练往往局限于几套标准的行走动作。而 ViMoGen-228k 能够带来大量长尾、边缘场景(Corner Cases)高质量动作, 同时 ViMoGen 凭借强大的泛化能力,能够批量产出一些特殊需求的动作数据。这些数据能够让具身智能体在虚拟训练阶段就完成了对复杂动态的预演,使其在现实部署中具备更强的抗干扰能力。

同时 MBench 针对动作质量的一系列评估,能够为下游的 Real-to-Sim 过程做初步筛选,从而排除了可能导致机器人频繁跌倒或关节自锁的无效动作。

结果展示




空翻

指令:一个人俯身蹲低,双腿积蓄力量,随后蹬地猛然跃起,下巴紧贴胸口。身体蜷缩成一个紧密的球状,在空中优雅地翻转。随着空翻动作的完成,他舒展双腿,膝盖微屈平稳着陆,双臂向外伸展以保持平衡。



多球杂耍

指令:一个人双脚与肩同宽站立,目光紧盯着空中的彩色球。凭借熟练的手腕甩动,他们将每个球依次抛向空中,划出流畅的弧线,双手以协调一致的节奏交替动作。球不断升起又落下,形成连续的循环,杂耍者的动作流畅而精准,在整个表演过程中始终保持着完美的节奏与平衡。



引体向上

指令:一个人在单杠上进行一组标准的引体向上。从双臂完全伸直的悬垂状态开始,利用背部力量将身体垂直向上拉起,直到下巴超过单杠。



空手道

指令:一位武术家在前进的同时,执行一套动态的空手道组合动作。



推箱子

指令:一个人身体前倾,双手抵住一个巨大的重型箱子,在保持接触的同时缓慢向前迈步。

作者介绍

本文由南洋理工大学、商汤科技、清华大学、香港中文大学及英伟达的顶尖学者合作完成。

林靖、王睿思、鲁俊喆为共同第一作者。林靖是南洋理工大学博士生,研究大模型驱动的 3D 感知、生成与理解;王睿思为商汤研究员,兴趣方向在高性能计算与大模型空间智能;鲁俊喆是清华大学硕士,研究生成式模型和 3D 计算机视觉。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
未来三到七年非常难熬,白领将最先失业,搬砖的反而安全些

未来三到七年非常难熬,白领将最先失业,搬砖的反而安全些

呼呼历史论
2026-01-10 14:08:23
2026 年全球第一个被暴击国家出现!对方已经破防!中国赢定了!

2026 年全球第一个被暴击国家出现!对方已经破防!中国赢定了!

毛豆论道
2026-01-10 17:16:07
2000万粉丝演员哭穷炫富,多个账号被禁言,代言产品全线停产

2000万粉丝演员哭穷炫富,多个账号被禁言,代言产品全线停产

21世纪经济报道
2026-01-10 15:33:36
安徽省亳州市人民政府党组成员、副市长薛冰接受审查调查

安徽省亳州市人民政府党组成员、副市长薛冰接受审查调查

界面新闻
2026-01-11 17:12:24
合川千人杀猪饭续:女子闯大祸,人如其名已吓呆,当地文旅也来了

合川千人杀猪饭续:女子闯大祸,人如其名已吓呆,当地文旅也来了

白浅娱乐聊
2026-01-12 02:04:02
冲上20℃!江苏紧接大反转!请提前准备

冲上20℃!江苏紧接大反转!请提前准备

江南晚报
2026-01-12 03:04:25
北京汉庭注销,华住正在完成一场全国性的“瘦身”

北京汉庭注销,华住正在完成一场全国性的“瘦身”

商业不许冷
2026-01-11 22:04:07
这波AI企业上市潮背后,真正要关注的是上海国资

这波AI企业上市潮背后,真正要关注的是上海国资

上观新闻
2026-01-11 07:14:09
地铁直达!上海又一座巨无霸商场!6500㎡星空露台+10000㎡中央公园

地铁直达!上海又一座巨无霸商场!6500㎡星空露台+10000㎡中央公园

上观新闻
2026-01-11 14:24:24
3:2!熊皇破荒难救主 拉神双响主导走势 巴萨击败皇马卫冕超级杯

3:2!熊皇破荒难救主 拉神双响主导走势 巴萨击败皇马卫冕超级杯

阿超他的体育圈
2026-01-12 05:10:31
表面支持“一个中国”,暗中输送潜艇技术给台岛!中国已忍无可忍

表面支持“一个中国”,暗中输送潜艇技术给台岛!中国已忍无可忍

健身狂人
2026-01-11 15:26:32
全崩了,山东5大工程骗局全被曝光!所有工程人,请赶紧远离

全崩了,山东5大工程骗局全被曝光!所有工程人,请赶紧远离

娱乐帝皇丸
2026-01-11 11:09:51
那对迎着枪口前进的年轻情侣

那对迎着枪口前进的年轻情侣

玖奌杂货铺
2026-01-10 19:14:44
成龙4000万寻回小龙女,房祖名暗中相助,吴卓林语惊全网

成龙4000万寻回小龙女,房祖名暗中相助,吴卓林语惊全网

凛若秋霜
2026-01-11 16:03:47
1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

忠于法纪
2026-01-07 17:46:09
上海警方:对江某(女,30岁)、吴某(男,35岁)、吴某某(男,25岁)、漆某(男,48岁)作出行政处罚

上海警方:对江某(女,30岁)、吴某(男,35岁)、吴某某(男,25岁)、漆某(男,48岁)作出行政处罚

扬子晚报
2026-01-10 19:55:06
合川千人赴约杀猪饭后续:女子闯大祸,原地吓呆,文旅连夜下场

合川千人赴约杀猪饭后续:女子闯大祸,原地吓呆,文旅连夜下场

鋭娱之乐
2026-01-11 22:06:10
每天2包烟,顿顿8两白酒,70岁李琦跟去世前杨少华状态如出一辙

每天2包烟,顿顿8两白酒,70岁李琦跟去世前杨少华状态如出一辙

以茶带书
2026-01-11 13:55:14
西部最新排名:快船创NBA奇迹,掘金收大礼,独行侠提前摆烂

西部最新排名:快船创NBA奇迹,掘金收大礼,独行侠提前摆烂

篮球大视野
2026-01-11 15:40:11
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
2026-01-12 06:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12088文章数 142535关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

美军突袭委内瑞拉俄制防空系统失联 俄方回应

头条要闻

美军突袭委内瑞拉俄制防空系统失联 俄方回应

体育要闻

U23国足形势:末轮不负泰国即确保晋级

娱乐要闻

留几手为闫学晶叫屈?称网友自卑敏感

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

艺术
健康
教育
房产
军事航空

艺术要闻

10位著名画家的女性人物绘画,张张经典!

这些新疗法,让化疗不再那么痛苦

教育要闻

集成电路人才缺口30万!揭秘设计与制造专业

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

军事要闻

俄大使:马杜罗夫妇被控制时身边没人

无障碍浏览 进入关怀版