网易首页 > 网易号 > 正文 申请入驻

百万规模数据打造人形机器人通用大模型,实现精细动作跨平台迁移

0
分享至

北大卢宗青团队 投稿
量子位 | 公众号 QbitAI

北大和人大团队在通用人形机器人动作生成领域取得重大突破!

首创性地提出了具备数据-模型协同放量(Scaling Law)特性的通用动作生成框架Being-M0

通过大规模互联网视频,构建了业界首个百万规模的动作生成数据集MotionLib

又基于此数据集,研发了端到端的文本驱动动作生成模型,实现了具备规模效应的复杂、多样的人类动作生成,做到了人体动作向多类型人形机器人的动作迁移。

文章将发表于ICML2025。

创新点

百万级动作数据集MotionLib

  • Being-M0团队构建了业界首个突破百万规模的动作生成数据集,并建立了从原始视频到高质量动作数据的全自动化处理流程,大幅提升了数据获取效率。

大规模动作生成模型

  • 同团队提出的动作生成大模型展现出显著的规模效应,成功验证了“大数据+大模型”在人体运动生成领域的技术可行性,为通用动作智能奠定基础。

多平台动作重定向

  • Being-M0团队创新融合优化与学习方法,实现了动作数据向宇树H1、H1-2、G1等多款人形机器人的高效迁移,显著提升了跨平台运动适配能力。

MotionLib: 突破数据规模瓶颈

在人工智能领域,数据规模的突破往往能带来模型性能质的飞跃。

为构建大规模动作数据集,Being-M0团队从公开数据集和在线平台系统性地收集了超过2000万段人体动作视频。面对海量的互联网视频数据,如何实现高质量动作数据的自动化提取成为了关键挑战。

为此,Being-M0团队开发了一套创新的数据处理流水线:

首先,基于预训练模型进行2D人体关键点估计,并通过置信度阈值实现初步筛选;随后,采用经过大规模3D数据集训练的先进模型,生成高精度的3D关键点数据。

在动作标注方面,针对现有数据集普遍存在的描述粒度粗糙问题(通常仅用单句话概括整个动作),团队创新性地提出了分层标注方案:

该方案利用Gemini-1.5-pro为每个视频生成了结构化描述,不仅包含动作的整体语义,还详细记录了手臂、腿部等身体部位的运动特征。这种细粒度的标注体系为高精度动作生成提供了关键支持。

MotionLib的独特优势还体现在其多模态特性上:每个动作序列不仅包含标准RGB视频,还提供了深度信息等辅助数据,并支持多人交互场景的分析。这些丰富的多模态信息显著拓展了数据集的应用场景。

经过严格的质量筛选流程,Being-M0团队最终构建了包含超过100万条高质量动作序列的数据集,其规模达到现有最大公开数据集的15倍,为突破动作生成领域的规模瓶颈奠定了坚实基础

大规模动作生成:从语言到动作

随着MotionLib数据规模实现数量级突破,如何充分释放大规模数据的性能红利成为了关键问题。

通过系统性实验,Being-M0团队首次在动作生成领域验证了模型规模与数据规模之间的协同放大效应(Scaling Law)。研究表明:
1)在同等数据条件下,模型容量与生成质量呈显著正相关,13B参数的LLaMA-2模型相较700M参数的GPT2,在动作多样性和语义对齐精度等核心指标上均实现突破;2)大模型展现出更优的数据利用率,在数据规模扩展时保持稳定的性能增长曲线。

这些发现不仅验证了“大数据+大模型”技术路线的普适性,更为构建通用动作生成模型提供了关键设计准则。

传统方法在将大语言模型应用于动作生成时面临根本性挑战:主流向量量化(VQ)技术将高维动作数据压缩为一维离散token,导致时序动态和关节协同等关键结构化信息严重损失。这种单维表征方式不仅受限于有限codebook容量,更难以刻画人体运动的连续细微变化。

针对这一瓶颈,Being-M0团队提出MotionBook——业界首个二维无查找量化框架。该技术突破性创新包括:

  1. 空间-时序解耦编码

将动作序列建模为单通道二维”动作图像”,分别在时间轴和关节轴构建独立编码空间,完整保留运动的多维结构特征;

  1. 动态扩展词表

通过降维投影消除传统codebook查找环节,使动作词表容量提升两个数量级;

  1. 坍塌免疫机制

创新性的参数化离散策略从根本上避免了传统VQ的codebook坍塌问题。

实验表明,这种表示方法能更好地发挥大模型的潜力,特别是在生成精细动作方面具有明显优势,为构建下一代动作生成模型奠定了新的技术基础。

高效动作重定向:从人体到人形机器人

将生成的人体动作迁移到实体机器人是实现文本驱动人形机器人动作生成的最后一环。

实现文本到机器人动作的闭环需要解决跨形态动作迁移这一核心挑战。

由于不同人形机器人在自由度配置、连杆尺寸等方面存在显著差异,将人体动作重定向到机器人时,传统基于运动学逆解或关节角度直接映射的方法往往导致动作失真甚至动力学不可行。

为解决这一问题,Being-M0团队提出了”优化+学习”的两阶段解决方案:

在训练数据构建阶段,通过多目标优化方法生成满足机器人运动学约束的动作序列——优化过程不仅考虑了关节限位等基本约束,还考虑了动作轨迹的平滑性和稳定性。这种基于多目标优化的方法虽然计算开销较大,但能保证生成数据的高质量,为后续的学习阶段打下良好基础。

在动作映射阶段,采用轻量级的MLP网络学习从人体动作到人形机器人动作的映射关系。通过精心设计的网络结构,该方法实现了对H1、H1-2、G1等多个机器人平台的高效支持。

与直接优化相比,基于神经网络的方法显著提升了系统的实时性能,同时保持了动作迁移的准确性。

BeingBeyond:打造通用具身智能,推动机器人走进千家万户

Being-M0由来自智在无界、北京大学、人民大学和智源研究院的研究团队共同打造。

MotionLib是业界首个百万规模动作生成数据集;Being-M0验证了“大数据+大模型”在动作生成领域的技术可行性,为面向人形机器人的通用动作生成模型奠定了基础。

研究团队表示,BeingBeyond将持续迭代人形机器人的具身大模型、灵巧操作、全身运动控制等,在未来让机器人涌现更强的通用能力和自主性。

项目地址:https://beingbeyond.github.io/Being-M0/
论文链接:https://arxiv.org/abs/2410.03311

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
工龄快42年,上海事业单位退休,“天花板”级别的养老金!

工龄快42年,上海事业单位退休,“天花板”级别的养老金!

乐天果果
2026-01-17 13:34:29
天崩地裂!13000公里时速,导弹爆炸温度数千度:普京真掀桌子了

天崩地裂!13000公里时速,导弹爆炸温度数千度:普京真掀桌子了

古事寻踪记
2026-01-15 07:07:07
1955年,毛主席一笔划掉二野刘邓之下的3号人物:此人不予授衔!

1955年,毛主席一笔划掉二野刘邓之下的3号人物:此人不予授衔!

卿昀
2025-11-24 21:26:43
徐帆回应离婚5个月,冯小刚近况曝光,他的“小心思”再藏不住了

徐帆回应离婚5个月,冯小刚近况曝光,他的“小心思”再藏不住了

达吉伍各莫
2026-01-16 17:05:46
证监会最新发布!吴清发声!

证监会最新发布!吴清发声!

数据宝
2026-01-17 17:51:47
解放军登场后,外交部也跟进表态,中方通知日本:血债必须偿还

解放军登场后,外交部也跟进表态,中方通知日本:血债必须偿还

音乐时光的娱乐
2026-01-17 21:13:52
追觅科技CEO俞浩发声:怼人的员工早就提出离职,我有肚量,不会在意

追觅科技CEO俞浩发声:怼人的员工早就提出离职,我有肚量,不会在意

红星新闻
2026-01-17 14:02:10
刘强东没想到,离过年不到2月,章泽天走上了和田朴珺一样的路

刘强东没想到,离过年不到2月,章泽天走上了和田朴珺一样的路

科学发掘
2026-01-16 14:41:06
国足,再进一步?

国足,再进一步?

新民晚报
2026-01-17 14:22:14
王者回归!全红婵重返国家队,陈若琳押对了,能冲洛杉矶奥运吗

王者回归!全红婵重返国家队,陈若琳押对了,能冲洛杉矶奥运吗

卿子书
2026-01-17 11:22:03
零下36.4℃!今晚这些地方下雪!接下来辽宁还要更冷……

零下36.4℃!今晚这些地方下雪!接下来辽宁还要更冷……

环球网资讯
2026-01-17 17:18:05
恩爱29年难抵残酷现实,"喜新厌旧"的陈凯歌,终究遭到了反噬

恩爱29年难抵残酷现实,"喜新厌旧"的陈凯歌,终究遭到了反噬

小小李娱
2026-01-16 17:30:41
伊朗全境已恢复互联网服务

伊朗全境已恢复互联网服务

每日经济新闻
2026-01-17 16:26:37
越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

阿纂看事
2025-08-08 18:10:48
混音主帅:杨瀚森是我们攻防两端的支柱,他的英语进步非常多

混音主帅:杨瀚森是我们攻防两端的支柱,他的英语进步非常多

懂球帝
2026-01-17 16:02:14
李亚鹏接不住泼天流量,首场直播卖茶叶和紫砂壶,快急死网友了

李亚鹏接不住泼天流量,首场直播卖茶叶和紫砂壶,快急死网友了

萌神木木
2026-01-16 20:41:57
利好消息来了!

利好消息来了!

和讯网
2026-01-17 11:47:11
国足杀鸡CCTV5直播!安圣遇强不弱 小鲍没合练 毛伟杰不会0出场吧

国足杀鸡CCTV5直播!安圣遇强不弱 小鲍没合练 毛伟杰不会0出场吧

刀锋体育
2026-01-17 08:24:17
女子回乡建厂5年:当初捧着邀请我来,如今被强拆4000万说没就没

女子回乡建厂5年:当初捧着邀请我来,如今被强拆4000万说没就没

今朝牛马
2026-01-16 18:14:40
2026-01-17 22:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12023文章数 176360关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

公司今年涨20元月薪给员工发致歉信 已连续37年涨薪

头条要闻

公司今年涨20元月薪给员工发致歉信 已连续37年涨薪

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

艺术
家居
房产
游戏
公开课

艺术要闻

雪白的世界 | 乌克兰著名画家斯捷潘·科列斯尼科夫

家居要闻

岁月柔情 现代品质轻奢

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

LCK春季赛:联赛王者依旧横扫对手,GEN零封KT

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版