网易首页 > 网易号 > 正文 申请入驻

具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

0
分享至



机器之心报道

编辑:Panda

当前机器人领域,基础模型主要基于「视觉-语言预训练」,这样可将现有大型多模态模型的语义泛化优势迁移过来。但是,机器人的智能确实能随着算力和数据的增加而持续提升吗?我们能预测这种提升吗?

换句话说:我们能找到机器人模型的 Scaling Law 吗?

就在今天,AI 机器人创业公司 Generalist 宣布在这方面取得了突破。这家「以实现通用机器人为使命」的公司推出了一类新型的具身基础模型GEN-0



GEN-0 专为直接在高保真度的原始物理交互数据上进行多模态训练而构建,参数量可达 10B+。其架构建立在视觉和语言模型的优势之上,但又超越了它们。



其原生设计旨在捕捉人类水平的反应 (human-level reflexes) 和物理常识。

GEN-0 还具备一项核心特性:和谐推理 (Harmonic Reasoning)。即训练模型时要让其无缝地同时「思考」和「行动」。

更重要的是,Generalist 还证明 GEN-0 的这些能力都是可扩展的。下面总结了该公司的这一波贡献:

  • 超越智能阈值:使用前所未有的高数据量,Generalist 观察到在 7B 参数上出现了一个「相变」 (phase transition):较小的模型表现出「固化」 (ossification) 现象,而较大的模型则持续改进。此后,Generalist 将 GEN-0 扩展到 10B+ 的模型规模,并观察到它们能以越来越少的后训练快速适应新任务。
  • Scaling Law:GEN-0 模型展现出了强大的 Scaling Law,即更多的预训练数据和算力,能够持续(且可预测地)提高模型在众多任务上的下游后训练性能。
  • 和谐推理:尽管对于语言聊天机器人来说,在回应前「花更多时间思考」可以接受,但对于在现实世界中行动的物理系统而言,事情却没那么简单 —— 物理定律可不会暂停。为了解决这个问题,「和谐推理」采用了一种全新的模型训练方法,在异步、连续时间的「感知」和「行动」token 流之间建立了一种「和谐」的相互作用。这使模型能够扩展到非常大的规模,而无需依赖「System1-System2」 架构或「推理时指导」。
  • 跨机体 (Cross-Embodiment):GEN-0 架构通过设计使其适用于不同的机器人。Generalist 已经在 6 自由度 (6DoF)、7 自由度和 16+ 自由度的半人形机器人上成功测试了模型。
  • 不再受数据限制:GEN-0 在 Generalist 内部的机器人数据集上进行了预训练,该数据集包含超过 27 万小时的真实世界多样化操作数据,并以每周 1 万小时的速度增长,且仍在加速。
  • 预训练的科学:不同的预训练数据混合(来自不同来源,例如数据工厂)会产生具有不同特性的 GEN-0 模型。Generalist 分享一些在这种海量数据情景下的早期经验观察,以及这些观察如何追溯到特定的数据收集操作。

这一系列成果备受赞誉:



Generalist 表示:「我们相信 GEN-0 标志着一个新时代的开始:具身基础模型的能力,可以通过与真实世界的物理交互数据(而不仅仅是文本、图像或模拟数据)进行可预测的扩展。」

以下是 GEN-0 在一个新任务上运行的视频:



组装一个相机套件(俯视视角)。 这是一个长周期灵巧任务 (long horizon dexterous task),涉及将一块清洁布放入盒子,折叠一个纸板托盘,拿起相机并将其从塑料袋中取出,放入盒子,关闭盒子(并插入小盖舌),然后丢弃塑料袋。模型没有维持任何明确的「子任务」概念,它在「和谐推理」的单一流程中完成了所有这些操作。

接下来我们具体看看 Generalist 究竟做到了什么?

超越智能阈值

Generalist 的规模化实验表明,GEN-0 模型必须足够大,才能吸收海量的物理交互数据。Generalist 观察到,在数据过载的情况下,较小的模型表现出类似于「固化」的现象,而较大的模型则持续改进。

下图展示了 Generalist 模型智能容量上一个出人意料的「相变

  • 1B 模型在预训练期间难以吸收复杂多样的感觉运动数据;模型权重随着时间推移无法吸收新信息。
  • 6B 模型开始从预训练中受益,并显示出强大的多任务能力。
  • 7B+ 模型能够内化大规模的机器人预训练数据,这些数据仅需几千步的后训练就能迁移到下游任务。



图 1: 扩展 GEN-0 模型规模(不同颜色)可以提高在一个完全保留的(即零样本)长周期下游任务上的性能(以「下一动作验证预测误差」衡量,y 轴,越低越好)。1B 参数模型表现出明显且早期的固化,而 6B 和 7B 模型在吸收预训练数据方面分别表现得更好。x 轴是标准化的预训练算力,以 GEN-0 7B 为 1.0。

Generalist 表示:「据我们所知,这是首次在机器人领域中观察到模型固化现象。过去的机器人研究可能忽略了这一点,原因在于 (a) 迄今为止机器人领域缺乏海量数据情景,以及 (b) 在此情景下缺乏足够大的模型规模。」

「固化」现象之前已在 LLM 文献中被观察到,同样是在海量数据情景下,但模型规模要小得多,处于 O(10M) 参数的量级,而非 O(1B) 级。这种相变发生在机器人领域,但所需的模型规模要大得多,这一观察结果呼应了莫拉维克悖论 (Moravec’s Paradox):人类觉得轻而易举的事情(如感知和灵巧性)比抽象推理需要远为复杂的计算能力。

Generalist 的实验表明,物理世界中的智能(即物理常识)在算力方面可能有一个更高的激活阈值 (activation threshold)

机器人模型的 Scaling Law

Scaling Law 通常在预训练期间进行测量,如图 1 所示,它显示了在预训练期间,模型规模和算力在一个下游零样本任务上的关系。

另一种类型的 Scaling Law 则与预训练带来的、可持续到微调 (finetuning) 阶段的益处有关。在足够的模型规模下,Generalist 还观察到预训练数据规模与下游后训练性能之间存在很强的幂律关系(图 3)。

这适用于 Generalist 测量的所有任务,包括受合作伙伴和客户启发的应用及其工作流,涵盖服装、制造、物流、汽车和电子等广泛的工业领域。

更具体地说,Generalist 选取了在预训练数据集的不同子集上、使用其训练流程训练出的各种模型检查点,然后在多任务语言条件数据上对这些检查点进行后训练,即同时在 16 个不同的任务集上进行监督微调。Generalist 发现,更多的预训练可以提高所有任务的下游模型性能(图 2)。





图 2: 随着预训练数据的增多(不同颜色),在所有 16 个任务集上,多任务模型在后训练期间的性能(以验证损失 (顶部) 和下一动作预测误差 (底部 4x4 网格) 衡量)均有改善。这些任务包括评估灵巧性、特定行业工作流和泛化能力。

模型性能可以通过幂律关系(图 3)进行预测,借此可以回答诸如「需要多少预训练数据才能达到特定的下一动作预测误差?」或「更多的预训练数据可以换取(节省)多少(特定任务的)后训练数据?」之类的问题。对于下游任务,给定固定的数据和微调预算,以及大小可变的预训练数据集 D,其验证误差 L () 可以通过以下幂律形式进行预测:

例如,在 Clothes Handling(涉及在真实工作场所中对衣物进行分类、整理、扣扣子和悬挂)的任务中,模型可以预测给定 10 亿个动作轨迹时的模型性能。这些估计有助于指导与合作伙伴相关的任务讨论,并能估算出达到特定性能水平还需要多少数据。



图 3: Generalist 的 Scaling Law 很好地描述了在给定任务集上,后训练模型的渐近「下一动作预测误差」与预训练数据集大小(以动作轨迹数量衡量)之间的函数关系。结合模型规模的 Scaling Law,我们可以使用这些结果来预测任何下游后训练任务的预训练算力和数据的最佳分配。

机器人模型不再受数据限制

Generalist 的基础模型是在一个前所未有的语料库上训练的,该语料库包含了在全球数千个家庭、仓库和工作场所中,通过各种活动收集的27 万小时的真实世界操作轨迹

Generalist 表示,如今该公司的机器人数据运营每周能提供超过 1 万小时的新数据,并且还在加速。这一切都由一个全球硬件网络以及数千台数据收集设备和机器人提供支持。



图 4: GEN-0 所训练的真实世界操作数据量,比迄今为止(截至 2025 年 11 月)一些最大的机器人数据集还要多出几个数量级。

绘制操作全图景

为了扩展 GEN-0 的能力,Generalist 正在构建有史以来最大、最多样化的真实世界操作数据集,包括人类能想到的每一项操作任务,涵盖家庭、面包店、自助洗衣店、仓库、工厂等。

以下是 Generalist 构建的用于探索这个「操作全景」的内部搜索工具示例:



图 5: 这是一个在其不到 1% 的预训练数据集中进行搜索的示例,该数据集包含来自不同环境中数百万种不同活动的操作数据。该可视化工具引导用户浏览数据集中相应语言标签嵌入的 t-SNE 映射图。给定一个文本描述,可视化工具会定位到最近邻区域,并在该区域随机采样一系列相关视频并显示它们。

面向互联网规模机器人数据的基础设施

为此,构建运营和机器学习基础设施绝非易事。面对如此规模的机器人模型和数据,Generalist 构建了定制硬件、数据加载器和网络基础设施(包括铺设新的专用互联网线路),以支持来自全球各地不同数据收集站点的上行带宽。

Generalist 与多家云服务商合作,构建了定制的上传机器,扩展到 O (10K) 级核心用于持续的多模态数据处理,压缩了数十 PB 的数据,并使用了前沿视频基础模型背后的数据加载技术,能够在每训练一天就吸收掉 6.85 年的真实世界操作经验。

预训练的科学

通过大规模的消融实验,Generalist 发现数据质量和多样性比纯粹的数量更重要,而且精心构建的数据混合可以带来具有不同特性的预训练模型。

这里就不过多展开实验数据了,总之结果表明:同时具有低预测误差和低逆 KL 散度的模型,在进行后训练的监督微调 (SFT) 时往往表现更好,而具有高预测误差和低逆 KL 散度的模型,则倾向于在分布上更具多模态性,这可能有助于后训练阶段的强化学习。拥有多种规模化的数据收集策略,使 Generalist 能够持续进行 A/B 测试,以确定哪种数据对预训练的提升最大。

你认为 GEN-0 是否标志着一个具身智能新时代的开始?

https://x.com/GeneralistAI/status/1985742083806937218

https://generalistai.com/blog/nov-04-2025-GEN-0

文中视频链接:https://mp.weixin.qq.com/s/kEdFdgePK5ZFVhL1-d7adg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

林子说事
2026-03-26 13:57:35
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

司峰阿道
2026-03-26 14:45:09
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
中国平安2025年扣非净利润显著增长22.5% 现金分红489亿元连续14年上涨

中国平安2025年扣非净利润显著增长22.5% 现金分红489亿元连续14年上涨

财联社
2026-03-26 18:05:05
兄弟俩同出宁海路,一个资产清零,一个负债率28%稳坐前500强

兄弟俩同出宁海路,一个资产清零,一个负债率28%稳坐前500强

花小猫的美食日常
2026-03-26 07:41:46
特斯拉 Model 3 标准版要来了!配置太离谱

特斯拉 Model 3 标准版要来了!配置太离谱

花果科技
2026-03-25 16:23:07
“公路闪电”终于换代,但我觉得不如丰田

“公路闪电”终于换代,但我觉得不如丰田

差评XPIN
2026-03-26 09:57:20
固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

芭比衣橱
2026-03-26 09:52:41
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
每吃一次,大脑萎缩就快一步?劝告:这4物是老年痴呆催化剂

每吃一次,大脑萎缩就快一步?劝告:这4物是老年痴呆催化剂

坠入二次元的海洋
2026-03-26 18:16:38
重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

澜归序
2026-03-26 06:02:38
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

金山话体育
2026-03-26 08:29:20
美国必胜?哈佛专家:不要高估中国,美国已经控制了中国的命脉

美国必胜?哈佛专家:不要高估中国,美国已经控制了中国的命脉

探史
2026-03-25 08:59:36
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

每日经济新闻
2026-03-26 20:18:05
伊朗伊斯兰革命卫队海军指挥官身亡

伊朗伊斯兰革命卫队海军指挥官身亡

财联社
2026-03-26 16:23:15
兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

鲸探所长
2026-03-24 14:38:04
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
2026-03-26 21:52:50
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
旅游
艺术
教育
房产

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

旅游要闻

别再人挤人,泰州的这条老街,传承1200年!

艺术要闻

哪一座桥不是风景?

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版