允中 发自 凹非寺
量子位 | 公众号 QbitAI
叠衣服、冲咖啡、折纸盒。
这些看似琐碎的小事,曾是具身智能跨不过去的“长时程”深渊。
但现在,纪录被刷新了:数小时零失误、持续稳定运转。
还记得此前在RoboChallenge斩获全球第一的GigaBrain-0.1吗?
![]()
它的进化体——GigaBrain-0.5M*VLA大模型现在悄然登场了。
性能更强大,依靠世界模型条件驱动,以世界模型对未来状态与价值的预测结果作为条件输入,可显著提升模型在长时程任务中的鲁棒性。
在此基础上,GigaBrain-0.5M*创新引入人在回路持续学习机制,系统依托经人工筛选与校正的模型推演轨迹开展迭代训练,基于真实环境交互反馈持续优化决策策略,最终实现“行动—反思—进化”的闭环式持续学习与自主迭代升级。
![]()
在与主流方法RECAP的正面硬刚中,它直接把任务成功率强行拉升了30%
能反思、会进化,具身智能的“原生范式”,这次看来真的变天了。
基于世界模型的强化学习的训练范式
在GigaBrain-0.5M*的研发中,极佳视界团队提出基于世界模型的强化学习范式,并采用迭代式四阶段闭环训练流程:
- 基于大规模机器人操作数据完成世界模型预训练,实现对未来状态及对应价值的精准预测;
- 以世界模型输出的未来状态预测与价值评估为条件,对策略网络进行微调,以指引动作决策;
- 将条件化策略部署至真实物理环境,依托人在环(Human-in-the-Loop)干预机制,采集模型自主推演轨迹数据;
- 利用经筛选后的有效轨迹数据集,联合优化世界模型与决策策略,实现模型持续学习与自主进化。
![]()
数小时连续零失误执行
在与AWR、RECAP等主流模仿学习与强化学习基线方法的系统对比中,GigaBrain-0.5M*展现出显著优势,在相同任务设定下,相较于由π*0.6所提出的RECAP基线,任务成功率提升近30%,并实现了稳定可靠的模型效果。
尤其在高难度长时程任务中,面对折纸盒、咖啡制备、衣物折叠等包含多阶段操作、精细感知与持续决策的复杂场景,GigaBrain‑0.5M*均实现接近100%的任务成功率,并可稳定复现成功执行轨迹,充分彰显出卓越的策略鲁棒性。
![]()
高效且准确的价值预测
实验结果表明,基于世界模型的价值预测方案在执行效率与预测精度上,均优于π*0.6所提出的VLM方案。
该方案的核心优势源自对未来状态的显式建模与世界模型单步降噪机制,可为价值函数提供关键的时序上下文支撑,让价值估计实现更高效、更精准、更稳定的输出。
叠衣服任务为例:
- 任务初期,机械臂反复调整衣物姿态时,预测价值呈现合理波动;
- 当衣物摆正、进入稳定叠放阶段,价值曲线稳步上升;
- 若中途出现干扰物,价值骤降以反映任务受阻;
- 待干扰物被移除后,价值迅速恢复增长趋势。
这种与任务物理进程高度对齐的价值演化,正是世界模型提供“认知先验”的直接体现。
![]()
上万小时的训练数据
GigaBrain-0.5M*的基座模型GigaBrain-0.5基于总计10,931小时的多样化机器人操作数据进行预训练,其中:
- 61%(6,653小时)由自研具身世界模型GigaWorld高保真合成,覆盖纹理迁移、视角变换、人手到机械臂映射等丰富场景;
- 剩余39%(4,278小时)源自真实机器人采集,确保策略在物理世界中的可执行性。
海量数据的引入,显著拓展了模型的任务覆盖广度与策略鲁棒性,使其在面对复杂、长时程操作任务时具备更强的泛化能力;
而GigaWorld生成的合成数据,则有效突破了真实采集的长尾瓶颈。
![]()
通过可控地生成新纹理、新物体位姿与新观测视角下的训练样本,增强了模型在分布外场景中的适应性,为具身智能走向开放世界奠定了数据基石。
这背后,是极佳视界对具身智能进化路径的深远布局。
通过“基模-本体-场景”的深度打磨,极佳围绕世界模型平台GigaWorld、通用具身大脑GigaBrain、原生本体Maker构筑起了一套能自我进化的闭环生态。
这种体系化的作战方式,让极佳视界不仅在实验室里斩获冠军,更具备了将进化效率提升10-100倍的硬实力,致力于推动通用机器人服务千行百业、走进千家万户。
论文链接:
https://arxiv.org/pdf/2602.12099
项目链接:
https://gigabrain05m.github.io/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.