网易首页 > 网易号 > 正文 申请入驻

世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

VLA模型性能暴涨300%,背后训练数据还首次实现90%由世界模型生成

这是来自国产世界模型玩家的最新突破,相关模型代码和训练框架还全都开源了。



具身智能迈向开放世界落地的最大瓶颈长期以来并非算法本身,而是高质量、大规模真实机器人交互数据的极度稀缺

真机数据采集成本高昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了VLA大模型的规模化训练与泛化能力。而传统仿真虽能快速生成数据,却受限于显著的Sim-to-Real gap,难以支撑真实世界的鲁棒部署。

世界模型(World Model)被认为是破解这一困境的关键:通过学习真实世界的规律,世界模型可以生成高保真、可控、多样化的具身交互数据,突破真机数据不足的限制。

在此背景下,刚刚获得华为投资的国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0,成功将世界模型生成数据在VLA训练中的占比提升至90%

所训练的VLA模型在新纹理(训练中未见材质表面)、新视角(训练中未见的观测角度)、新物体位置(训练中未见的空间布局)三大泛化维度上均实现近300%的性能提升标志着具身智能正式迈入“数据高效、高泛化、低成本”的新阶段



作为具身智能迈向规模化与数据高效的关键基础设施,GigaWorld-0由两大协同组件构成:

  • GigaWorld-0-Video基于视频生成基座模型,生成纹理丰富、视觉逼真具身操作数据;
  • GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建、可微分物理引擎,确保生成数据在几何结构与物理动力学的准确性。



高效的世界模型架构

针对当前世界模型在生成时面临的计算效率低、细节控制不足等挑战,GigaWorld-0-Video重点提升了稀疏注意力建模能力动态专家计算能力,在保持视觉保真度的同时显著降低计算开销,为VLA模型提供高质量、可扩展的合成训练数据



稀疏注意力机制:高效建模长程时空依赖

GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer(DiT)作为生成主干,摒弃传统全注意力带来的平方级计算复杂度。

该机制仅在局部时空邻域与关键语义区域间建立注意力连接,从而在生成高帧率、长序列视频时,显著降低内存占用与推理延迟。

MoE架构:提升生成多样性与可控性

在DiT的前馈网络模块中,GigaWorld-0-Video参考DeepSeek V3集成混合专家(Mixture-of-Experts,MoE)架构。

每个视频Token动态路由至多个专家网络。确保不同语义区域由专属专家处理,实现细粒度的内容控制。

几何一致、物理准确的世界模型建模

GigaWorld-0-3D通过融合生成与重建技术,显著提升了在稀疏观测条件下的场景建模能力,并结合可微分物理引擎,实现了对机械臂操作过程的高保真物理仿真

该系统不仅生成几何一致、视觉逼真的静态背景资产,还精准复现了机械臂与物体交互中的动力学行为,为具身智能体提供兼具几何一致性与物理准确性的训练数据。

生成式重建:几何一致性与视觉保真度的协同优化

在几何一致性渲染方面,GigaWorld-0-3D融合极佳视界积淀的生成式重建技术,有效突破稀疏观测下的建模瓶颈。

系统首先基于稀疏输入视图,初始化高斯场景表示。随后引入专用的视图修复生成模型,显著缓解因视角缺失导致的几何扭曲。最终,将修复后稠密、一致的多视角图像作为增强输入,驱动第二阶段的高精度3DGS重建,从而在新视角合成中同时保障几何一致性与视觉保真度。



可微分物理引擎:高效精准的物理建模

在物理准确性建模方面,GigaWorld-0-3D引入基于物理信息神经网络(PINNs)的可微分物理引擎,实现对机械臂动力学的自动参数辨识。

通过三步流程:以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降优化参数匹配真实运动,高效生成物理合理、交互可信的数据。



高效世界模型训练框架

GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段。

通过将FP8与稀疏注意力深度结合,GigaWorld-0在保持生成质量的同时,显著降低显存占用与训练成本,实现了视觉保真度与计算效率的最佳平衡。

为这一突破提供基础的,是极佳视界自研的GigaTrain高效训练框架。

GigaTrain是一个为大规模生成模型量身打造的统一分布式训练系统,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进训练技术,既可支撑超大规模预训练,也能在8×H20等常规硬件上高效完成微调。

GigaTrain现已全面开源(GitHub:https://github.com/open-gigaai/giga-train),极佳视界还同步开放了详细的资源消耗基准与配置模板,助力社区开发者快速复现、迁移并定制GigaWorld-0,推动具身智能数据生成的普惠化与标准化。



可泛化具身数据引擎

在PBench(Robot Set)基准上,研究团队将GigaWorld-0与当前最先进的世界模型进行了全面对比,包括Cosmos-Predict2-14B、Cosmos-Predict2.5-2B、Wan2.2-5B和Wan2.2-14B。

尽管GigaWorld-0模型仅激活20亿参数(2B),为所有对比模型中最小,却在整体评分上显著领先,取得最高性能。

这一结果证明GigaWorld-0在具身智能任务中兼具生成质量与推理效率,是目前极具性价比的世界模型方案。



GigaWorld-0的价值还不仅体现在高质量视频与3D场景的生成能力上,更关键的是其作为可泛化具身数据引擎在真实世界中的有效性。

在VLA模型GigaBrain-0上,研究团队系统性地验证了GigaWorld-0生成数据对下游具身智能任务的提升作用。实验在真实机器人平台上进行,聚焦三大开放世界泛化挑战:新纹理泛化、新视角泛化、与新物体位置泛化。

结果表明:随着GigaWorld-0生成数据在训练混合数据中比例的提升,GigaBrain-0在上述三类泛化场景下的任务成功率与动作精度均呈现显著且稳定的增长趋势。

项目链接:
https://giga-world-0.github.io/
论文链接:
https://arxiv.org/pdf/2511.19861
代码链接:
https://github.com/open-gigaai/giga-world-0

关于极佳视界

极佳视界成立于2023年,是国内第一家“纯血”物理AI公司——创业就以世界模型为切入点,专注于「世界模型平台 x 具身基础模型」,致力以双轮闭环走向物理世界通用智能。

在「世界模型」方向,极佳视界是国内技术创新和产业落地的领跑者,相关产品技术已广泛应用于自动驾驶、具身智能、内容创作等相关方向。

在「具身大脑」方向,极佳视界通过全球领先的「世界模型平台」提供大规模高质量闭环数据,相比纯真机数据训练效率提升1-2个数量级以上,同时真机效果达到国内领先。

极佳视界的创始人兼CEO黄冠,是清华大学自动化系AI方向博士。曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人&算法副总裁等知名企业技术和高管岗位,并拥有三星中国研究院、微软亚洲研究院等顶尖研究机构工作经历。

黄冠之外,联合创始人、首席科学家朱政同样有清华自动化系背景。他2019年博士毕业于中国科学院自动化研究所,此后在清华大学自动化系从事博士后研究。Google Scholar显示,朱政的论文被引数达到1.7w+,h-index为50。

公司核心团队还包括清华、北大、中科院、中科大、WashU、CMU等全球知名院校顶尖研究人员,以及来自微软、三星、地平线、百度、博世、NBC环球影业等全球知名企业高管,核心团队兼具业内领先的研究能力和大规模的产业落地经验。

目前,极佳视界是国内少有在「世界模型」和「具身大脑」方向都拥有世界级综合实力的团队,在自动驾驶世界模型方向已经和多个头部主机厂达成签约合作,在具身世界模型、具身大脑等方向已经和多个具身本体、终端公司达成签约合作,应用于科研、教育、展览、数据采集、工业、服务、家庭等多个场景。

就在11月,极佳视界刚刚完成亿元级A1轮融资,由华为哈勃、华控基金联合投资。这也是该公司两个月内连续完成的第三轮融资。

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
投票结果一边倒!欧洲议会503票赞成,全面反华?中国接下挑战书

投票结果一边倒!欧洲议会503票赞成,全面反华?中国接下挑战书

知鉴明史
2026-01-24 17:44:10
平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

哄动一时啊
2026-01-24 21:29:54
晚年的陈独秀,如何看透苏联的真相?

晚年的陈独秀,如何看透苏联的真相?

凭阑听史
2026-01-24 18:15:48
美国“退群”,加州“入群”

美国“退群”,加州“入群”

极目新闻
2026-01-24 18:34:19
雪豹咬伤后续!女游客很漂亮,已经毁容,知情人曝内幕,被咬不冤

雪豹咬伤后续!女游客很漂亮,已经毁容,知情人曝内幕,被咬不冤

今日搞笑分享
2026-01-25 14:43:33
北京今天的雪什么时候来?最新预报

北京今天的雪什么时候来?最新预报

鲁中晨报
2026-01-25 13:47:03
美国放话:谁敢拦截军售,就是宣战!中国用实力划下红线!

美国放话:谁敢拦截军售,就是宣战!中国用实力划下红线!

华山穹剑
2026-01-23 20:19:29
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
毒鸡汤害人啊!上海一37岁单身女被问到“你不结婚是否幸福”飙泪

毒鸡汤害人啊!上海一37岁单身女被问到“你不结婚是否幸福”飙泪

火山诗话
2026-01-24 17:57:14
一夜之间全黑了!上海多家商铺报警!

一夜之间全黑了!上海多家商铺报警!

看看新闻Knews
2026-01-24 13:37:13
简单聊聊我国2025年792万的出生人口,多年来首次低于西方国家出生人口

简单聊聊我国2025年792万的出生人口,多年来首次低于西方国家出生人口

宁南山
2026-01-25 08:33:37
北京独生女被外地前男友殴打致残!劣迹男霸占房产的方式太极端

北京独生女被外地前男友殴打致残!劣迹男霸占房产的方式太极端

奇思妙想草叶君
2026-01-24 23:18:55
离谱!挪威帝王蟹堆成山,中国人买一只却要花上千,原因太现实

离谱!挪威帝王蟹堆成山,中国人买一只却要花上千,原因太现实

掉了颗大白兔糖
2026-01-25 07:34:58
即将进入高峰!2月2日开始,持续40天!

即将进入高峰!2月2日开始,持续40天!

大象新闻
2026-01-25 17:53:09
同方股份原总裁、董事长陆致成去世,曾推动组建清华同方股份有限公司并上市

同方股份原总裁、董事长陆致成去世,曾推动组建清华同方股份有限公司并上市

红星资本局
2026-01-25 15:21:52
女子被雪豹咬伤后续:正脸曝光,知情人曝内幕,女子状态让人担忧

女子被雪豹咬伤后续:正脸曝光,知情人曝内幕,女子状态让人担忧

以茶带书
2026-01-24 17:15:26
157分钟鏖战!中国金花绽放澳网:决胜盘9-10反转,16进8对手确定

157分钟鏖战!中国金花绽放澳网:决胜盘9-10反转,16进8对手确定

刘姚尧的文字城堡
2026-01-25 16:27:11
笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

火山诗话
2026-01-25 08:28:32
“精液”真的可以预防妇科疾病吗?医生直言:不要害羞,早知早好

“精液”真的可以预防妇科疾病吗?医生直言:不要害羞,早知早好

医者荣耀
2025-09-09 12:05:05
国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

生命之泉的奥秘
2026-01-25 06:30:36
2026-01-25 19:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12058文章数 176362关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

游客自称爬衡山时挂脖子上80克金牌遗失 价值超10万元

头条要闻

游客自称爬衡山时挂脖子上80克金牌遗失 价值超10万元

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

亲子
游戏
教育
数码
军事航空

亲子要闻

她是折翼的蝴蝶宝贝,却也是被父母捧在手心的无价之宝!!素材来源

《怪猎物语3》艺术插画公开!火龙骑士御风飞翔

教育要闻

看似复杂,尖子生一个技巧口算

数码要闻

AMD核显规划分化,中端APU将沿用RDNA3.5旧架构直至2029年

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版