银河通用LDA定义全域数据利用范式，跨本体世界动作大模型|机器人|lda

分享至

衡宇 Jay 发自凹非寺
量子位 | 公众号 QbitAI

当下的具身智能赛道，已经卷成两大技术流派的拉锯战。

纯VLA模型Physical Intelligence π0.7擅长举一反三，能适配陌生场景；世界模型派英伟达DreamZero主打「预判未来」，可零样本适配新机器人。

但这两种路线各有短板，行业迟迟没有出现能跑通能落地、可规模化的统一方案。

面对行业僵局，具身智能头部企业银河通用创新推出1.6B参数的跨本体「隐式世界-动作基础模型」LDA-1B。

LDA-1B走的是自研的WAM世界-动作融合路线。

目前，该工作成果成功登顶今年仅有210篇录用的机器人顶会RSS，项目成果代码已全面开源。

论文地址：https://arxiv.org/abs/2602.12215
项目链接：https://pku-epic.github.io/LDA/
代码地址：https://github.com/jiangranlv/LDA-1B

LDA-1B模型首次在数据层面实现虚实共融、人机混合、质量参差、有无动作标签的数据统一有效利用。

用不那么学术的话来说，这个模型在业界首次做到了「吃数据的时候不挑食」。

无论是虚拟仿真还是真实拍摄、人类视频还是机器人记录、高清画面还是模糊影像、带标注的教案还是没标注的原始素材，统统可以混在一起训练，并且都能被有效利用。

只需短短1个小时的后训练，它就能实现跨具身本体的自适应。

换句话说，它可以快速 “学会” 操控各种不同形态的机器人身体。

过去这些数据源互相水土不服，只能分开处理；现在壁垒被LDA-1B打破，数据获取与标注成本大幅降低，AI能从更广泛、更便宜的来源中学习。

回顾GPT-2之于大语言模型的最重要意义，就是打破了高质量标注数据的依赖枷锁，依靠海量异构数据实现持续Scaling。

反观具身智能，一直受困于数据割裂难题，难以进阶。

现在，LDA-1B打破该桎梏，解锁了具身智能的「GPT-2时刻」。

全数据高效利用，告别数据浪费

结合官方实测视频，足以直观展现LDA-1B全方位领先的核心实力。

视频开场，它就亮出三大典型场景落地潜力：

零售场景，它能利索地在货架间穿梭，分拣物品；家庭场景，它能整齐叠好衣物；工业场景，它能轻松搬运码放沉重的货物。

多样生活化、工业化场景的流畅实操，充分体现了LDA-1B模型的落地适配性。

表象之外，想要真正看懂差异化优势，还要从主流模型的现有缺陷讲起。

行业普遍认为，只要积累足够丰富的专家操作样本，模型就能自主习得完整的行动逻辑与操作能力。

但这套技术路线本身存在明显局限，整体十分依赖高水准训练数据。

高质量数据的获取门槛一直居高不下，远程操控采集和精细内容标注，再加上复杂的动作空间统一工作，都会持续拉高整体成本，也让数据体量很难实现大范围扩充。

就算借助仿真数据来补充训练数据，虚拟环境和现实场景的天然差距，也会带来明显的落地适配问题。

除此之外，行业还长期浪费着海量闲置资源，纯视觉的人类第一视角素材，含有大量干扰信息的粗糙运动记录，以及不同机器人设备产出的差异化内容，都难以被传统框架吸收学习。

这个LDA-1B做了一件行业没人敢做的事——把别人眼里的「无用数据」全拿来训练了。

LDA-1B出来之前，全行业其实都没真正吃透所有具身数据。

为了打破这个桎梏，银河通用构建了完整的数据基础设施「银河星数（AstraData）」，并在LDA-1B中实现对全类数据的统一完整运用。

围绕这一体系，银河通用构建了一个金字塔式自下而上的五层数据结构：

互联网图像/视频/文本数据（底层）：规模最大、成本最低，用于构建基础感知与语义理解能力，但与具体动作执行相关性较弱；
人类行为数据（次底层）：提供动作先验与任务理解，将“视觉认知”连接到“行为语义”；
多本体合成仿真数据（中间层，银河自研合成数据管线产出）：以物理一致性为约束，大规模生成可控、多样的机器人交互数据，实现从认知到执行的关键过渡；
真实遥操作数据（高层）：提供高质量动作示范，但规模与采集效率受限；
真实机器人自主运行数据（顶层）：来自真实部署环境的闭环数据，直接反映系统在现实世界中的运行表现，并持续驱动强化学习与系统优化。

此外，不同质量的数据也被分配不同的训练角色，各司其职，物尽其用。

高质量专家轨迹：同时学习策略和动力学，定义什么是好的动作。
低质量/噪声数据：只用于前向和逆向动力学。动作可能是错的，但世界对动作的响应是真实的。一个人把杯子碰倒了，杯子倒下去的物理过程，不会因为「这个操作水平不行」就变得不真实。
无动作标注的人类视频：用于视觉预测。没有动作信号，但人类操作的时序结构和交互模式全都在画面里。

在这一框架下，数据不再被简单划分为「有用或无用」，而是被系统性重组进统一的世界-动作模型之中。

这就是LDA-1B所说的「通用数据摄入范式」。

没有垃圾数据，只有因训练框架被「错付」的数据。把对的数据放到对的训练目标里，每一帧都有价值。

这一范式在LDA-1B中首次展现出清晰的规模化特征。

随着训练数据从5000小时扩展至30000小时，LDA‑1B的动作预测误差持续下降，呈现稳定的单调改善趋势。

相比之下，仅采用策略学习的基线模型在引入低质量数据后性能明显退化。

规模化实验结果，给出了最有力的证明。

当所有有动作标注的数据耗尽后，继续加入超过10000小时无动作标注的人类视频，LDA‑1B的性能依然能够持续提升。

这一点，是传统行为克隆（BC）及既有世界模型方法难以实现的。

具身智能的规模化发展，第一次不再被高质量专家数据的稀缺性所限制，海量高低质量、有无标签的异构数据，都能成为模型能力持续增长的动力。

它标志着具身智能开始真正进入以数据驱动的规模化发展阶段。

跳出二元局限，铸就跨本体通用能力

LDA-1B走出了区别于纯VLA、纯世界模型的第三条技术路线。

纯世界模型难落地成实际动作，纯VLA模型不理解行为后果。

LDA-1B选择在单一扩散模型框架内把两者完美融合，同时在一个模型里学习四大核心能力：

策略学习:根据当前观测直接生成动作，这是VLA的能力。
前向动力学:根据当前状态和动作，预测下一时刻的视觉状态，这是世界模型的能力。
逆向动力学:根据前后两个状态，反推中间执行了什么动作。
视觉预测:不需要动作输入，直接预测未来的视觉轨迹。

四类能力协同优化，构建起「感知—决策—交互—反馈」的完整闭环。

模型不仅知道「该怎么做」，更能理解「这么做会改变什么」。

通过一个MM-DiT（多模态扩散Transformer）构建，将动作策略学习与世界建模统一建模。

不同于传统的世界模型容易在灯光、纹理等像素级的细节上消耗过多算力，LDA-1B选择在紧凑的DINO的潜空间（Latent Space）中建模动力学，将注意力完全放在物体的结构和动作的本质上。

这种抓大放小的策略，让它在处理具体操控、灵巧操控以及长程操作等复杂任务时，表现远超其它模型，性能提升高达48%。

为了探寻LDA-1B的有效性和实际效果，研究团队进行了一系列实验。

研究团队申明，所有测试使用的机器人本体——包括搭载双指夹爪或22自由度灵巧手的Galbot G1、搭载10自由度灵巧手的Unitree G1——都没有在预训练数据集中出现过，属于严格的少样本跨本体泛化。

实测里LDA-1B的表现一骑绝尘。

夹爪取放、物体交接，超高难度长程任务，秒杀GR00T-N1.6和π0.5。

面对未知位置、新物体、变化背景等分布外扰动，以及各类灵巧手操作，LDA-1B同样全方位领先现有顶尖模型，执行与泛化能力拉满。

从锅里翻捡牛排盛到盘子里，再撒点黑胡椒粉这种事，对搭载LDA-1B模型的机器人来说，真·小菜一碟。

比如精准预判「推动扫帚会带动纸团位移」的物理逻辑，这也是其攻克长程任务、灵巧操作难题的核心关键。

团队在实验过程中，验证了一个行业反直觉结论：

在下游任务微调中加入包含大量失败和不稳定操作的遥操作数据，π0.5性能下降，LDA-1B性能反而提升10%。

不管是曾经被定义为「低质量」的数据，还是那些「不可用」的数据，现在统统都可以被LDA吃干榨尽。

整体而言，LDA-1B完成了模型能力与硬件适配的全域归一，突破单一技术路线、单一机器人本体的能力局限，实现多场景、多硬件、多任务的通用化作业能力。

全链路闭环，开启具身规模化时代

复盘行业两大主流路线的底层缺陷，不难发现，两者的天花板很明显。

纯VLA路线无法脱离专家数据掣肘，难以规模化；传统世界模型受像素空间制约，参数扩容无法带来有效增益。

而LDA-1B依托WAM统一框架，凭借DINO结构化表征、四任务协同训练、全量数据分工复用三大核心革新，补齐了具身智能规模化进化的全部条件，构建起可持续自我迭代的底层范式。

不同于行业传统的「数据筛选」模式，LDA-1B建立的「数据组织」范式，让海量异构数据持续为模型进化赋能，成功复刻大模型的Scaling增长逻辑，让机器人真正拥有自主学习、持续进化的通用智能能力。

在产业落地层面，LDA-1B是银河通用银河星脑全人形通用基础模型体系的关键闭环，它嵌入在「银河星脑（AstraBrain）」的完整技术体系之中：

从「银河星数」所构建的数据基础设施，到跨本体的世界-动作基础模型，再到面向真实场景的持续部署与反馈学习闭环，为实体场景规模化落地筑牢技术根基。

依托成熟完备的技术管线，银河通用将工厂工业、家庭起居作为核心落地主战场，针对性打磨适配两类高频刚需场景的通用具身能力。

在工厂场景，模型可适配复杂工业产线环境，完成柔性搬运、精密操作、巡检运维、流程辅助等多元化作业，适配多品类工厂非标化需求，降低产线智能化改造成本，助力工业自动化提质增效。

在家庭场景，可深度适配居家复杂动态环境，覆盖全屋家务打理、老人儿童陪护、居家安全巡检、生活化便民操作等日常需求，打破家庭服务机器人功能单一、环境适配差的行业痛点，真正落地普惠型家庭智能服务。

在此两大核心场景之外，同步延伸至零售等细分领域，形成主次分明、重点突出的落地布局，推动具身智能从实验室演示技术，升级为可落地、可复用、可创造价值的生产力基础设施。

生态层面，银河通用秉持开放共建理念，已开源基于公开数据训练的LDA-1B模型版本。

打破行业封闭迭代壁垒，为全球具身智能研究提供通用、高效的技术底座，加速全行业技术跃迁。

从技术模型、数据资源到产业生态，LDA-1B完成了全维度的全域归一，构建起技术可迭代、数据可循环、产业可落地的完整闭环，牢牢坐稳国内具身智能赛道的技术与估值龙头地位。

技术与产业的双重突破，让这家公司获得了资本市场的高度认可。

截至2026年4月，银河通用已是国内估值最高的未上市具身智能企业，估值超200亿元。

而LDA-1B的问世，再度夯实了企业的核心技术壁垒与行业领先的产业价值。

归根结底，LDA-1B的价值早已超越榜单跑分的浅层竞争。

它解答了具身智能领域最本质的命题：

依托WAM世界-动作统一框架，机器人是否可以复刻LLM的规模化逻辑，从海量异构数据中持续认知世界、迭代进化？

就这个问题，LDA-1B用自身给出了肯定的答案。

从GPT大模型的文本智能，到LDA-1B的机器人具身智能，统一建模、全量数据驱动的规模化逻辑一脉相承。

银河通用将这套成熟的AI进化范式落地机器人领域，正式拉开了具身智能规模化、通用化、产业化的全新序幕。

One More Thing

去年3月，银河通用就率先提出并实践了将World Model（世界模型）与Action Model（动作模型）统一的框架WAM（World-Action Model）。

感兴趣的小伙伴可以跳转论文《DyWA: Dynamics-adaptive World Action Model》。

该论文在全球范围内首次对WAM的概念进行结构化定义，并在接触动力学复杂的任务实现了成功的验证。

DyWA创新性引入动态自适应机制，突破了传统操控模型泛化弱、动态适配不足的痛点，为具身智能与非抓取操控研究提供全新思路，学术价值突出。

在产业端，该模型显著提升机器人复杂场景作业能力，降低落地适配成本，有效赋能服务机器人、柔性工业操作等场景，加速通用具身智能技术落地与产业化进程。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.