网易首页 > 网易号 > 正文 申请入驻

超越VLA与世界模型,银河通用发布LDA,全谱系数据跑通Scaling Law

0
分享至



编辑|+0

近期,具身智能领域俨然是神仙打架。

先是 Generalist AI 发布 GEN-1 引发行业震动,以极高的数据效率和闭环控制能力刷新了各项操作纪录。

两周之后,具身赛道的另一位重量级玩家 Physical Intelligence 也发布了新模型 π 0.7,主打「组合与泛化」,实现了对 VLA 架构的进一步升级。

尽管两者的技术哲学迥异,但它们都在试图解决同一个核心痛点:数据。

在语言模型的发展历程中,GPT-2 之所以成为关键里程碑,是因为它让语言模型不再依赖少量高质量标注数据,进入了持续 Scaling 的时代。

但在具身智能领域,这个问题尚未被真正解决:机器人,该怎么把这些乱糟糟的真实世界数据「吃」进去?

就在这一背景下,银河通用联合清华北大英伟达等众多机构联合发布了跨本体「隐式世界-动作基础模型」LDA-1B,将目光投向了具身智能 Scaling Law 的这个终极命题:如何让模型有效利用互联网规模的异构数据。

简单来说,LDA-1B 是一个在隐式空间中统一世界模型与 VLA 的基础模型,凭借对异构数据的全面整合,它处理了超过 3 万小时的各类具身数据,最核心的突破在于:无论是虚拟与现实的数据(虚实共融),人类操作与机器采集的记录(人机混合),优质示范与低质量的「脏数据」(质量参差),甚至是有无动作标签的素材,它都能实现统一且有效的利用。

换句话说:一个模型,开始能够「充分利用全部数据,并让所有数据各尽其用」。



LDA-1B 核心架构总览:通过统一的隐空间动力学,实现对 3 万小时海量异构数据的通用摄取。

在 RoboCasa-GR1 基准测试中,LDA-1B 以 55.4% 的成功率超越 GR00T-N1.6(47.6%)和 π 0.5,并在真实世界灵巧操作与长程任务中展现出显著优势。

值得一提的是,该研究论文已成功被机器人领域顶级会议 RSS 接收(今年仅有 210 篇录用),目前该模型代码已正式开源。



  • 论文标题:LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
  • 论文地址:https://arxiv.org/abs/2602.12215
  • 项目链接:https://pku-epic.github.io/LDA/
  • 代码地址:https://github.com/jiangranlv/LDA-1B

喂什么,怎么喂?

要理解 LDA-1B 的突破,首先要看它吃下了什么。

长期以来,真实机器人数据规模有限,人类视频缺乏动作标注,而仿真数据又面临真实性约束,导致不同类型的数据彼此割裂。

这次银河通用的突破,离不开其构建的完整数据基础设施——银河星数(AstraData)。基于这一体系,他们搭建了一个「五层数据金字塔」:囊括了互联网数据(底层)、人类行为数据(次底层)、多本体合成仿真数据(中间层)、真实遥操数据(高层)以及真机自主运行数据(顶层)。



为了支撑这个 1.6B 参数的基础模型,研究团队基于这套体系构建了极具规模的通用具身交互数据集EI-30K

但在把数据喂给模型之前,有两个棘手的问题必须解决。

第一个问题是格式与动作对齐。

机器人数据和人类数据来自不同设备,执行器更是五花八门(夹爪、灵巧手、吸盘)。团队不仅将其全部转换成标准的 LeRobot 格式,更首次系统性地提出了「统一末端执行器动作空间」的跨本体解决方案。



对于机器人,这被定义为 6-DoF 末端执行器位姿加上夹爪宽度或灵巧手关节;对于人类,则是 6-DoF 手腕位姿和完整的 MANO 手部参数。

这使得模型不再需要去死记硬背「某台机器人的关节怎么动」,而是将所有动作统一映射到「手如何与物体发生作用」的物理本质上,为跨本体泛化扫清了障碍。

第二个问题是,数据质量良莠不齐,怎么用?

传统做法是只用专家数据,把低质量的直接丢掉。LDA-1B 的选择不一样,它采用按质分配,让每一类数据做它最适合的事:

高质量带动作数据:全面参与策略学习和动力学训练,享有最高权限。

次优 / 嘈杂动作数据:不参与策略学习,专门用于动力学和视觉预测训练。动作做错了没关系,杯子掉在地上、重力导致的碰撞等物理规律是真实可靠的。它通过动力学分支从这些低质量数据中汲取有效信息,实验显示,加入 30% 的低质量轨迹后,模型任务成功率反而提升了 10%。

无动作纯视频:主要是人类第一视角视频。它们全被投入到视觉预测任务中,让模型在没有动作标签的情况下,纯靠「看」来吸收关于物理世界如何自然演化的视觉先验。

这带来的变化非常大:低质量数据不再是废料、无标注视频也能直接参与训练。



正是这种最科学的数据分工,让具身智能的数据规模得以直接放大,也真正在逻辑上为通用机器人走向零售拣选、工业搬运和家庭服务等大规模商业部署铺平了道路。



VLA 和世界模型,能不能不二选一?

有了海量数据,接下来就是用什么模型来消化它们。

过去几年,主流答案是前文 π 0.7 所代表的 VLA:看图、听指令、输出动作,链路干净,响应也快。但它本质上是在做海量数据的模式匹配,缺乏真正的物理常识。一旦遇到重心偏移、摩擦力突变等没见过的物理边界情况,就极易翻车。

另一条路是世界模型。它不急着输出动作,而是先在脑子里预测未来:如果我这么做,世界会怎么变?但在「如何表征这个世界」上,大多世界模型主要侧重像素级视频的生成,虽然视频逼真,但物理动力学并不是学习的重点

LDA-1B 的思路,是干脆别选了,直接在隐空间里深度融合。

它引入了将 World Model 与 Action Model 统一的WAM框架。虽然这一方向如今已是大热点,但早在 2025 年 3 月,银河通用就发表了论文,在全球范围内首次对 WAM 的概念进行了结构化定义。





LDA-1B 正是这一前瞻路线的自然延伸,它让模型在统一框架下同时学习四类能力:策略学习、前向动力学、逆向动力学、视觉预测。



从命名就能看出这一点——Latent Dynamics Action Model:隐空间中建模世界的状态变化,同时直接输出可执行的动作策略。

怎么实现「一个模型,四种能力」?

具体到执行层面,LDA-1B 是如何让一切运转起来的?答案在于三个统一。

第一步:统一任务形式

在 LDA-1B 里,策略学习、前向动力学、逆向动力学与视觉预测全部被改写成同一种形式:预测未来的状态 + 预测未来的动作。

为了在同一个网络里搞定这件事,模型引入了「任务嵌入(Task Embedding)」和「寄存器 Token(Register Token)」机制 。

通过激活不同的 Task Embedding,模型可以在四种模式间灵活切换 。比如专心做「策略控制」时,就用一个视觉 Register Token 占住未来画面的坑位,全力推演动作;做「视觉预测」时则反过来 。

这也就是说,模型不再死板地划分「控制」和「建模」。通过巧妙的 Token 切换,所有的任务都被转化成了同一道「填空题」的不同变种,在同一套网络底层里自如流转。

第二步:统一表征空间

统一任务之后,还有一个问题:在哪个空间里统一?

LDA-1B 的选择是:不用像素,用 DINO latent。

传统的像素级模型或使用 VAE 重构的隐空间,很容易将物体的几何结构、外观和动态变化糅合在一起(比如把算力浪费在预测背景墙纸的光影变化上),导致大规模训练效率极低。

DINO 特征的特点是:对杂乱背景不敏感,但对物体的语义和空间几何结构极度敏感。这让模型在推演物理规律时,能专注于「物体的交互与状态改变」,而不是外观本身。



换句话说:LDA-1B 不是在「看世界」,而是在「理解结构化的世界」。这一步从根本上决定了它为什么能 Scale。

第三步:统一模型架构

统一任务 + 统一表征之后,最后一步:用什么模型去学?

LDA-1B 选择了多模态 Diffusion Transformer(MM-DiT)。它同时处理两条流:动作序列和未来视觉,通过共享注意力机制让两者互相影响。



一句话总结就是:动作和视觉是分开的,但「思考过程」是共享的。

这带来一个很关键的效果:模型在预测动作时,会参考「未来世界会变成什么样」;在预测世界时,也会考虑「动作会带来什么影响」。

其本质就是:把因果关系写进了注意力结构里。

三步加在一起——统一任务形式、统一表征空间、统一模型架构——让模型在同一套框架里,同时学会「怎么动」和「世界会怎么变」。此时,它才真正拥有了一个统一的「大脑」:既能做敏锐的行动者,又能化身精准的预测家。

理论讲完了,看看实战效果

在实验部分,LDA-1B 在多个维度上展现了这种一体化架构带来的降维打击。

得益于这种结构化隐空间带来的一体化架构,LDA-1B 无论是在任务成功率还是泛化表现上,都以极具说服力的数据,直接秒杀了包括大参数 GR00T 、π 0.5 在内的一众现有模型。





团队做了个消融实验:把 LDA-1B 里的 DINO 隐空间,换回传统的 VAE 像素级重构,其他什么都不动。结果:成功率从 55.4% 跌到 20.0%,直接腰斩。所以 DINO 隐空间不是加分项,它是 Scaling Law 能在具身智能上跑通的前提。

走进工厂与家庭

到了真实世界(Galbot 和 Unitree 机器人),LDA-1B 在真实场景中所展现出的「灵性」,才是其最具震撼力的地方。

通过演示视频的,我们可以清晰地看到该模型如何突破传统具身智能的瓶颈,真正解决商业落地的痛点。

面对此前从未出现在预训练数据集中的 Galbot 机器人,LDA-1B 展现了极强的少样本跨本体泛化能力,这改变了以往机器人换个底座就要重新训练周期的困境。



LDA-1B 仅需约 1 小时的后训练数据,就能迅速理解新硬件的动力学特性。这种极高的适配效率,是模型能够从实验室走向零售门店、物流仓库等多元环境的基础。

在典型的长程任务中,机器人需要应对严格的步骤依赖:



接到指令后,机器人必须按序完成叠放、转移、摆盘与加料,任意一步抓取或放置失误都会导致后续全乱;用户改变指令以后,也能理解意图变更并实时调整动作序列,自主纠偏完成新目标。

同时,在高自由度灵巧手方面,面对摩擦力极度复杂的「翻牛排」任务,LDA-1B 凭借对物理常识的深刻理解,实现了超高成功率,证明它不是单纯的动作模仿,而是真正掌握了接触性任务的物理逻辑。

将一排杯子精确叠成金字塔形,每一层的堆叠都依赖上一层的稳定,对双臂协同与力控提出极高要求。



传统模型常因单步误差累积导致全盘失败,而 LDA-1B 凭借在隐空间进行的动力学推演,能够预测动作的物理后果并实时纠偏。

结语

回头看这一波具身智能的浪潮,轨迹和 LLM 的发展惊人地相似。

最早大家手工写规则;后来发现大力出奇迹,开始用海量数据做行为克隆;而现在,单靠模仿已经摸到了物理常识的天花板。银河通用的 LDA-1B 给出了一种很有意思的思路:通过一个统一的模型,把所有异构数据都用好,既能「深思熟虑」,又能「说动就动」,终于能像语言模型一样,从海量异构数据中持续学习世界本身。

目前,银河通用已将 LDA-1B 的核心算法与代码体系全面开源,希望推动行业从封闭优化走向开放共建。更重要的是,这一能力并非孤立存在,它将作为核心的通用数据吞吐与跨本体学习能力,快速汇入银河通用的全人形通用基础模型——「银河星脑(AstraBrain)」中。

在未来的路线图里,团队已经明确了几个关键的进化方向:首先是尝试将视觉表示与隐空间动力学进行端到端的联合学习,不再受限于固定特征;其次是引入更丰富的感知模态,并探索如何自动优化不同质量数据在训练中的分工角色。



文中视频链接:https://mp.weixin.qq.com/s/ShFejS4jjsPwuUME9KYKnw

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汪东兴回忆:教员深入虎穴,挫败林彪惊天暗杀阴谋,过程太惊险了

汪东兴回忆:教员深入虎穴,挫败林彪惊天暗杀阴谋,过程太惊险了

南冥那只猫
2025-04-19 12:06:43
2026-2032房价大预测:现在价值200万的房子,5年后还值多少钱

2026-2032房价大预测:现在价值200万的房子,5年后还值多少钱

童童聊娱乐啊
2026-04-29 14:08:21
米饭被点名!医生直言:米饭冷冻24小时,抗性淀粉翻倍控糖护肠

米饭被点名!医生直言:米饭冷冻24小时,抗性淀粉翻倍控糖护肠

路医生健康科普
2026-04-26 19:55:03
京东某员工:房贷月供2万+,媳妇全职在家带娃,绩效B-,怕被裁员

京东某员工:房贷月供2万+,媳妇全职在家带娃,绩效B-,怕被裁员

蚂蚁大喇叭
2026-04-29 12:54:07
5-4!欧冠史上最疯狂的一夜!大巴黎赢了比赛,拜仁则赢得希望!

5-4!欧冠史上最疯狂的一夜!大巴黎赢了比赛,拜仁则赢得希望!

田先生篮球
2026-04-29 05:56:27
马刺114-95淘汰开拓者!文班创80年NBA纪录,前无古人

马刺114-95淘汰开拓者!文班创80年NBA纪录,前无古人

篮球大视野
2026-04-29 12:54:18
特朗普:伊朗刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:已绝对控制霍尔木兹,通过须缴费、用波斯语通讯

特朗普:伊朗刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:已绝对控制霍尔木兹,通过须缴费、用波斯语通讯

每日经济新闻
2026-04-28 22:58:06
NBA敲定反摆烂方案!命名3-2-1乐透规则 将于2027年选秀生效

NBA敲定反摆烂方案!命名3-2-1乐透规则 将于2027年选秀生效

罗说NBA
2026-04-29 06:06:03
越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

正观历史
2026-04-29 14:04:21
有变化!最新上海“五一”假期天气

有变化!最新上海“五一”假期天气

上海预警发布
2026-04-29 16:50:04
山西大同“订婚强奸案”男子将于5月4日出狱,母亲:为儿子买了新衣,计划亲自去接,带他回归正常生活

山西大同“订婚强奸案”男子将于5月4日出狱,母亲:为儿子买了新衣,计划亲自去接,带他回归正常生活

大风新闻
2026-04-28 17:18:06
3个前任都是大人物,为何阿sa却嫁给了健身教练?答案俗套又露骨

3个前任都是大人物,为何阿sa却嫁给了健身教练?答案俗套又露骨

揽星河的笔记
2026-04-28 22:48:59
斯诺克赛程:中国双星冲4强,赵心童生死战,吴宜泽或再创纪录?

斯诺克赛程:中国双星冲4强,赵心童生死战,吴宜泽或再创纪录?

刘姚尧的文字城堡
2026-04-29 09:26:27
湖人vs火箭G5伤病报告:东契奇杜兰特伤停 里夫斯出战成疑或复出

湖人vs火箭G5伤病报告:东契奇杜兰特伤停 里夫斯出战成疑或复出

醉卧浮生
2026-04-29 08:54:16
77岁的吴敬中收到余则成的遗物,才彻底明白当年峨眉峰的真相

77岁的吴敬中收到余则成的遗物,才彻底明白当年峨眉峰的真相

卡西莫多的故事
2026-04-24 11:52:30
12家门店一夜关停!又一网红餐饮品牌倒下了?

12家门店一夜关停!又一网红餐饮品牌倒下了?

红餐网
2026-04-29 10:59:10
丑哭了!迪奥活动上的热巴,造型真的一言难尽,王亚飞被骂上热搜

丑哭了!迪奥活动上的热巴,造型真的一言难尽,王亚飞被骂上热搜

阿纂看事
2026-04-29 10:50:24
大陆为什么不拦?美最后一批坦克送达台岛,博主:他们甚至没保密

大陆为什么不拦?美最后一批坦克送达台岛,博主:他们甚至没保密

混沌录
2026-04-28 21:04:57
阿联酋发表声明:自5月1日起退出欧佩克及欧佩克+

阿联酋发表声明:自5月1日起退出欧佩克及欧佩克+

财联社
2026-04-28 20:24:29
终于来了,特斯拉推送重要更新!

终于来了,特斯拉推送重要更新!

花果科技
2026-04-29 16:01:53
2026-04-29 17:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12889文章数 142640关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

俄首富超级游艇穿越霍尔木兹海峡:6层甲板 25米长泳池

头条要闻

俄首富超级游艇穿越霍尔木兹海峡:6层甲板 25米长泳池

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

曾经的新能源首富,希望又破了!

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

艺术
房产
亲子
本地
游戏

艺术要闻

这些女神,竟然都是摄影师切尔尼亚季耶夫的复古作品!

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

亲子要闻

5年的备孕道路说清楚DHEA 正确服用方法

本地新闻

用青花瓷的方式,打开西溪湿地

《卡片魔王:只剩个头!》评测:手快动两下"/> 主站 商城 论坛 自运营 登录 注册 《卡片魔王:只剩个头!》评测:手快动两下 Haine 2026-0...

无障碍浏览 进入关怀版