网易首页 > 网易号 > 正文 申请入驻

银河通用LDA定义全域数据利用范式,跨本体世界动作大模型

0
分享至

衡宇 Jay 发自 凹非寺
量子位 | 公众号 QbitAI

当下的具身智能赛道,已经卷成两大技术流派的拉锯战。

纯VLA模型Physical Intelligence π0.7擅长举一反三,能适配陌生场景;世界模型派英伟达DreamZero主打「预判未来」,可零样本适配新机器人。

但这两种路线各有短板,行业迟迟没有出现能跑通能落地、可规模化的统一方案。

面对行业僵局,具身智能头部企业银河通用创新推出1.6B参数的跨本体「隐式世界-动作基础模型」LDA-1B

LDA-1B走的是自研的WAM世界-动作融合路线。

目前,该工作成果成功登顶今年仅有210篇录用的机器人顶会RSS,项目成果代码已全面开源




论文地址:https://arxiv.org/abs/2602.12215
项目链接:https://pku-epic.github.io/LDA/
代码地址:https://github.com/jiangranlv/LDA-1B

LDA-1B模型首次在数据层面实现虚实共融、人机混合、质量参差、有无动作标签的数据统一有效利用。

用不那么学术的话来说,这个模型在业界首次做到了「吃数据的时候不挑食」

无论是虚拟仿真还是真实拍摄、人类视频还是机器人记录、高清画面还是模糊影像、带标注的教案还是没标注的原始素材,统统可以混在一起训练,并且都能被有效利用。



只需短短1个小时的后训练,它就能实现跨具身本体的自适应。

换句话说,它可以快速 “学会” 操控各种不同形态的机器人身体。

过去这些数据源互相水土不服,只能分开处理;现在壁垒被LDA-1B打破,数据获取与标注成本大幅降低,AI能从更广泛、更便宜的来源中学习。

回顾GPT-2之于大语言模型的最重要意义,就是打破了高质量标注数据的依赖枷锁,依靠海量异构数据实现持续Scaling。

反观具身智能,一直受困于数据割裂难题,难以进阶。

现在,LDA-1B打破该桎梏,解锁了具身智能的「GPT-2时刻」

全数据高效利用,告别数据浪费

结合官方实测视频,足以直观展现LDA-1B全方位领先的核心实力。

视频开场,它就亮出三大典型场景落地潜力:

零售场景,它能利索地在货架间穿梭,分拣物品;家庭场景,它能整齐叠好衣物;工业场景,它能轻松搬运码放沉重的货物。



多样生活化、工业化场景的流畅实操,充分体现了LDA-1B模型的落地适配性。

表象之外,想要真正看懂差异化优势,还要从主流模型的现有缺陷讲起。

行业普遍认为,只要积累足够丰富的专家操作样本,模型就能自主习得完整的行动逻辑与操作能力。

但这套技术路线本身存在明显局限,整体十分依赖高水准训练数据

高质量数据的获取门槛一直居高不下,远程操控采集和精细内容标注,再加上复杂的动作空间统一工作,都会持续拉高整体成本,也让数据体量很难实现大范围扩充。

就算借助仿真数据来补充训练数据,虚拟环境和现实场景的天然差距,也会带来明显的落地适配问题。

除此之外,行业还长期浪费着海量闲置资源,纯视觉的人类第一视角素材,含有大量干扰信息的粗糙运动记录,以及不同机器人设备产出的差异化内容,都难以被传统框架吸收学习。

这个LDA-1B做了一件行业没人敢做的事——把别人眼里的「无用数据」全拿来训练了。

LDA-1B出来之前,全行业其实都没真正吃透所有具身数据。

为了打破这个桎梏,银河通用构建了完整的数据基础设施「银河星数(AstraData)」,并在LDA-1B中实现对全类数据的统一完整运用。



围绕这一体系,银河通用构建了一个金字塔式自下而上的五层数据结构:

  • 互联网图像/视频/文本数据(底层):规模最大、成本最低,用于构建基础感知与语义理解能力,但与具体动作执行相关性较弱;
  • 人类行为数据(次底层):提供动作先验与任务理解,将“视觉认知”连接到“行为语义”;
  • 多本体合成仿真数据(中间层,银河自研合成数据管线产出):以物理一致性为约束,大规模生成可控、多样的机器人交互数据,实现从认知到执行的关键过渡;
  • 真实遥操作数据(高层):提供高质量动作示范,但规模与采集效率受限;
  • 真实机器人自主运行数据(顶层):来自真实部署环境的闭环数据,直接反映系统在现实世界中的运行表现,并持续驱动强化学习与系统优化。

此外,不同质量的数据也被分配不同的训练角色,各司其职,物尽其用。

  • 高质量专家轨迹:同时学习策略和动力学,定义什么是好的动作。
  • 低质量/噪声数据:只用于前向和逆向动力学。动作可能是错的,但世界对动作的响应是真实的。一个人把杯子碰倒了,杯子倒下去的物理过程,不会因为「这个操作水平不行」就变得不真实。
  • 无动作标注的人类视频:用于视觉预测。没有动作信号,但人类操作的时序结构和交互模式全都在画面里。

在这一框架下,数据不再被简单划分为「有用或无用」,而是被系统性重组进统一的世界-动作模型之中。

这就是LDA-1B所说的「通用数据摄入范式」。

没有垃圾数据,只有因训练框架被「错付」的数据。把对的数据放到对的训练目标里,每一帧都有价值。

这一范式在LDA-1B中首次展现出清晰的规模化特征。

随着训练数据从5000小时扩展至30000小时,LDA‑1B的动作预测误差持续下降,呈现稳定的单调改善趋势。

相比之下,仅采用策略学习的基线模型在引入低质量数据后性能明显退化。

规模化实验结果,给出了最有力的证明。

当所有有动作标注的数据耗尽后,继续加入超过10000小时无动作标注的人类视频,LDA‑1B的性能依然能够持续提升。

这一点,是传统行为克隆(BC)及既有世界模型方法难以实现的。



具身智能的规模化发展,第一次不再被高质量专家数据的稀缺性所限制,海量高低质量、有无标签的异构数据,都能成为模型能力持续增长的动力。

它标志着具身智能开始真正进入以数据驱动的规模化发展阶段。

跳出二元局限,铸就跨本体通用能力

LDA-1B走出了区别于纯VLA、纯世界模型的第三条技术路线。

纯世界模型难落地成实际动作,纯VLA模型不理解行为后果。

LDA-1B选择在单一扩散模型框架内把两者完美融合,同时在一个模型里学习四大核心能力:



  • 策略学习:根据当前观测直接生成动作,这是VLA的能力。
  • 前向动力学:根据当前状态和动作,预测下一时刻的视觉状态,这是世界模型的能力。
  • 逆向动力学:根据前后两个状态,反推中间执行了什么动作。
  • 视觉预测:不需要动作输入,直接预测未来的视觉轨迹。

四类能力协同优化,构建起「感知—决策—交互—反馈」的完整闭环。

模型不仅知道「该怎么做」,更能理解「这么做会改变什么」。

通过一个MM-DiT(多模态扩散Transformer)构建,将动作策略学习与世界建模统一建模。



不同于传统的世界模型容易在灯光、纹理等像素级的细节上消耗过多算力,LDA-1B选择在紧凑的DINO的潜空间(Latent Space)中建模动力学,将注意力完全放在物体的结构和动作的本质上。

这种抓大放小的策略,让它在处理具体操控、灵巧操控以及长程操作等复杂任务时,表现远超其它模型,性能提升高达48%。

为了探寻LDA-1B的有效性和实际效果,研究团队进行了一系列实验。

研究团队申明,所有测试使用的机器人本体——包括搭载双指夹爪或22自由度灵巧手的Galbot G1、搭载10自由度灵巧手的Unitree G1——都没有在预训练数据集中出现过,属于严格的少样本跨本体泛化。

实测里LDA-1B的表现一骑绝尘。

夹爪取放、物体交接,超高难度长程任务,秒杀GR00T-N1.6和π0.5。

面对未知位置、新物体、变化背景等分布外扰动,以及各类灵巧手操作,LDA-1B同样全方位领先现有顶尖模型,执行与泛化能力拉满。



从锅里翻捡牛排盛到盘子里,再撒点黑胡椒粉这种事,对搭载LDA-1B模型的机器人来说,真·小菜一碟。

比如精准预判「推动扫帚会带动纸团位移」的物理逻辑,这也是其攻克长程任务、灵巧操作难题的核心关键。

团队在实验过程中,验证了一个行业反直觉结论:

在下游任务微调中加入包含大量失败和不稳定操作的遥操作数据,π0.5性能下降,LDA-1B性能反而提升10%。

不管是曾经被定义为「低质量」的数据,还是那些「不可用」的数据,现在统统都可以被LDA吃干榨尽。

整体而言,LDA-1B完成了模型能力与硬件适配的全域归一,突破单一技术路线、单一机器人本体的能力局限,实现多场景、多硬件、多任务的通用化作业能力。

全链路闭环,开启具身规模化时代

复盘行业两大主流路线的底层缺陷,不难发现,两者的天花板很明显。

纯VLA路线无法脱离专家数据掣肘,难以规模化;传统世界模型受像素空间制约,参数扩容无法带来有效增益。

LDA-1B依托WAM统一框架,凭借DINO结构化表征、四任务协同训练、全量数据分工复用三大核心革新,补齐了具身智能规模化进化的全部条件,构建起可持续自我迭代的底层范式。

不同于行业传统的「数据筛选」模式,LDA-1B建立的「数据组织」范式,让海量异构数据持续为模型进化赋能,成功复刻大模型的Scaling增长逻辑,让机器人真正拥有自主学习、持续进化的通用智能能力。

在产业落地层面,LDA-1B是银河通用银河星脑全人形通用基础模型体系的关键闭环,它嵌入在「银河星脑(AstraBrain)」的完整技术体系之中:

从「银河星数」所构建的数据基础设施,到跨本体的世界-动作基础模型,再到面向真实场景的持续部署与反馈学习闭环,为实体场景规模化落地筑牢技术根基。

依托成熟完备的技术管线,银河通用将工厂工业、家庭起居作为核心落地主战场,针对性打磨适配两类高频刚需场景的通用具身能力。

在工厂场景,模型可适配复杂工业产线环境,完成柔性搬运、精密操作、巡检运维、流程辅助等多元化作业,适配多品类工厂非标化需求,降低产线智能化改造成本,助力工业自动化提质增效。

在家庭场景,可深度适配居家复杂动态环境,覆盖全屋家务打理、老人儿童陪护、居家安全巡检、生活化便民操作等日常需求,打破家庭服务机器人功能单一、环境适配差的行业痛点,真正落地普惠型家庭智能服务。

在此两大核心场景之外,同步延伸至零售等细分领域,形成主次分明、重点突出的落地布局,推动具身智能从实验室演示技术,升级为可落地、可复用、可创造价值的生产力基础设施。

生态层面,银河通用秉持开放共建理念,已开源基于公开数据训练的LDA-1B模型版本。

打破行业封闭迭代壁垒,为全球具身智能研究提供通用、高效的技术底座,加速全行业技术跃迁。

从技术模型、数据资源到产业生态,LDA-1B完成了全维度的全域归一,构建起技术可迭代、数据可循环、产业可落地的完整闭环,牢牢坐稳国内具身智能赛道的技术与估值龙头地位。

技术与产业的双重突破,让这家公司获得了资本市场的高度认可。

截至2026年4月,银河通用已是国内估值最高的未上市具身智能企业,估值超200亿元。

而LDA-1B的问世,再度夯实了企业的核心技术壁垒与行业领先的产业价值

归根结底,LDA-1B的价值早已超越榜单跑分的浅层竞争。

它解答了具身智能领域最本质的命题:

依托WAM世界-动作统一框架,机器人是否可以复刻LLM的规模化逻辑,从海量异构数据中持续认知世界、迭代进化?

就这个问题,LDA-1B用自身给出了肯定的答案。

从GPT大模型的文本智能,到LDA-1B的机器人具身智能,统一建模、全量数据驱动的规模化逻辑一脉相承。

银河通用将这套成熟的AI进化范式落地机器人领域,正式拉开了具身智能规模化、通用化、产业化的全新序幕

One More Thing

去年3月,银河通用就率先提出并实践了将World Model(世界模型)与Action Model(动作模型)统一的框架WAM(World-Action Model)。

感兴趣的小伙伴可以跳转论文《DyWA: Dynamics-adaptive World Action Model》。

该论文在全球范围内首次对WAM的概念进行结构化定义,并在接触动力学复杂的任务实现了成功的验证。

DyWA创新性引入动态自适应机制,突破了传统操控模型泛化弱、动态适配不足的痛点,为具身智能与非抓取操控研究提供全新思路,学术价值突出。

在产业端,该模型显著提升机器人复杂场景作业能力,降低落地适配成本,有效赋能服务机器人、柔性工业操作等场景,加速通用具身智能技术落地与产业化进程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安徽17岁帅哥张子旭离世!脸上长痘确诊,父亲“卖命”挣钱也难救

安徽17岁帅哥张子旭离世!脸上长痘确诊,父亲“卖命”挣钱也难救

嫹笔牂牂
2026-04-29 07:37:48
许家印恶贯满盈 若只是经济问题国家不会动他 踩3条红线 或判无期

许家印恶贯满盈 若只是经济问题国家不会动他 踩3条红线 或判无期

念洲
2026-04-28 17:20:35
奥黛丽赫本人生最后30年:在瑞士小镇一座带花园的漂亮房子里度过

奥黛丽赫本人生最后30年:在瑞士小镇一座带花园的漂亮房子里度过

毒舌小红帽
2026-04-17 18:24:06
枪手终于开口,刺杀目标不是特朗普?疑问出现,高市早苗火速发声

枪手终于开口,刺杀目标不是特朗普?疑问出现,高市早苗火速发声

仙味少女心
2026-04-28 13:22:14
58岁女子因脑梗走了,医生:吃苯磺酸氨氯地平,不和这5种药搭配

58岁女子因脑梗走了,医生:吃苯磺酸氨氯地平,不和这5种药搭配

垚垚分享健康
2026-04-28 17:31:04
我国最容易叫错的6个城市,念对一个算有文化,认识一半算你厉害

我国最容易叫错的6个城市,念对一个算有文化,认识一半算你厉害

长风文史
2026-04-27 20:19:33
黄宏现状:住北京普通小区,闲时照顾外孙女,65岁走路需要人搀扶

黄宏现状:住北京普通小区,闲时照顾外孙女,65岁走路需要人搀扶

素衣读史
2026-04-14 18:53:02
普京想不到!就连马克龙也想不到!特朗普居然承认:放弃全球霸权

普京想不到!就连马克龙也想不到!特朗普居然承认:放弃全球霸权

安安说
2026-04-28 10:57:18
李想称理想L9 Livis比上汽大众ID.ERA 9X至少领先两代,大众高管回应:理想仅价格和营销水平领先,我们绝不会自称是“500万内最好”产品

李想称理想L9 Livis比上汽大众ID.ERA 9X至少领先两代,大众高管回应:理想仅价格和营销水平领先,我们绝不会自称是“500万内最好”产品

鲁中晨报
2026-04-27 11:28:06
63岁上海阿姨练成“中国最强老太太”!听她用上海话讲述退休后的精彩!

63岁上海阿姨练成“中国最强老太太”!听她用上海话讲述退休后的精彩!

上观新闻
2026-04-29 14:20:12
698分孙女被军校拒绝,农民爷爷寻求真相,军校校长看见爷爷敬礼

698分孙女被军校拒绝,农民爷爷寻求真相,军校校长看见爷爷敬礼

红豆讲堂
2025-09-12 11:28:18
教育迎来大洗牌!9月全国统一执行,中小学彻底变天

教育迎来大洗牌!9月全国统一执行,中小学彻底变天

户外阿毽
2026-04-26 18:19:14
泡泡玛特涨超4% labubu冰箱未开售即被炒至9万余元

泡泡玛特涨超4% labubu冰箱未开售即被炒至9万余元

财联社
2026-04-29 09:53:06
1951年,戴笠独子被处决的消息传到台湾,蒋介石给毛人凤下了一条命令

1951年,戴笠独子被处决的消息传到台湾,蒋介石给毛人凤下了一条命令

晓张说
2026-04-27 07:18:18
圆明园地下大反转,大火烧掉的仅是圆明园的表皮

圆明园地下大反转,大火烧掉的仅是圆明园的表皮

混沌录
2026-04-24 21:02:11
翟欣欣邻居曝猛料:她被带走时哭疯了,父母跟着落泪,称跟她无关

翟欣欣邻居曝猛料:她被带走时哭疯了,父母跟着落泪,称跟她无关

谈史论天地
2026-01-26 18:40:03
福建多位市委书记、市长率团访问香港、澳门

福建多位市委书记、市长率团访问香港、澳门

新浪财经
2026-04-29 12:15:24
上海地铁抢座互殴后续:央媒发声,拘留只是开始,女子工作恐不保

上海地铁抢座互殴后续:央媒发声,拘留只是开始,女子工作恐不保

椰青美食分享
2026-04-28 18:06:47
张兰可谓诈骗界天花板,手段之高明令人瞠目,但终难逃被全球围剿

张兰可谓诈骗界天花板,手段之高明令人瞠目,但终难逃被全球围剿

玖宇维
2026-04-01 20:59:33
朝鲜姑娘怀孕,查明是志愿军营长所为,彭总得知后批示8个字

朝鲜姑娘怀孕,查明是志愿军营长所为,彭总得知后批示8个字

元哥说历史
2026-04-26 11:40:03
2026-04-29 15:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12559文章数 176458关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

俄"受制裁"富豪的游艇通过霍尔木兹海峡 或获美伊默许

头条要闻

俄"受制裁"富豪的游艇通过霍尔木兹海峡 或获美伊默许

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

教育
本地
手机
艺术
公开课

教育要闻

刚刚,南京市教育局重磅发布!

本地新闻

用青花瓷的方式,打开西溪湿地

手机要闻

小米两款新机曝光?这是什么系列,好难猜啊

艺术要闻

这些女神,竟然都是摄影师切尔尼亚季耶夫的复古作品!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版