网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

蚂蚁具身智能明牌了：做大脑，和宇树们错位竞争

2026-01-28 19:04:04　来源: 量子位

天津举报

0

分享至

金磊发自杭州
量子位 | 公众号 QbitAI

从3000小时到整整20000小时。

真实世界数据里的Scaling Law，直接喂出了个最强VLA（Vision-Language-Action）基座模型！

这就是蚂蚁灵波今天开源的具身智能基座模型——LingBot-VLA。

为什么说它是目前最强？先看数据。

从“20000小时”这个量上来看，LingBot-VLA已经解锁了迄今为止开源的最大规模真实机器人数据之一。

并且性能也是够打，在权威评测中也全面超越了此前公认最强Physical Intelligence的π0.5，以及英伟达GR00T N1.6等一众国际顶尖模型。

再看实际表现。

此前具身智能圈子一个很头疼的问题，就是一旦环境发生变化，VLA就不太好使了：

换了个机器人，Fail；
换了个摄像头，Fail；
换个桌子高度，Fail……

但在LingBot-VLA加持下的机器人，脑子一下子就变聪明了，学会了见招拆招。

例如面对复杂的收纳操作——把桌面物体放进包里并拉上拉链，机器人双手各司其职，动作一气呵成：

视频地址：https://mp.weixin.qq.com/s/5d_nTy6YnkHJqA0C0QIOdQ

更复杂一点的餐具清洁整理——配合多种工具完成餐具清洗并归位，可以看到，机器人依旧是能精准拿捏各种各样的物体。

即便是像透明玻璃杯这样往往让机器人看不清的物体，它也能轻松hold住：

视频地址：https://mp.weixin.qq.com/s/5d_nTy6YnkHJqA0C0QIOdQ

并且同样的任务，因为有了一个聪明的脑子，不论是放在AgileX、AgibotG1还是Galaxea三个不同的机器人身上，统统都能迎刃而解：

视频地址：https://mp.weixin.qq.com/s/5d_nTy6YnkHJqA0C0QIOdQ

而纵观整项研究，除了数据性能和实际表现之外，更关键的一点是，LingBot-VLA还指明了一条通用具身智能发展路径：

从3000小时到20000小时，首次在真实世界场景中，系统性地验证了VLA模型性能会随着数据规模扩大而持续提升的Scaling Law。

并且是在20000小时之后，性能提升还没有失效的那种。

正如网友总结的那般：

更多真实数据 → 更高成功率 → 还未达到饱和。

一个大脑，多个身体，这就是规模化之道。

那么LingBot-VLA具体又是如何实现的？我们继续往下看。

主打一个真实

在谈LingBot-VLA是怎么炼成的之前，我们还需要先了解一下机器人的困境。

之前像Physical Intelligence的π系列这样的顶尖VLA模型，一个很大的问题就是，它们预训练的数据大量依赖仿真环境。

仿真的好处是成本低、可并行，却与真实物理世界的质感存在难以弥合的鸿沟。

打个比方，一个机器人在仿真环境里能丝滑地叠衣服，但到了真实世界里可能连个衣角都抓不稳。

因此，蚂蚁灵波团队的选择是这样的：仿真的不好使，那就全部采用真实世界的机器人操作数据。

从2023年开始，他们联合星海图、松灵机器人等展开合作，在一间间真实的实验室里，通过遥控操作的方式，让机器人完成成千上万次抓取、放置、组装等动作。

数据规模从最初的3000小时，一路扩展到20000小时，全部源自物理世界。

并且这些数据并非来自单一机器人。

研究团队动用了9种不同品牌和构型的双臂机器人，包括AgileX、Agibot G1、Galaxea R1Pro/R1Lite、Realman Rs-02、Leju Kuavo 4 Pro、青龙机器人、ARX Lift2以及Bimanual Franka。

这意味着，模型从“小时候”开始就见识了不同机械臂的运动方式、不同摄像头的视角、不同夹爪的特性。

这种数据的异构性和丰富性，成了LingBot-VLA具有很强泛化能力的基础。

为了将这些海量视频数据转化为模型可学习的教材，团队还采用了一个巧妙的半自动标注流程：

人工将多视角视频按原子动作拆分成片段；
利用强大的视觉语言模型，为每一段视频生成精确的自然语言描述，例如“用左手夹爪靠近红色积木”、“将水杯平稳地放入微波炉”。

最终，这20000小时、涵盖无数原子动作的多模态数据，构成了LingBot-VLA的养料。

除了海量真实数据之外，模型架构上的创新，也是LingBot-VLA的关键所在。

它采用了一种名为专家混合Transformer的架构，可以将其理解为为机器人设计了一套大脑与小脑协同工作的系统：

大脑：一个已经过预训练的强大视觉语言模型。它的职责是进行高层次的语义理解——观察环境（多视角图像），理解任务指令（自然语言），并思考出当前状况和任务目标。
小脑：一个专门初始化的动作专家模块。它的职责是接收来自大脑的语义信息，结合机器人当前的自身状态，规划并生成具体、连续、可执行的动作序列。

而且二者之间并非是各玩各的，它们通过一个共享的自注意力机制进行深度耦合，实现了在模型每一层的信息交互。

在动作生成技术上，LingBot-VLA还摒弃了传统的离散预测，引入了先进的流匹配模型。

简单来说，它不再预测“下一步关节应该转多少度”这样一个具体的点，而是学习整个动作变化的平滑流场。

这使得机器人产生的动作更加丝滑、连贯，更接近人类演示的自然度，对于需要精细控制的长序列任务至关重要。

除此之外，深度感知，是另一个技术上的点睛之笔。

为的就是让机器人不仅看得见，还能感知距离——引入了自研的LingBot-Depth深度估计模型提供的深度信息。

也就是昨天蚂蚁灵波开源的让机器人能看清透明和反光物体的新技术。

这种方法通过一种可学习的查询对齐技术，将深度信息蒸馏注入到VLA模型的视觉理解中。

相当于让机器人获得了对三维空间的直观感知能力，使其在面对“将芯片插入狭小卡槽”、“避免抓取时碰撞杯壁”等需要精确空间关系的任务时，表现大幅提升。

然而，要将20000小时高维度的视频和动作数据训练成一个模型，对算力是恐怖的消耗。

蚂蚁灵波团队对此的回应是：对训练基础设施进行系统级优化，打造了一个高性能开源代码库。

他们在分布式策略、算子级别和数据处理管道上进行了全方位革新：

采用完全分片数据并行策略，极致优化GPU内存占用。
针对动作专家模块设计特定的分片组，大幅降低通信开销。
利用FlexAttention等技术对稀疏注意力计算进行加速。

效果是立竿见影的。

在8卡GPU的配置下，LingBot-VLA代码库实现了每秒每GPU 261个样本的吞吐量；与社区主流的OpenPI、StarVLA等框架相比，训练速度提升了1.5倍至2.8倍。

以往需要一个月完成的实验，现在可能只需一到两周就能搞定了。

这不仅大大降低了科研创新的周期和成本，更重要的是，它让基于万小时级真实数据迭代VLA模型，从此变得可行。效率的提升，是解锁数据缩放定律的前提。

100个任务，22500次的全面测试

模型好不好，不能只在论文里说。

为此，蚂蚁灵波团队在权威的评测体系做了测试——GM-100基准。

这一测评集是由上海交通大学等机构联合研发，旨在为衡量机器人大脑（智能模型）与身体（物理执行）的协同能力，提供一个更系统、开放且可复现的评估基准。

它包含100个从易到难的精细操作任务，从简单的“抓取积木”，到复杂的“制作三明治”、“叠放衣服”。

评测在Agibot G1、AgileX和Galaxea R1Pro三种真实机器人平台上进行。

每个模型在每个任务上都要进行多轮测试，总计产生了22500次真实机器人测试录像。所有录像均已开源，确保了评测的完全可复现和透明。

在这场同台竞技中，LingBot-VLA迎来了三位重量级对手：π0.5、英伟达的GR00T N1.6，以及WALL-OSS。

所有模型都在相同的数据、相同的超参数下进行后训练，以确保公平比较。

在综合了任务成功率和进度得分两项核心指标后，LingBot-VLA（无深度版本）已在三项指标上全面领先WALL-OSS与GR00T N1.6。

而融合了深度信息的LingBot-VLA，则在三项指标上均显著超越了目前公认的强基准——π0.5。

例如，在AgileX平台上，LingBot-VLA（含深度）的平均任务成功率达到了18.93%，而π0.5为17.20%；在更具挑战性的Galaxea R1Pro平台上，优势同样明显（20.98% vs 14.10%）。

在仿真基准RoboTwin 2.0上，优势依旧明显。

在物体位置、背景、灯光高度随机化的复杂场景中，LingBot-VLA相比π0.5取得了近10个百分点的绝对成功率提升。

这证明其学到的能力是鲁棒的、可泛化的，而非对特定环境的过拟合。

更重要的是，研究团队通过控制预训练数据量（从3000小时到20000小时）进行的实验清晰表明：

随着真实世界数据量的增加，模型在下游各项任务上的性能呈现持续、稳定的提升，且尚未看到饱和迹象。

不造机器人，但要搞个聪明大脑

最后，来谈一谈蚂蚁灵波要做的事情。

与当前机器人行业存在的一个核心痛点息息相关，即场景碎片化与硬件非标化。

不同的机器人本体，关节构型、传感器配置、驱动方式千差万别。传统的解决方式是为每个场景、每种硬件定制开发算法，成本高、周期长、难以复制。

LingBot-VLA提供的是一种通用智能基座思路，也就是不做机器人的本体，但求做一个通用大脑：通过在海量异构真实数据上预训练，模型学会了跨越不同硬件平台的、本质性的操作逻辑和物理理解。

就像一个学会了“抓握”本质概念的人，无论给他筷子、夹子还是机械爪，他都能通过简单适应掌握使用方法。

LingBot-VLA展示的跨本体泛化能力正是如此。

模型在9种机器人数据上预训练后，在3种未见过的机器人平台上依然表现优异，证明了其能力并非绑定于特定硬件。

这为实现 “一次训练，多端部署” 的规模化落地愿景提供了坚实的技术基础。

为了降低行业的使用门槛，蚂蚁灵波团队不仅开源了模型和代码，还贡献了 “交钥匙”式的评估基准和高效后训练方案：

可复现的评估：GM-100基准与全部22500次测试录像开源，树立了行业评测新标准。
低成本后训练：高效的代码库与数据高效性优势（实验显示，仅用对手60%的数据量就能达到更好效果），让企业能用更少的数据、更低的算力成本完成对特定场景的适配。

遥想2024年，π0的开源虽然引爆了全球VLA的研究热潮，但它主要基于仿真数据，在真机落地上存在局限。

而LingBot-VLA的价值在于，它首次提供了一个基于万小时级真机数据开源的全栈解决方案，推动行业从实验室演示迈向可规模化落地的新阶段。

如果说蚂蚁灵波LingBot-VLA是一个单点，那么它所影射的是蚂蚁集团在通往AGI探索的技术路径与行业愿景：

蚂蚁百灵：作为底层基础大模型，提供通用的语言与逻辑能力基石。
蚂蚁灵光：面向应用的通用AI助手，探索AI的交互与服务边界。
蚂蚁灵波：正是本文主角，专注攻克具身智能，旨在为物理世界中的智能体赋予大脑。

从基础大模型到多模态，再到如今的具身智能，蚂蚁的AGI拼图正在一块块补全。

这条路，注定是漫长且需要生态协作的。但当行业领先者开始体系化布局，并主动拆掉围墙，或许正如他们所期待的那样——那个属于通用人工智能的未来，会以更开放、更协作的方式，更早地到来。

或许在不久的将来，人们的生活就会变得像《连线》杂志所说的那样：

你的第一个机器人同事，大概率是个“中国人”。

项目主页：
https://technology.robbyant.com/lingbot-vla

GitHub：
https://github.com/robbyant/lingbot-vla

模型权重：
https://huggingface.co/robbyant/lingbot-vla
https://www.modelscope.cn/collections/Robbyant/LingBot-VLA

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

蚂蚁具身研究首次亮相！就解决了机器人「看」透明玻璃这些难题

机器之心Pro 2026-01-27 13:25:03
0 跟贴 0
机器人看不清，蚂蚁给治好了

量子位 2026-01-27 14:41:46
2 跟贴 2

蚂蚁出手VLA，就是开源超越Pi0.5的基座模型

机器之心Pro 2026-01-28 14:27:13
0 跟贴 0

美国开发六足机器人，跑起来堪比飞人博尔特

装甲铲史官 2026-01-03 11:19:04
747 跟贴 747
EmbodiChain开源，用100%生成式数据自动训练具身智能模型

机器之心Pro 2026-01-20 15:49:43
0 跟贴 0

马斯克：3年内机器人超越顶尖医生

财联社 2026-01-09 15:31:35
0 跟贴 0

与阿里、DeepSeek同台竞技，K2.5进化Agent集群，杨植麟为Kimi锁定系统智能主赛道

每日经济新闻 2026-01-28 14:11:08
1 跟贴 1
宇树机器人，又要上春晚了

财联社 2026-01-27 23:09:38
1 跟贴 1

直击WAIC丨当人形机器人走入康养场景，如何满足人类多样需求？

每日经济新闻 2025-07-26 19:09:29
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
让机器人看视频学操作技能

机器之心Pro 2026-01-19 13:12:57
0 跟贴 0
灵巧手作为独立执行平台，实现工业与家庭场景应用

量子位 2025-12-11 03:38:13
0 跟贴 0
机器人叠衣，灵巧手抓万物，超实用机器人组合来了

量子位 2025-07-29 03:31:41
0 跟贴 0
新颖鳍足机器人，水陆两栖行动自如，适应各种地形

装甲铲史官 2025-12-25 10:58:04
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
波士顿机器狗练成“轻功”！连续七个后空翻

量子位 2025-09-07 01:03:18
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
人形机器人产业突破关键在于“大脑”核心技术

每日经济新闻 2025-09-16 20:30:32
0 跟贴 0
机器人当上火炬手了，机器狗传递全运会吉祥物

每日经济新闻 2025-11-03 06:56:14
0 跟贴 0
机械手真正「活」了04

机器之心Pro 2025-11-06 14:07:32
0 跟贴 0
所有顶尖AI实验室都失去了联创，除了Anthropic！

新智元 2026-01-28 21:19:59
0 跟贴 0
三维空间太难懂？1

机器之心Pro 2025-12-31 13:49:25
0 跟贴 0
国产大模型同日转向：参数竞赛结束，工程化时代开启

雷科技 2026-01-28 21:21:57
0 跟贴 0
三维空间太难懂？2

机器之心Pro 2025-12-31 13:49:19
0 跟贴 0
基于异构边缘终端的端侧AI统一架构研究与实践

通信世界 2026-01-20 11:56:04
0 跟贴 0
字节Seed团队发布循环语言模型Ouro，在预训练阶段直接「思考」

机器之心Pro 2025-11-04 11:58:36
0 跟贴 0
Clawdbot硅谷爆火！Mac mini因它一夜卖爆 Clawdbot硅谷爆火！这个堪称“开源贾维

量子位 2026-01-26 21:07:35
0 跟贴 0
英特尔具身智能机器人，竟解锁了rap技能

机器之心Pro 2025-11-26 15:20:41
0 跟贴 0
格斗冠军机器人突然发疯！吓呆研究人员

量子位 2025-07-25 09:10:58
0 跟贴 0
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
未来医生摘得全球第一，临床安全有效性评估新基准

量子位 2025-11-19 11:14:03
0 跟贴 0
陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0
AI记忆革命爆发！Clawdbot如何像大脑般记住一切

新智元 2026-01-28 21:18:05
0 跟贴 0
三角形是最小的吗？球面几何给出的意外答案

星星科普 2026-01-24 14:12:51
1 跟贴 1
来上海国际大都市跟机器人学跳舞

祝晓晗 2026-01-25 08:00:00
0 跟贴 0
天干地支：古人的“宇宙代数”，3分钟说清计算方法和底层逻辑

九江老渭 2026-01-27 15:49:08
14 跟贴 14
你就说这是不是人工智能吧！

包子同学呀 2026-01-28 12:03:19
3 跟贴 3
蚂蚁无法理解人类存在，人类或许也无法察觉更高维度的外星文明

痞子说动物 2026-01-25 11:46:53
1 跟贴 1

武汉理工毕业生当保安被母校约谈后，被开除了

武汉理工毕业生当保安被母校约谈后，被开除了

半岛晨报

2026-01-28 19:47:13

40：193，新版联合国再生变，不等普京付费加盟，中方第一个反对

40：193，新版联合国再生变，不等普京付费加盟，中方第一个反对

时时有聊

2026-01-28 19:29:16

一周13人伤亡！建议中国游客春节避免前往俄罗斯旅游

一周13人伤亡！建议中国游客春节避免前往俄罗斯旅游

基本常识

2026-01-28 22:17:24

朝鲜为库尔斯克阵亡士兵建国葬级纪念馆，1.4万远征军半数伤亡

朝鲜为库尔斯克阵亡士兵建国葬级纪念馆，1.4万远征军半数伤亡

老马拉车莫少装

2026-01-28 21:07:39

四川女生半夜吃卫龙辣条中了一根金条，卫龙客服：确有此活动，金条价值3000元

四川女生半夜吃卫龙辣条中了一根金条，卫龙客服：确有此活动，金条价值3000元

极目新闻

2026-01-28 17:04:14

两岸和统或不接受解放军驻军？郭正亮：一国两制可改一国两“治”

两岸和统或不接受解放军驻军？郭正亮：一国两制可改一国两“治”

兴史兴谈

2026-01-28 02:03:44

解放军报社论：坚决打赢军队反腐败斗争攻坚战持久战总体战

解放军报社论：坚决打赢军队反腐败斗争攻坚战持久战总体战

新华社

2026-01-24 23:03:04

2026年反腐力度加大，退休多年照样被查，官至副国级也难逃法网

2026年反腐力度加大，退休多年照样被查，官至副国级也难逃法网

李昕言温度空间

2026-01-28 23:18:11

黄金、白银基金宣布暂停申购业内人士：黄金白银行情已转向情绪主导阶段投资者需防范可能出现的“冲高回落”

黄金、白银基金宣布暂停申购业内人士：黄金白银行情已转向情绪主导阶段投资者需防范可能出现的“冲高回落”

闪电新闻

2026-01-28 12:13:13

高市早苗当众落泪！让民众不用担心中国，关键时刻，金正恩出手了

高市早苗当众落泪！让民众不用担心中国，关键时刻，金正恩出手了

时时有聊

2026-01-28 11:47:55

华西村那头1吨金牛，15年后竟成最成功的投资？

华西村那头1吨金牛，15年后竟成最成功的投资？

比利

2026-01-28 20:15:42

1月23日深夜！解放军上将在京逝世：曾扳倒谷俊山，胞弟身份曝光

1月23日深夜！解放军上将在京逝世：曾扳倒谷俊山，胞弟身份曝光

博士观察

2026-01-28 19:16:28

牢A命中，被一窝端16人都是女留学生

牢A命中，被一窝端16人都是女留学生

雪中风车

2026-01-28 13:23:54

曝万科前董事长郁亮失联！刚卸任20天，知情人曝内情，果然有猫腻

曝万科前董事长郁亮失联！刚卸任20天，知情人曝内情，果然有猫腻

李健政观察

2026-01-28 16:02:16

官方通报“3元加面纠纷”事件：商家行为涉嫌违反《价格法》

官方通报“3元加面纠纷”事件：商家行为涉嫌违反《价格法》

封面新闻

2026-01-28 19:55:02

断崖式下跌！中国人突然不爱喝酒了？真相太扎心！

断崖式下跌！中国人突然不爱喝酒了？真相太扎心！

达文西看世界

2026-01-18 20:56:11

董明珠卸任仅2天，停职审查、转移资产、办公室恋情，哪个是真的

董明珠卸任仅2天，停职审查、转移资产、办公室恋情，哪个是真的

离离言几许

2026-01-28 20:47:56

“尼帕病毒”来势汹汹，建议：每家备好6样东西，关键时刻能救命

“尼帕病毒”来势汹汹，建议：每家备好6样东西，关键时刻能救命

路医生健康科普

2026-01-28 12:18:49

具俊晔设计的大S雕像完工，白色S型非常漂亮，纪念大S去世一周年

具俊晔设计的大S雕像完工，白色S型非常漂亮，纪念大S去世一周年

阿纂看事

2026-01-28 11:40:11

国台办冷处理郑丽文事件，在于其言行严重背离两岸交流的真诚原则

国台办冷处理郑丽文事件，在于其言行严重背离两岸交流的真诚原则

南权先生

2026-01-28 15:51:16

追踪人工智能动态

12078文章数 176367关注度

往期回顾全部

科技要闻

它是神也是毒！Clawdbot改名卷入千万诈骗

头条要闻

俄总统助理：泽连斯基若愿与普京会晤可来莫斯科

头条要闻

俄总统助理：泽连斯基若愿与普京会晤可来莫斯科

体育要闻

没天赋的CBA第一小前锋，秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤，蔡徐坤工作室回应

财经要闻

从万科退休20天后，郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点关键时刻真能保命

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

房产

公开课

军事航空

本地新闻

云游中国｜拨开云雾，巫山每帧都是航拍大片

旅游要闻

普陀：城市亲水公园美丽景色等你来解锁

房产要闻

实景兑现在即！绿城，在海棠湾重新定义终极旅居想象！

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

伊朗竖起巨幅宣传画：一艘美军航母被炸

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版