网易首页 > 网易号 > 正文 申请入驻

刚刚,机器人练成了「白眼」:∞帧画面边看边3D重建我们的世界!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,机器人的视觉,又达到了一个新的Level。

因为现在,一个新模型已经实现了无尽流:看∞帧视频可以稳定实时3D重建!

来,感受一下这个feel:



视频地址:
https://mp.weixin.qq.com/s/h3UIMZn46LA2m570p9pKkw

或许有小伙伴要问了,这有啥用啊?

简单来说啊,若是这个模型放到扫地机器人身上,那它就能边打扫边认清家里的3D结构;若是放到自动驾驶身上,那就是边开车边算清路面情况。

有一种火影里宁次白眼的那种味道了。

(注:白眼的能力是360°无死角透视+极远的洞察力+看穿查克拉流动;对应这个模型的全方位空间感知、长序列不丢失细节的特点。)



△图源由AI生成

这,就是蚂蚁灵波最新开源的LingBot-Map,一个专为纯自回归的流式3D重建而打造的基础模型。



不同于此前具身智能视觉的3D重建,这一次,LingBot-Map做到了快、准、狠——

打破了“既要实时、又要记路、还要省显存”的不可能三角。

这种Level的流式3D重建,并不简单

在聊“流式3D重建为什么难”这个话题之前,咱们且需要先分清两个概念:普通3D重建和流式3D重建。

因为它俩可以说是完全两个维度的技术。

先来看传统离线3D重建(离线)。

它的本质用一种微妙的形容,大概就是“事后诸葛亮”,因为必须先拍完完整视频、存储所有帧画面,再集中算力全局建模。

这样做的缺点很明显就是速度慢、耗显存、无法实时交互,应用方面也能用在影视建模、数字孪生等静态场景,根本没法给需要实时决策的机器人、自动驾驶用。

流式3D重建(在线)就不一样了,它是真能满足具身智能的核心刚需:

来一帧算一帧,边拍边建模、边感知边决策,和人类边走边认路的视觉逻辑高度一致。

不过看似简单,但在实现的过程中,业内公认的有三座大山挡在面前。



△图源由AI生成

第一,记太多就爆显存。

如果模型硬存所有历史帧,几千帧过后显存直接拉满,消费级显卡根本跑不动,工业设备也扛不住长时运行。

第二,记太少就忘光光。

若是只缓存最近几帧,模型会出现灾难性遗忘,长时间运行后轨迹疯狂漂移、重建场景扭曲变形,相当于人走久了忘了自己在哪。

第三,精度速度不可兼得。

要么建模精准但推理慢到卡顿,要么实时性够了但画面糊成马赛克,始终找不到平衡点。

更关键的是,之前绝大多数的流式方案,不是依赖测试时优化,就是用未来帧信息做全局校准,亦或者加入人工设计的关键帧规则,并非端到端的纯推理。

而LingBot-Map走的是纯自回归这条更难的路:严格遵循因果律,仅依赖历史帧信息推理当前帧,无任何后处理、无未来帧依赖、无人工优化规则,所有能力全靠模型端到端学习。

也正因为有了纯自回归的约束,相当于让蒙眼的人仅凭过往记忆走迷宫,既要求走得快、又要求记准路、还不能多耗脑力……

难,是真的难。

但蚂蚁灵波这一次,还真就把这个硬骨头给啃下来了。

像人一样选择性记忆

LingBot-Map背后技术的灵感,来源于

就好比咱们在大城市里逛街,却能做到不迷路,不是因为我们的大脑像录像机一样全程“录制”,关键在于大脑执行的是选择性记忆这个操作。

说白了,就是只记住有效、关键的帧。

LingBot-Map的核心,正是完美复刻了这种机制,名曰几何上下文注意力(Geometric Context Attention,GCA)。

更具体而言,LingBot-Map通过GCA,对记忆进行了非常精妙的分层结构化管理

首先是锚点(Anchor),它的作用让机器人记住“我从哪来”

任何3D重建都需要一个绝对的坐标系和尺度基准,就好比人类进入陌生房间,会下意识记住门口位置当参照系,防止迷路。

LingBot-Map的锚点模块,就是起到这样的一个作用。

它会锁定初始几帧画面作为基准,固定全局坐标和尺度,如此一来,就解决了纯自回归模型容易出现的尺度模糊、坐标漂移等问题,给整个重建过程定好原点。

其次是位姿参考窗口(Pose-reference Window),用来记住“我身边有什么”

因为光有起点是不够的,要想走得稳,还得看清脚下的路。

于是团队便在LingBot-Map里设置了位姿参考窗口,它只保留最近的k帧的完整高维特征。

这部分记忆虽然是短期的,但信息极其丰富密集,这样就可以确保模型能够精准地捕捉局部的几何细节,让当前帧能够丝滑地与前几帧拼接在一起,让每一步都踩得极准。

最后就是轨迹记忆(Trajectory Memory),起到记住“我走过的路”的作用。

这也是LingBot-Map中非常关键的一个步骤。

对于那些既不是起点、也不在眼前,属于很久以前的中间历史画面,模型不再存储它们庞大具体的图像像素细节。

取而代之的是,它将这些历史帧的宏大信息,极致压缩成了区区6个极简的Token(包含相机、锚点和寄存器 Token),并打上时间戳(位置编码)。

对比传统因果注意力,LingBot-Map的单帧信息增长量直接降低80倍,哪怕处理万帧长视频,显存消耗也几乎恒定。



三大模块协同发力,便是LingBot-Map打破不可能三角的关键原因了。

那么这套打法效果又如何呢?

实测拿下新SOTA

从论文中呈现的实验结果来看,LingBot-Map已经在多项权威基准测试中,全面碾压其它流式模型,稳坐SOTA之位。

首先是长序列稳定性

在10000+帧的超长视频序列测试中,模型全程保持稳定重建质量,没有出现任何明显的轨迹漂移。要知道,同类纯自回归模型往往几百帧就开始扭曲,万帧稳定的表现,直接刷新了行业纪录。



其次是速度与精度双突破。

在518×378的主流分辨率下,推理速度达到20FPS,比同类流式方法基线快了近一倍,完全满足机器人、自动驾驶的实时性需求。

在Oxford Spires、ETH3D、Tanks & Temples等权威数据集测试中,轨迹误差降低约77%,3D点云建模精度、全局一致性远超所有流式竞品,甚至比部分离线优化模型表现更优。



除此之外,模型运行显存仅需13.28GB,普通消费级显卡即可流畅部署,彻底告别对高端专业显卡的依赖。

对比同类方案动辄30GB+的显存需求,LingBot-Map实现了“技术顶尖、落地亲民”,让流式3D重建具备了规模化商用的基础。

而且效率测试的数据更加直观。

对比全历史帧缓存方案,LingBot-Map用64帧窗口设计,将推理速度从3.12FPS提升至19.95FPS,显存从36.06GB压缩至13.28GB,速度提升6倍、显存降低63%,同时精度反而更高,印证了GCA记忆机制的优越性。



在看完LingBot-Map背后的技术和展现的效果之后,还有一个话题值得聊一聊:

LingBot-Map的开源绝不是为了单点刷榜、秀肌肉。

补齐另一块具身智能关键拼图

若是大家长期关注蚂蚁灵波,就不难发现它在下一盘大棋。

仅仅在今年1月,蚂蚁灵波便已经陆续开源了多款模型:

从感知世界的LingBot-Depth,到理解物理规律的LingBot-World,再到控制身体的LingBot-VLA和全球首个具身世界模型LingBot-VA

而今天LingBot-Map的开源,则补齐了“边走边记、理解并重建连续真实三维空间”的关键拼图。

这就意味着蚂蚁灵波正式构建了“感知-建模-模拟-控制”全链路具身智能技术栈,从看懂世界、建模世界,到理解世界、操控身体,形成了完整的技术闭环。

此举对全产业落地来说,亦是有着重要的价值。举三个例便一目了然了:

  • 机器人:仓库巡检、家庭服务,机器人不再需要昂贵的激光雷达,单靠摄像头就能边走边建图,真正实现低成本、大规模部署。
  • AR/VR:戴上眼镜,虚拟物体可以零延迟、不漂移地叠加在真实桌面上,虚实融合的体验将被拉满。
  • 自动驾驶/无人机:城市级大场景的实时建模成为可能,为纯视觉的自动驾驶方案提供了更强大的时空理解能力。

因此,综上所述,LingBot-Map的出现,可以说是机器理解真实物理世界迈出的关键一步。

与此同时,蚂蚁灵波的持续开源,也让我们清晰地看到,具身智能的规模化落地,正在以前所未有的速度向我们驶来。

Hugging Face:
https://huggingface.co/robbyant/lingbot-map

ModelScope:
https://www.modelscope.cn/models/Robbyant/lingbot-map

GitHub:
https://github.com/Robbyant/lingbot-map

Paper:
https://arxiv.org/abs/2604.14141

Homepage:
https://technology.robbyant.com/lingbot-map

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈丽华追悼会曝光,原来73岁无儿无女的迟重瑞,早已被安排好“退路”

陈丽华追悼会曝光,原来73岁无儿无女的迟重瑞,早已被安排好“退路”

LULU生活家
2026-04-16 08:13:59
强势6连板!002580,7分钟直线涨停!300394,主力资金逾32亿净流入!

强势6连板!002580,7分钟直线涨停!300394,主力资金逾32亿净流入!

证券时报e公司
2026-04-16 12:32:51
“跨考计算机,就是这下场”,武大复试:1/3的考生机试0分被斩杀

“跨考计算机,就是这下场”,武大复试:1/3的考生机试0分被斩杀

妍妍教育日记
2026-04-16 08:30:09
75年,毛主席得知一中将在芜湖当地委副书记,大怒:必须重新分配

75年,毛主席得知一中将在芜湖当地委副书记,大怒:必须重新分配

老范谈史
2026-04-10 13:59:38
船记:如果哈登没有申请交易,快船虽不能夺冠但会是联盟前五

船记:如果哈登没有申请交易,快船虽不能夺冠但会是联盟前五

懂球帝
2026-04-16 16:05:10
30分钟直扑东北!美国派48架F-35兵临城下,解放军:敢动就全歼!

30分钟直扑东北!美国派48架F-35兵临城下,解放军:敢动就全歼!

泠泠说史
2026-04-12 14:05:02
镇店之宝不再保密!莫氏鸡煲创始人累到想休息,公开全部配方

镇店之宝不再保密!莫氏鸡煲创始人累到想休息,公开全部配方

大鱼简科
2026-04-15 19:49:23
2026年Q1全球手机市场:苹果21% 三星20% 小米13% OPPO11% vivo8%

2026年Q1全球手机市场:苹果21% 三星20% 小米13% OPPO11% vivo8%

黄海峰
2026-04-15 13:53:56
女大学生吐槽“普信男”视频火了,却因长相被嘲:你也照照镜子吧

女大学生吐槽“普信男”视频火了,却因长相被嘲:你也照照镜子吧

世界圈
2026-04-12 00:10:16
坐标无锡,山东女婿被婚宴价格吓懵:5000一桌不含酒水,太贵了?

坐标无锡,山东女婿被婚宴价格吓懵:5000一桌不含酒水,太贵了?

小影的娱乐
2026-04-16 15:22:05
诺伊尔妻子挺着孕肚现身安联球场,两人即将迎来第二个孩子

诺伊尔妻子挺着孕肚现身安联球场,两人即将迎来第二个孩子

懂球帝
2026-04-16 03:30:54
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
美国说:不服气真不行,中国早就开始留后手

美国说:不服气真不行,中国早就开始留后手

喀秋莎大世界
2026-04-07 22:05:57
直到许家印当庭认罪悔罪,才发现,原来曹德旺早就猜中了他的结局

直到许家印当庭认罪悔罪,才发现,原来曹德旺早就猜中了他的结局

以茶带书
2026-04-15 23:00:50
袍哥人家绝不拉稀摆带:揭秘中国最硬核的江湖组织

袍哥人家绝不拉稀摆带:揭秘中国最硬核的江湖组织

爱历史
2026-04-16 20:01:15
抗战时有多苦?毛主席坐门口晒太阳,看看他身上的棉袄便一目了然

抗战时有多苦?毛主席坐门口晒太阳,看看他身上的棉袄便一目了然

新一说史
2026-04-09 10:55:20
英媒:欧美要死死守住这5项技术,一旦被中国突破那将势不可挡

英媒:欧美要死死守住这5项技术,一旦被中国突破那将势不可挡

史行途
2026-03-18 06:02:09
67万亿砸向市场!比08年疯狂16倍,房价物价或变天?该如何做?

67万亿砸向市场!比08年疯狂16倍,房价物价或变天?该如何做?

寻途
2026-04-17 00:05:56
1948年,中央提出换掉粟裕,陈毅:无论用谁代替他,都会全军覆没

1948年,中央提出换掉粟裕,陈毅:无论用谁代替他,都会全军覆没

兴趣知识
2026-04-17 00:41:39
微胖的身材才是最性感的!这套穿搭把丰满身材的美完美展现出来了

微胖的身材才是最性感的!这套穿搭把丰满身材的美完美展现出来了

牛弹琴123456
2026-04-14 20:22:39
2026-04-17 02:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
12483文章数 176452关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

美国威胁加大对伊朗制裁 伊朗回应

头条要闻

美国威胁加大对伊朗制裁 伊朗回应

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

数码
健康
旅游
时尚
家居

数码要闻

荣耀史上最短发布会,发布荣耀史上最强MagicBook数字系列

干细胞抗衰4大误区,90%的人都中招

旅游要闻

社评:读懂“China Travel”持续圈粉的逻辑

爆火的前额叶梗,让多少年轻人主动确诊「脑残」?

家居要闻

智能舒适 简约风尚

无障碍浏览 进入关怀版