网易首页 > 网易号 > 正文 申请入驻

刚刚,机器人练成了「白眼」:∞帧画面边看边3D重建我们的世界!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,机器人的视觉,又达到了一个新的Level。

因为现在,一个新模型已经实现了无尽流:看∞帧视频可以稳定实时3D重建!

来,感受一下这个feel:



视频地址:
https://mp.weixin.qq.com/s/h3UIMZn46LA2m570p9pKkw

或许有小伙伴要问了,这有啥用啊?

简单来说啊,若是这个模型放到扫地机器人身上,那它就能边打扫边认清家里的3D结构;若是放到自动驾驶身上,那就是边开车边算清路面情况。

有一种火影里宁次白眼的那种味道了。

(注:白眼的能力是360°无死角透视+极远的洞察力+看穿查克拉流动;对应这个模型的全方位空间感知、长序列不丢失细节的特点。)



△图源由AI生成

这,就是蚂蚁灵波最新开源的LingBot-Map,一个专为纯自回归的流式3D重建而打造的基础模型。



不同于此前具身智能视觉的3D重建,这一次,LingBot-Map做到了快、准、狠——

打破了“既要实时、又要记路、还要省显存”的不可能三角。

这种Level的流式3D重建,并不简单

在聊“流式3D重建为什么难”这个话题之前,咱们且需要先分清两个概念:普通3D重建和流式3D重建。

因为它俩可以说是完全两个维度的技术。

先来看传统离线3D重建(离线)。

它的本质用一种微妙的形容,大概就是“事后诸葛亮”,因为必须先拍完完整视频、存储所有帧画面,再集中算力全局建模。

这样做的缺点很明显就是速度慢、耗显存、无法实时交互,应用方面也能用在影视建模、数字孪生等静态场景,根本没法给需要实时决策的机器人、自动驾驶用。

流式3D重建(在线)就不一样了,它是真能满足具身智能的核心刚需:

来一帧算一帧,边拍边建模、边感知边决策,和人类边走边认路的视觉逻辑高度一致。

不过看似简单,但在实现的过程中,业内公认的有三座大山挡在面前。



△图源由AI生成

第一,记太多就爆显存。

如果模型硬存所有历史帧,几千帧过后显存直接拉满,消费级显卡根本跑不动,工业设备也扛不住长时运行。

第二,记太少就忘光光。

若是只缓存最近几帧,模型会出现灾难性遗忘,长时间运行后轨迹疯狂漂移、重建场景扭曲变形,相当于人走久了忘了自己在哪。

第三,精度速度不可兼得。

要么建模精准但推理慢到卡顿,要么实时性够了但画面糊成马赛克,始终找不到平衡点。

更关键的是,之前绝大多数的流式方案,不是依赖测试时优化,就是用未来帧信息做全局校准,亦或者加入人工设计的关键帧规则,并非端到端的纯推理。

而LingBot-Map走的是纯自回归这条更难的路:严格遵循因果律,仅依赖历史帧信息推理当前帧,无任何后处理、无未来帧依赖、无人工优化规则,所有能力全靠模型端到端学习。

也正因为有了纯自回归的约束,相当于让蒙眼的人仅凭过往记忆走迷宫,既要求走得快、又要求记准路、还不能多耗脑力……

难,是真的难。

但蚂蚁灵波这一次,还真就把这个硬骨头给啃下来了。

像人一样选择性记忆

LingBot-Map背后技术的灵感,来源于

就好比咱们在大城市里逛街,却能做到不迷路,不是因为我们的大脑像录像机一样全程“录制”,关键在于大脑执行的是选择性记忆这个操作。

说白了,就是只记住有效、关键的帧。

LingBot-Map的核心,正是完美复刻了这种机制,名曰几何上下文注意力(Geometric Context Attention,GCA)。

更具体而言,LingBot-Map通过GCA,对记忆进行了非常精妙的分层结构化管理

首先是锚点(Anchor),它的作用让机器人记住“我从哪来”

任何3D重建都需要一个绝对的坐标系和尺度基准,就好比人类进入陌生房间,会下意识记住门口位置当参照系,防止迷路。

LingBot-Map的锚点模块,就是起到这样的一个作用。

它会锁定初始几帧画面作为基准,固定全局坐标和尺度,如此一来,就解决了纯自回归模型容易出现的尺度模糊、坐标漂移等问题,给整个重建过程定好原点。

其次是位姿参考窗口(Pose-reference Window),用来记住“我身边有什么”

因为光有起点是不够的,要想走得稳,还得看清脚下的路。

于是团队便在LingBot-Map里设置了位姿参考窗口,它只保留最近的k帧的完整高维特征。

这部分记忆虽然是短期的,但信息极其丰富密集,这样就可以确保模型能够精准地捕捉局部的几何细节,让当前帧能够丝滑地与前几帧拼接在一起,让每一步都踩得极准。

最后就是轨迹记忆(Trajectory Memory),起到记住“我走过的路”的作用。

这也是LingBot-Map中非常关键的一个步骤。

对于那些既不是起点、也不在眼前,属于很久以前的中间历史画面,模型不再存储它们庞大具体的图像像素细节。

取而代之的是,它将这些历史帧的宏大信息,极致压缩成了区区6个极简的Token(包含相机、锚点和寄存器 Token),并打上时间戳(位置编码)。

对比传统因果注意力,LingBot-Map的单帧信息增长量直接降低80倍,哪怕处理万帧长视频,显存消耗也几乎恒定。



三大模块协同发力,便是LingBot-Map打破不可能三角的关键原因了。

那么这套打法效果又如何呢?

实测拿下新SOTA

从论文中呈现的实验结果来看,LingBot-Map已经在多项权威基准测试中,全面碾压其它流式模型,稳坐SOTA之位。

首先是长序列稳定性

在10000+帧的超长视频序列测试中,模型全程保持稳定重建质量,没有出现任何明显的轨迹漂移。要知道,同类纯自回归模型往往几百帧就开始扭曲,万帧稳定的表现,直接刷新了行业纪录。



其次是速度与精度双突破。

在518×378的主流分辨率下,推理速度达到20FPS,比同类流式方法基线快了近一倍,完全满足机器人、自动驾驶的实时性需求。

在Oxford Spires、ETH3D、Tanks & Temples等权威数据集测试中,轨迹误差降低约77%,3D点云建模精度、全局一致性远超所有流式竞品,甚至比部分离线优化模型表现更优。



除此之外,模型运行显存仅需13.28GB,普通消费级显卡即可流畅部署,彻底告别对高端专业显卡的依赖。

对比同类方案动辄30GB+的显存需求,LingBot-Map实现了“技术顶尖、落地亲民”,让流式3D重建具备了规模化商用的基础。

而且效率测试的数据更加直观。

对比全历史帧缓存方案,LingBot-Map用64帧窗口设计,将推理速度从3.12FPS提升至19.95FPS,显存从36.06GB压缩至13.28GB,速度提升6倍、显存降低63%,同时精度反而更高,印证了GCA记忆机制的优越性。



在看完LingBot-Map背后的技术和展现的效果之后,还有一个话题值得聊一聊:

LingBot-Map的开源绝不是为了单点刷榜、秀肌肉。

补齐另一块具身智能关键拼图

若是大家长期关注蚂蚁灵波,就不难发现它在下一盘大棋。

仅仅在今年1月,蚂蚁灵波便已经陆续开源了多款模型:

从感知世界的LingBot-Depth,到理解物理规律的LingBot-World,再到控制身体的LingBot-VLA和全球首个具身世界模型LingBot-VA

而今天LingBot-Map的开源,则补齐了“边走边记、理解并重建连续真实三维空间”的关键拼图。

这就意味着蚂蚁灵波正式构建了“感知-建模-模拟-控制”全链路具身智能技术栈,从看懂世界、建模世界,到理解世界、操控身体,形成了完整的技术闭环。

此举对全产业落地来说,亦是有着重要的价值。举三个例便一目了然了:

  • 机器人:仓库巡检、家庭服务,机器人不再需要昂贵的激光雷达,单靠摄像头就能边走边建图,真正实现低成本、大规模部署。
  • AR/VR:戴上眼镜,虚拟物体可以零延迟、不漂移地叠加在真实桌面上,虚实融合的体验将被拉满。
  • 自动驾驶/无人机:城市级大场景的实时建模成为可能,为纯视觉的自动驾驶方案提供了更强大的时空理解能力。

因此,综上所述,LingBot-Map的出现,可以说是机器理解真实物理世界迈出的关键一步。

与此同时,蚂蚁灵波的持续开源,也让我们清晰地看到,具身智能的规模化落地,正在以前所未有的速度向我们驶来。

Hugging Face:
https://huggingface.co/robbyant/lingbot-map

ModelScope:
https://www.modelscope.cn/models/Robbyant/lingbot-map

GitHub:
https://github.com/Robbyant/lingbot-map

Paper:
https://arxiv.org/abs/2604.14141

Homepage:
https://technology.robbyant.com/lingbot-map

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

芹姐说生活
2026-05-15 23:37:01
8类人最易患阿尔茨海默病:蛋白质不足加速大脑衰老!摄入量指南

8类人最易患阿尔茨海默病:蛋白质不足加速大脑衰老!摄入量指南

罗夕夕博士
2026-03-20 22:10:44
打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

澜归序
2026-06-02 07:29:35
两项世界纪录诞生!激光隔空输电 机器人跑了24小时

两项世界纪录诞生!激光隔空输电 机器人跑了24小时

快科技
2026-06-02 22:29:23
神准预言家看好葡萄牙夺冠,C罗有望圆梦2026世界杯

神准预言家看好葡萄牙夺冠,C罗有望圆梦2026世界杯

星耀国际足坛
2026-06-01 23:47:45
泰国王室6月新海报,诗妮娜贵妃以一对三,泰英双语巧妙歌词点评

泰国王室6月新海报,诗妮娜贵妃以一对三,泰英双语巧妙歌词点评

生性洒脱
2026-06-02 00:57:47
割裂的AI代理:要么全部放养,要么锁死在地下室?

割裂的AI代理:要么全部放养,要么锁死在地下室?

码上闲叙
2026-06-01 21:16:47
随着斯维托丽娜1-2,法网女单四强诞生第2席:世界第15首进四强

随着斯维托丽娜1-2,法网女单四强诞生第2席:世界第15首进四强

侧身凌空斩
2026-06-02 20:23:57
一夜三炸!文班顶薪续约,老詹创无人能破纪录,骑士憋大招

一夜三炸!文班顶薪续约,老詹创无人能破纪录,骑士憋大招

宝哥精彩赛事
2026-06-02 18:10:02
嫁给富豪13年却独守娘家,潘阳点醒了无数年轻人,家底再厚也没用

嫁给富豪13年却独守娘家,潘阳点醒了无数年轻人,家底再厚也没用

情感大头说说
2026-05-30 17:02:16
张柏芝案判决强制执行,王菲谢霆锋处境曝光

张柏芝案判决强制执行,王菲谢霆锋处境曝光

圆梦的小老头
2026-06-02 11:57:15
一个落选秀!拿着8000万合同,季后赛场均5分,湖人真要去签他?

一个落选秀!拿着8000万合同,季后赛场均5分,湖人真要去签他?

球毛鬼胎
2026-06-02 18:33:01
万万没想到,西贝翻车的路,爱奇艺又走了一遍,网友群嘲:没底线

万万没想到,西贝翻车的路,爱奇艺又走了一遍,网友群嘲:没底线

离离言几许
2026-05-31 21:21:29
贾跃亭及乐视控股被恢复执行26亿!贾跃亭上月宣布拿到融资,FF转战机器人赛道

贾跃亭及乐视控股被恢复执行26亿!贾跃亭上月宣布拿到融资,FF转战机器人赛道

红星新闻
2026-06-02 13:48:24
埋进土里一万年:为什么玻璃才是人类文明的“终极硬盘”?

埋进土里一万年:为什么玻璃才是人类文明的“终极硬盘”?

心中的麦田
2026-06-01 20:59:23
随着上海惜败,总决赛有变数!广厦找到赢球密码,上海主场夺冠?

随着上海惜败,总决赛有变数!广厦找到赢球密码,上海主场夺冠?

多特体育说
2026-06-02 22:54:44
帅气!41岁C罗戴墨镜抵达训练营:开启第6次世界杯之旅 志在夺冠

帅气!41岁C罗戴墨镜抵达训练营:开启第6次世界杯之旅 志在夺冠

风过乡
2026-06-02 06:23:54
“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

番外行
2026-06-02 14:30:48
章泽天亮相欧冠决赛!无袖马甲穿衣大胆,腕间300万名表

章泽天亮相欧冠决赛!无袖马甲穿衣大胆,腕间300万名表

酷侃体坛
2026-06-02 09:18:00
医生发现:人患肺癌前1年,身体一般会出现7个预警信号

医生发现:人患肺癌前1年,身体一般会出现7个预警信号

牛锅巴小钒
2026-06-02 17:10:58
2026-06-02 23:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12730文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

家居
艺术
时尚
本地
公开课

家居要闻

流线型轮廓 包容多元身形

艺术要闻

周杰伦花 1.36 亿拍下这幅画

穿冰淇淋色裙子,凉快!

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版