全球首个！机器人也有“高德”了，银河通用联合北大研发|避障|无人机|机器狗

全球首个！机器人也有“高德”了，银河通用联合北大研发

2025-11-05 12:19:17　来源: 机器人前瞻

北京举报

分享至

银河通用推出全球首个跨本体全域环视的导航基座大模型。

作者 | 许丽思

编辑 | 漠影

机器人前瞻11月5日报道，今天，银河通用联合北京大学、阿德莱德大学、浙江大学等团队，推出了全球首个跨本体全域环视的导航基座大模型——NavFoM（Navigation Foundation Model）。

在今年6月，银河通用发布端到端导航大模型TrackVLA，让机器狗在未训练过的真实场景跟随用户，完成自主移动、避障、转向，并能听懂语音语音指令。而这次发布的NavFoM则是让机器人具备了更强的自主性，在完全未知的环境中自己决定去哪、怎么走。

比如，在执行送甜点的任务时，NavFoM能够让机器狗跟随用户行动，遇到人流密集的情况，自主避开；而当跟随的人员从视线消失后，它可以自主分析寻找。

机器狗支持从跟随模式切换至导航模式，自主规划路线，知道过马路要走斑马线，避开可移动物体，遵守交规；导航让走过街天桥，机器狗也是说一不二，稳妥地完成上楼梯、下楼梯的过程，最终将物品送抵目的地。

01.

模型支持适配多种不同本体，

让机器人学会自己找路

NavFoM作为基座大模型，具有以下三大亮点：

全场景：同时支持室内和室外场景，未见过的场景Zero-Shot运行，无需建图和额外采集训练数据；

多任务：支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务；

跨本体：可快速低成本适配机器狗、轮式人形、腿式人形、无人机、甚至汽车等不同尺寸的异构本体。

除此之外，该模型允许开发人员以之为基座，通过后训练，进一步进化成满足特定导航要求的应用模型。

而这背后，是NavFoM重新定义了机器人导航的底层逻辑。过去，导航任务往往被拆分成识别、定位、规划等独立模块，模型之间缺乏统一语言。

NavFoM则建立了一个新的通用范式：“视频流+文本指令→动作轨迹”。无论是“跟着那个人走”，还是“找到门口的红车”，在NavFoM里都是同一种输入输出形式。模型不再依赖模块化拼接，而是端到端地完成“看到—理解—行动”的全过程。

NavFoM通过两项关键技术创新构建统一学习范式，让机器人不仅看得懂、记得住、学得会，还能联合利用不同本体、不同任务和不同场景的数据实现知识共享：

1、TVI Tokens（Temporal-Viewpoint-Indexed Tokens）——让模型理解时间与方向

不同相机、不同角度、不同时间拍到的画面，常常让模型“迷失”。TVI Tokens就像时间轴与方向罗盘，给每一帧画面加上时间和视角的标记，让模型知道这幅图像来自哪个角度、哪个时刻，从而理解空间的连续变化。它让模型同时兼容单目、环视、无人机等多种视觉输入方式，具备“世界在变化”的时空理解能力。

2、BATS策略（Budget-Aware Token Sampling）——让模型在算力受限下依然聪明

导航时的视频数据极其庞大，不可能每一帧都处理。BATS策略像人类的注意力系统，会动态判断哪些画面是“关键帧”，哪些可以略过。越靠近当前时刻、越重要的场景，采样概率越高，从而节省算力又不损失判断准确性。这一机制让 NavFoM，这一7B参数级别的基座模型也能在真实机器人上毫秒级响应，兼顾实时性与精度。

▲左为给定Token上限，在不同帧数下的采样分布；右为给定视频帧数，在不同Token上限下的采样分布

02.

以千万级高质量数据为基础，一个模型驱动所有形态

银河通用构建了一个跨任务数据集：包含八百万条跨任务、跨本体导航数据，覆盖视觉语言导航，目标导航，目标跟踪，自动驾驶，网络导航数据等多种任务；以及四百万条开放问答数据，让模型具备语言与空间之间的语义理解能力，这一训练量约为以往工作的两倍左右。

▲训练数据量对比

为降低训练对硬件的需求并支持更大规模训练，团队还对图像数据采用了视觉特征缓存（cache）机制，从而减少在线计算开销、提升训练效率，这些数据覆盖了四足、人形、轮式、无人机等多种机器人形态。

▲数据预处理

NavFoM在多个国际公开基准上均达到或刷新SOTA水平：在VLN-CE、HM3D-OVON、NavSim等任务中表现领先；在目标搜索、视觉语言导航、自动驾驶等任务上均展现强大的跨任务泛化能力。更重要的是，它能在真实机器人上直接部署，无需针对任务微调，只需修改自然语言指令或相机配置即可。

在实测中，NavFoM能够驱动多种形态机器人执行复杂任务：四足机器人长程自主跟随、轮式机器人室内外混合导航、无人机复杂地形规划飞行、自动驾驶系统的路径推理与避障决策。

03.

针对不同场景需求，已发布三个应用模型

以NavFoM的统一架构为基石，银河通用针对不同的落地需求，训练并发布了三个的应用模型：

TrackVLA++：其能力相对于TrackVLA显著升级，能实现30分钟以上稳定的长程自主跟随，室内和室外均不在话下、并能适应多种更复杂路况和地形。

UrbanVLA：针对室外场景应用需求，和第三方地图软件打通，可根据地图指引，自主规划最优路线并行至目的地，在街道、天桥、单元楼等各种环境中穿梭自如。

MM-Nav：支持360°无死角厘米级纯视觉避障，解决了躲避玻璃、细线等难题。

04.

结语：机器人具有方向感，是未来具身智能大规模落地的关键

像NavFoM这样的基座模型的出现，让机器人具备理解空间、适应变化、自主行走的能力，是未来具身智能大规模落地的关键。

当机器人能够在陌生街区中找路、在人群中穿行、在复杂空间中预测障碍，拥有了像人类一样的方向感时，就能进一步突破固定场景作业的限制，融入更多核心应用领域，加速人机协同时代的到来。

2025中国具身智能机器人大会预告

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.