![]()
![]()
银河通用推出全球首个跨本体全域环视的导航基座大模型。
作者 | 许丽思
编辑 | 漠影
机器人前瞻11月5日报道,今天,银河通用联合北京大学、阿德莱德大学、浙江大学等团队,推出了全球首个跨本体全域环视的导航基座大模型——NavFoM(Navigation Foundation Model)。
在今年6月,银河通用发布端到端导航大模型TrackVLA,让机器狗在未训练过的真实场景跟随用户,完成自主移动、避障、转向,并能听懂语音语音指令。而这次发布的NavFoM则是让机器人具备了更强的自主性,在完全未知的环境中自己决定去哪、怎么走。

比如,在执行送甜点的任务时,NavFoM能够让机器狗跟随用户行动,遇到人流密集的情况,自主避开;而当跟随的人员从视线消失后,它可以自主分析寻找。

机器狗支持从跟随模式切换至导航模式,自主规划路线,知道过马路要走斑马线,避开可移动物体,遵守交规;导航让走过街天桥,机器狗也是说一不二,稳妥地完成上楼梯、下楼梯的过程,最终将物品送抵目的地。


01.
模型支持适配多种不同本体,
让机器人学会自己找路
NavFoM作为基座大模型,具有以下三大亮点:
全场景:同时支持室内和室外场景,未见过的场景Zero-Shot运行,无需建图和额外采集训练数据;
多任务:支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务;
跨本体:可快速低成本适配机器狗、轮式人形、腿式人形、无人机、甚至汽车等不同尺寸的异构本体。
除此之外,该模型允许开发人员以之为基座,通过后训练,进一步进化成满足特定导航要求的应用模型。
而这背后,是NavFoM重新定义了机器人导航的底层逻辑。过去,导航任务往往被拆分成识别、定位、规划等独立模块,模型之间缺乏统一语言。
NavFoM则建立了一个新的通用范式:“视频流+文本指令→动作轨迹”。无论是“跟着那个人走”,还是“找到门口的红车”,在NavFoM里都是同一种输入输出形式。模型不再依赖模块化拼接,而是端到端地完成“看到—理解—行动”的全过程。
![]()
NavFoM通过两项关键技术创新构建统一学习范式,让机器人不仅看得懂、记得住、学得会,还能联合利用不同本体、不同任务和不同场景的数据实现知识共享:
1、TVI Tokens(Temporal-Viewpoint-Indexed Tokens)——让模型理解时间与方向
不同相机、不同角度、不同时间拍到的画面,常常让模型“迷失”。TVI Tokens就像时间轴与方向罗盘,给每一帧画面加上时间和视角的标记,让模型知道这幅图像来自哪个角度、哪个时刻,从而理解空间的连续变化。它让模型同时兼容单目、环视、无人机等多种视觉输入方式,具备“世界在变化”的时空理解能力。
![]()
2、BATS策略(Budget-Aware Token Sampling)——让模型在算力受限下依然聪明
导航时的视频数据极其庞大,不可能每一帧都处理。BATS策略像人类的注意力系统,会动态判断哪些画面是“关键帧”,哪些可以略过。越靠近当前时刻、越重要的场景,采样概率越高,从而节省算力又不损失判断准确性。这一机制让 NavFoM,这一7B参数级别的基座模型也能在真实机器人上毫秒级响应,兼顾实时性与精度。
![]()
▲左为给定Token上限,在不同帧数下的采样分布;右为给定视频帧数,在不同Token上限下的采样分布
02.
以千万级高质量数据为基础,一个模型驱动所有形态
银河通用构建了一个跨任务数据集:包含八百万条跨任务、跨本体导航数据,覆盖视觉语言导航,目标导航,目标跟踪,自动驾驶,网络导航数据等多种任务;以及四百万条开放问答数据,让模型具备语言与空间之间的语义理解能力,这一训练量约为以往工作的两倍左右。
![]()
▲训练数据量对比
为降低训练对硬件的需求并支持更大规模训练,团队还对图像数据采用了视觉特征缓存(cache)机制,从而减少在线计算开销、提升训练效率,这些数据覆盖了四足、人形、轮式、无人机等多种机器人形态。
![]()
▲数据预处理
NavFoM在多个国际公开基准上均达到或刷新SOTA水平:在VLN-CE、HM3D-OVON、NavSim等任务中表现领先;在目标搜索、视觉语言导航、自动驾驶等任务上均展现强大的跨任务泛化能力。更重要的是,它能在真实机器人上直接部署,无需针对任务微调,只需修改自然语言指令或相机配置即可。
在实测中,NavFoM能够驱动多种形态机器人执行复杂任务:四足机器人长程自主跟随、轮式机器人室内外混合导航、无人机复杂地形规划飞行、自动驾驶系统的路径推理与避障决策。
03.
针对不同场景需求,已发布三个应用模型
以NavFoM的统一架构为基石,银河通用针对不同的落地需求,训练并发布了三个的应用模型:
TrackVLA++:其能力相对于TrackVLA显著升级,能实现30分钟以上稳定的长程自主跟随,室内和室外均不在话下、并能适应多种更复杂路况和地形。

UrbanVLA:针对室外场景应用需求,和第三方地图软件打通,可根据地图指引,自主规划最优路线并行至目的地,在街道、天桥、单元楼等各种环境中穿梭自如。

MM-Nav:支持360°无死角厘米级纯视觉避障,解决了躲避玻璃、细线等难题。

04.
结语:机器人具有方向感,是未来具身智能大规模落地的关键
像NavFoM这样的基座模型的出现,让机器人具备理解空间、适应变化、自主行走的能力,是未来具身智能大规模落地的关键。
当机器人能够在陌生街区中找路、在人群中穿行、在复杂空间中预测障碍,拥有了像人类一样的方向感时,就能进一步突破固定场景作业的限制,融入更多核心应用领域,加速人机协同时代的到来。
![]()
2025中国具身智能机器人大会预告
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.