近期,加州大学研究人员和英伟达在共同发表的新论文中提出“NaVILA模型”,NaVILA的核心创新在于,不需要预先的地图,机器人只需“听懂”人类的自然语言指令,结合实时的视觉图像和激光雷达信息,就可以自主导航到指定位置。
想象一下这样的场景:你早上醒来,家中的服务机器人正在等候你的指令。
你轻轻说道,“去厨房,拿瓶水过来。” 不到一分钟,机器人小心翼翼地穿过客厅,绕开沙发、宠物和玩具,稳稳地站在冰箱前,打开冰箱门,取出一瓶矿泉水,然后轻轻送到你手中。
这一幕曾经只出现在科幻电影中,而现在,得益于NaVILA模型的出现,这正在变成现实。
NaVILA不仅摆脱了对地图的依赖,还进一步将导航技术从轮式扩展到了腿式机器人,使得机器人在更多复杂场景中,具备跨越障碍和自适应路径规划的能力。
在论文中,加州大学研究人员使用宇树Go2机器狗和G1人形机器人进行了实测,根据团队统计的实测结论,在家庭、户外和工作区等真实环境中,NaVILA的导航成功率高达88%,在复杂任务中的成功率也达到了75%。
(使用NaVILA实测机器狗和机器人听指令行动)
这项研究给机器人导航范式带来革新,让机器人的路径规划从“地图依赖”走向“实时感知”。那么,NaVILA采用了什么样的技术原理?它会给机器人带来哪些新的能力?
提出“中间指令机制”,机器人可以自行拆解指令
在传统的VLN(视觉语言导航系统)中,机器人需要依靠激光雷达(LiDAR)和SLAM算法绘制和维护静态地图。无论是家用扫地机器人还是仓储中的AGV小车,这类机器人只能在预先已知的环境中运行。
一旦面临动态环境,比如家中宠物走动、仓库货架更替这类场景,静态地图的效用大幅削弱,机器人必须频繁重绘地图,而这会增加系统成本和计算负担。
但NaVILA不一样,它可以实现“无图导航”。
这主要是通过两套机制来实现的,一种是高层控制器(视觉-语言-行动(VLA)模型),一种是低层控制器。
在高层控制器层面,NaVILA通过视觉-语言-行动(VLA)模型来实现“无图导航”,即通过视觉图像、激光雷达和自然语言的多模态输入,让机器人实时感知环境中的路径、障碍物和动态目标。
这套视觉-语言-行动(VLA)模型分三个工作流:
●输入阶段:机器人会接收自然语言的指令和摄像头的图像,将人类的语言信息和摄像头看到的画面结合起来,识别出路径中的关键目标,比如前方的墙、左边的障碍物、右边的楼梯等;
●中间指令生成:生成一份“路径规划表”,VLA会生成一系列中间的高层动作指令,这些指令可能是“前进50厘米”、“向左转90度”、“迈过障碍物”等,类似于“简化的路径操作说明书”;
●高频控制器调用,它的任务是实时控制每一个关节的运动。
在这套工作流之中,NaVILA的最大亮点是提出了一种“中间指令机制”,这种机制让机器人不需要“死记硬背”每个关节的动作,而是像人类一样,听懂高层的指令后,再自行拆解为具体的行动。
“中间指令机制”可以让机器人听懂用户日常式的交流语言,不同类型的机器人能够根据自己的“身体结构”去实现动作。
通俗来说,传统的导航机器人就像一个“机械的搬运工”,每次你要告诉它“左脚先抬,右脚再抬,前进5厘米”,这种控制方式非常繁琐。
而NaVILA的VLA模型更像一名懂事的助手,你只需要说“向前走50厘米”,它就会自己拆解成“抬左腿、抬右腿、重心前移”等小动作。
(NaVILA是一个两级框架,将高级视觉语言理解与低级运动控制相结合)
高层控制器(VLA)为机器人生成了路径规划表,但“路径规划表”只能告诉机器人往哪里走,却不会告诉它怎么走。
这时就需要一个“低层控制器”来接手,控制机器人具体的关节动作。
假设你让一个小孩学习走路,如果你只告诉他“去客厅”,他会问你“怎么去?怎么迈步?先迈左脚还是右脚?” 在这个场景中,VLA就像家长的语音指令(“去客厅”),而低层控制器就是小孩自己的“肢体控制系统”,它需要根据“去客厅”的目标,控制每只脚的迈出步长、落地角度和重心平衡,以确保自己不摔倒。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.