四足机器人首次同时「思考+走路」，北大提出链式推理MobileVLA-R1|轨迹|动作|模态|编码器|大模型

四足机器人首次同时「思考+走路」，北大提出链式推理MobileVLA-R1

2025-12-05 10:51:01　来源: 新智元

北京举报

分享至

新智元报道

编辑：LRST

【新智元导读】在「大模型+机器人」的浪潮中，让机器人「听懂人话」已经不难，真正难的是——既要听得懂，还要走得对、走得稳。北京大学最新工作MobileVLA-R1把大模型的「链式思考（Chain-of-Thought）」真正搬进了四足机器人，在VLN导航仿真和真实Unitree Go2实验中，对标GPT-4o、NaVILA等强基线，在成功率和路径效率上实现全线提升，向「既会想、又会走」的具身智能迈出关键一步。

过去两年，RT-2、OpenVLA、NaVILA等Vision-Language-Action（VLA）模型，让机器人「能听懂复杂自然语言指令」成为现实。但一旦落地到四足机器人上，两大老问题依然突出：

语义和控制断层：模型在语言上「讲得通」，但落到连续控制上就开始「晃、抖、走不直」，甚至原地迷路；
决策黑盒，难以纠错：大模型直接给出一个动作，失败了也不知道是理解错了，还是规划错了，更谈不上线上调试与安全监管。

简而言之，现在很多VLA更像是「一次性给答案的黑盒」，而不是真正能「边想边走」的机器人大脑。

针对这些痛点，北京大学团队提出MobileVLA-R1，核心理念只有一句话：不再「看图直接给动作」，而是让机器人先生成一段可解释的链式推理（CoT），再据此输出动作。

论文链接：https://arxiv.org/pdf/2511.17889

项目代码：https://github.com/AIGeeksGroup/MobileVLA-R1

项目主页：https://aigeeksgroup.github.io/MobileVLA-R1/

MobileVLA-R1 总体架构。模型从RGB、深度和点云等多模态输入中抽取3D场景表征，与自然语言指令对齐后，通过链式推理生成高层计划与低层意图，再由Action Decoder输出连续控制命令，驱动四足机器人完成复杂路径规划与动作执行。

在Vision端，MobileVLA-R1同时接入RGB图像、深度图和3D点云 / 地图等多源感知，由图像编码器、深度编码器和点云编码器提取表征，再通过统一的Projection Layer融合为时序场景表示；

在Language / Reasoning端，文本编码器读取自然语言指令，如「先右转走到走廊尽头，再到壁炉前趴下」，并与多模态场景特征对齐；在此基础上，模型利用我们构建的多粒度链式推理数据集MobileVLA-CoT，把一条任务轨迹拆成

「去哪、做什么」的高层目标，
「从哪绕、先避什么」的中层规划，
以及「当前是加速、转向还是减速等待」的低层意图；

在Action端，上层MobileVLA-R1模块输出结构化的CoT，再经由Action Decoder转换为连续速度与转向指令，驱动四足机器人沿着右侧示例中那样的路径完成任务。

这样，MobileVLA-R1更像是一个有自说服能力的机器人管家：每一步该怎么走、为何这么走，都先在「内心独白」里解释清楚，再交给腿脚去执行。

MobileVLA-R1在真实室内环境中的三段示例任务。从左到右分别为：区分垃圾桶和水桶；绕开纸箱到达水桶；穿过椅子间隙到达桌子前。上方展示第三人称轨迹叠加，下方为相应视频片段。

CoT+强化学习

把「说得对」变成「走得好」

为了让「推理」和「控制」真正对齐，MobileVLA-R1采用了类似R1的两阶段训练范式：先教会「会想」，再逼它「走好」。

第一步：监督阶段（SFT）

先把「内心独白」造出来。

如下左图所示，研究人员构建了多粒度的MobileVLA-CoT 数据引擎：

既有面向单步控制的Step-CoT，也有覆盖整条任务轨迹的Episode-CoT / Nav-CoT；
输入同时包含RGB–Depth视觉、导航轨迹和指令文本，再交给Gemini-2.5生成结构化的 … … 链式推理；
通过半自动校验，确保每一步「想法」都和动作、轨迹对得上。

在这一阶段，模型通过监督微调学会像人一样分步思考、拆解任务，也就是先学会「说得对」。

MobileVLA-CoT数据引擎。通过导航数据、Step/Episode级别视觉输入和结构化Prompt，借助Gemini-2.5生成多粒度链式推理标注。

第二步：强化阶段（GRPO 风格）

再把「想得清楚」变成「走得漂亮」。

研究人员在CoT之上构建了一条GRPO强化学习流水线：

对同一条指令，策略模型一次性生成多条 CoT + 动作方案；设计了三类奖励：

Movement Reward：速度、转向等连续控制是否接近专家轨迹；
Action Reward：离散动作选择是否正确；
Format Reward：是否严格遵守 / 结构，保证推理可解析；

综合奖励和KL约束，只保留那些「既想得清楚、又走得好看」的策略更新模型。

相比只在文本上做奖励，MobileVLA-R1的优化目标直接对齐到真实轨迹与动作质量，真正把「大模型式慢思考」压进了四足机器人的行走行为中。

MobileVLA-R1的强化学习流水线。策略模型针对同一指令生成多条CoT+动作方案，结合Movement / Action / Format三类奖励和KL约束进行GRPO更新。

从VLN仿真到真实Go2

对标GPT-4o、NaVILA全面超越

在实验上，MobileVLA-R1覆盖了从仿真到真实机器狗的完整评估链路：

在VLN-CE R2R-CE、RxR-CE等经典 Vision-and-Language Navigation 基准上，在「未见环境」下的成功率（SR）、路径效率（SPL）均显著高于现有导航模型和 VLA 基线；

在四足控制基准QUARD六大任务上，MobileVLA-R1将平均成功率提升至0.73，在「穿越狭窄区域、复杂绕障、货物卸载」等高难度任务上依然保持稳定；

在真实平台Unitree Go2上，研究人员将MobileVLA-R1部署在Jetson Orin机载计算平台上，结合L2 LiDAR+RGB-D摄像头+3D地图的多模态感知，在室外街道、室内走廊等典型场景中执行长时语言指令（如「绕开垃圾桶到门口停下」「找到黑色自行车并趴在旁边」），对比GPT-4o、NaVILA，在简单与复杂长指令下都取得更高完成率和更低导航误差。

下方两个demo分别展示了MobileVLA-R1 在室内Corridor场景和室外Outdoor场景中执行长时语言指令时的真实表现。

视频 1：室内 demo

MobileVLA-R1根据指令「Starting from the initial position, walk forward to find a cardboard box, stop in front of it, and lie down」，在真实室内走廊中完成多模态感知（RGB/ Depth / 3D 点云）–链式推理–连续控制的完整闭环：自主前进、识别纸箱、在目标前精确停下并执行最终动作。

视频 2：室外demo

MobileVLA-R1 根据指令「Turn left and slowly go up the stairs, walk straight ahead for five seconds and stop, then turn right and descend the stairs smoothly」，在真实户外场景中完成上台阶、直行、定点停下、下台阶等连续动作，结合 RGB、深度和点云信息实现稳定的路径规划与地形适应能力。

如下图和上方视频所示，MobileVLA-R1能在真实环境中将视觉、深度和地图信息统一到同一推理链路中，一边「内心独白式」规划路径，一边稳定完成导航与避障。

MobileVLA-R1在Unitree Go2上的真实部署示意。左：机载Jetson Orin+LiDAR + RGB-D摄像头的硬件与部署流程；右：在室外街道、室内走廊等场景中执行长时语言指令时的逐步视觉 / 深度 / 地图可视化。

具身智能迈向

解释得清、走得稳、可持续优化

相比现有VLA，MobileVLA-R1的意义不只在于多了几分成功率，而是在于构建了一个更具「工程可用性」的范式：

可解释：每个动作前都有清晰的CoT，方便线上排查和安全审计；
可优化：可以直接在CoT + 轨迹层面设计新的奖励与人类偏好反馈；
可扩展：天然可以与3D-R1、3D CoCa等3D场景理解模型、长期记忆模块结合，走向更大尺度的具身智能系统。

结语

从一条走廊，到更大的世界

当我们看着一只四足机器人，在拥挤的走廊里绕开行人、玻璃门和随机放置的障碍物，听懂「帮我把快递送到前台，再自己回充电桩」这样的指令，并稳稳完成任务时，

我们看到的不只是单个模型的性能提升，而是具身智能的一次范式升级。

MobileVLA-R1告诉我们：

只要把「看懂世界」「想清路径」「走好每一步」真正连成一条可学习、可强化的链，机器人距离真正的「聪明可靠」就不再那么遥远。

参考资料：

https://arxiv.org/pdf/2511.17889

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.