网易首页 > 网易号 > 正文 申请入驻

四足机器人首次同时「思考+走路」,北大提出链式推理MobileVLA-R1

0
分享至


新智元报道

编辑:LRST

【新智元导读】在「大模型+机器人」的浪潮中,让机器人「听懂人话」已经不难,真正难的是——既要听得懂,还要走得对、走得稳。北京大学最新工作MobileVLA-R1把大模型的「链式思考(Chain-of-Thought)」真正搬进了四足机器人,在VLN导航仿真和真实Unitree Go2实验中,对标GPT-4o、NaVILA等强基线,在成功率和路径效率上实现全线提升,向「既会想、又会走」的具身智能迈出关键一步。

过去两年,RT-2、OpenVLA、NaVILA等Vision-Language-Action(VLA)模型,让机器人「能听懂复杂自然语言指令」成为现实。但一旦落地到四足机器人上,两大老问题依然突出:

  • 语义和控制断层模型在语言上「讲得通」,但落到连续控制上就开始「晃、抖、走不直」,甚至原地迷路;

  • 决策黑盒,难以纠错大模型直接给出一个动作,失败了也不知道是理解错了,还是规划错了,更谈不上线上调试与安全监管。

简而言之,现在很多VLA更像是「一次性给答案的黑盒」,而不是真正能「边想边走」的机器人大脑。

针对这些痛点,北京大学团队提出MobileVLA-R1,核心理念只有一句话:不再「看图直接给动作」,而是让机器人先生成一段可解释的链式推理(CoT),再据此输出动作。


论文链接:https://arxiv.org/pdf/2511.17889

项目代码:https://github.com/AIGeeksGroup/MobileVLA-R1

项目主页:https://aigeeksgroup.github.io/MobileVLA-R1/


MobileVLA-R1 总体架构。模型从RGB、深度和点云等多模态输入中抽取3D场景表征,与自然语言指令对齐后,通过链式推理生成高层计划与低层意图,再由Action Decoder输出连续控制命令,驱动四足机器人完成复杂路径规划与动作执行。

Vision端,MobileVLA-R1同时接入RGB图像、深度图和3D点云 / 地图等多源感知,由图像编码器、深度编码器和点云编码器提取表征,再通过统一的Projection Layer融合为时序场景表示;

Language / Reasoning端,文本编码器读取自然语言指令,如「先右转走到走廊尽头,再到壁炉前趴下」,并与多模态场景特征对齐;在此基础上,模型利用我们构建的多粒度链式推理数据集MobileVLA-CoT,把一条任务轨迹拆成

  • 「去哪、做什么」的高层目标,

  • 「从哪绕、先避什么」的中层规划,

  • 以及「当前是加速、转向还是减速等待」的低层意图;

Action端,上层MobileVLA-R1模块输出结构化的CoT,再经由Action Decoder转换为连续速度与转向指令,驱动四足机器人沿着右侧示例中那样的路径完成任务。

这样,MobileVLA-R1更像是一个有自说服能力的机器人管家:每一步该怎么走、为何这么走,都先在「内心独白」里解释清楚,再交给腿脚去执行。


MobileVLA-R1在真实室内环境中的三段示例任务。从左到右分别为:区分垃圾桶和水桶;绕开纸箱到达水桶;穿过椅子间隙到达桌子前。上方展示第三人称轨迹叠加,下方为相应视频片段。

CoT+强化学习

把「说得对」变成「走得好」

为了让「推理」和「控制」真正对齐,MobileVLA-R1采用了类似R1的两阶段训练范式:先教会「会想」,再逼它「走好」。

第一步:监督阶段(SFT)

先把「内心独白」造出来。

如下左图所示,研究人员构建了多粒度的MobileVLA-CoT 数据引擎

  • 既有面向单步控制的Step-CoT,也有覆盖整条任务轨迹的Episode-CoT / Nav-CoT

  • 输入同时包含RGB–Depth视觉、导航轨迹和指令文本,再交给Gemini-2.5生成结构化的 … … 链式推理;

  • 通过半自动校验,确保每一步「想法」都和动作、轨迹对得上。

在这一阶段,模型通过监督微调学会像人一样分步思考、拆解任务,也就是先学会「说得对」。


MobileVLA-CoT数据引擎。通过导航数据、Step/Episode级别视觉输入和结构化Prompt,借助Gemini-2.5生成多粒度链式推理标注。

第二步:强化阶段(GRPO 风格)

再把「想得清楚」变成「走得漂亮」。

研究人员在CoT之上构建了一条GRPO强化学习流水线

  • 对同一条指令,策略模型一次性生成多条 CoT + 动作方案;设计了三类奖励:

  • Movement Reward:速度、转向等连续控制是否接近专家轨迹;

  • Action Reward:离散动作选择是否正确;

  • Format Reward:是否严格遵守 / 结构,保证推理可解析;

  • 综合奖励和KL约束,只保留那些「既想得清楚、又走得好看」的策略更新模型。

相比只在文本上做奖励,MobileVLA-R1的优化目标直接对齐到真实轨迹与动作质量,真正把「大模型式慢思考」压进了四足机器人的行走行为中。


MobileVLA-R1的强化学习流水线。策略模型针对同一指令生成多条CoT+动作方案,结合Movement / Action / Format三类奖励和KL约束进行GRPO更新。

从VLN仿真到真实Go2

对标GPT-4o、NaVILA全面超越

在实验上,MobileVLA-R1覆盖了从仿真到真实机器狗的完整评估链路:

VLN-CE R2R-CE、RxR-CE等经典 Vision-and-Language Navigation 基准上,在「未见环境」下的成功率(SR)、路径效率(SPL)均显著高于现有导航模型和 VLA 基线;


在四足控制基准QUARD六大任务上,MobileVLA-R1将平均成功率提升至0.73,在「穿越狭窄区域、复杂绕障、货物卸载」等高难度任务上依然保持稳定;


在真实平台Unitree Go2上,研究人员将MobileVLA-R1部署在Jetson Orin机载计算平台上,结合L2 LiDAR+RGB-D摄像头+3D地图的多模态感知,在室外街道、室内走廊等典型场景中执行长时语言指令(如「绕开垃圾桶到门口停下」「找到黑色自行车并趴在旁边」),对比GPT-4o、NaVILA,在简单与复杂长指令下都取得更高完成率和更低导航误差。


下方两个demo分别展示了MobileVLA-R1 在室内Corridor场景和室外Outdoor场景中执行长时语言指令时的真实表现。

视频 1:室内 demo

MobileVLA-R1根据指令 「Starting from the initial position, walk forward to find a cardboard box, stop in front of it, and lie down」,在真实室内走廊中完成多模态感知(RGB/ Depth / 3D 点云)–链式推理–连续控制的完整闭环:自主前进、识别纸箱、在目标前精确停下并执行最终动作。

视频 2:室外demo

MobileVLA-R1 根据指令「Turn left and slowly go up the stairs, walk straight ahead for five seconds and stop, then turn right and descend the stairs smoothly」,在真实户外场景中完成上台阶、直行、定点停下、下台阶等连续动作,结合 RGB、深度和点云信息实现稳定的路径规划与地形适应能力。

如下图和上方视频所示,MobileVLA-R1能在真实环境中将视觉、深度和地图信息统一到同一推理链路中,一边「内心独白式」规划路径,一边稳定完成导航与避障。


MobileVLA-R1在Unitree Go2上的真实部署示意。左:机载Jetson Orin+LiDAR + RGB-D摄像头的硬件与部署流程;右:在室外街道、室内走廊等场景中执行长时语言指令时的逐步视觉 / 深度 / 地图可视化。

具身智能迈向

解释得清、走得稳、可持续优化

相比现有VLA,MobileVLA-R1的意义不只在于多了几分成功率,而是在于构建了一个更具「工程可用性」的范式:

  • 可解释:每个动作前都有清晰的CoT,方便线上排查和安全审计;

  • 可优化:可以直接在CoT + 轨迹层面设计新的奖励与人类偏好反馈;

  • 可扩展:天然可以与3D-R1、3D CoCa等3D场景理解模型、长期记忆模块结合,走向更大尺度的具身智能系统。


结语

从一条走廊,到更大的世界

当我们看着一只四足机器人,在拥挤的走廊里绕开行人、玻璃门和随机放置的障碍物,听懂「帮我把快递送到前台,再自己回充电桩」这样的指令,并稳稳完成任务时,

我们看到的不只是单个模型的性能提升,而是具身智能的一次范式升级

MobileVLA-R1告诉我们:

只要把「看懂世界」「想清路径」「走好每一步」真正连成一条可学习、可强化的链,机器人距离真正的「聪明可靠」就不再那么遥远。

参考资料:

https://arxiv.org/pdf/2511.17889

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
邮报:老佛爷一直想请回穆帅,此次内讧让他看到了可乘之机

邮报:老佛爷一直想请回穆帅,此次内讧让他看到了可乘之机

懂球帝
2026-05-10 14:37:03
特朗普懵了!最后一条路,也被堵死了!

特朗普懵了!最后一条路,也被堵死了!

大嘴说天下
2026-05-09 20:24:37
破案!张皓嘉绝杀前,赵睿故意不防的原因找到,许利民李楠要背锅

破案!张皓嘉绝杀前,赵睿故意不防的原因找到,许利民李楠要背锅

后仰大风车
2026-05-10 09:05:17
快讯!特朗普下周的访华名单,真是给人看笑了!

快讯!特朗普下周的访华名单,真是给人看笑了!

达文西看世界
2026-05-10 09:50:48
难以饶恕!榴莲仅退款女孩过分言论曝光:脸真大,不知羞耻的东西

难以饶恕!榴莲仅退款女孩过分言论曝光:脸真大,不知羞耻的东西

小徐讲八卦
2026-05-09 10:31:23
东莞山姆场面混乱......

东莞山姆场面混乱......

东莞好生活
2026-05-10 11:08:40
红场阅兵外宾曝光,北约来了一个国家,除中国外还有一个国家很特别

红场阅兵外宾曝光,北约来了一个国家,除中国外还有一个国家很特别

麓谷隐士
2026-05-10 00:07:57
笑死!比亚迪 “青蛙车”全网爆火,网友调侃:喇叭必须是 “呱呱呱”

笑死!比亚迪 “青蛙车”全网爆火,网友调侃:喇叭必须是 “呱呱呱”

品牌新
2026-05-09 16:55:51
打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

网络易不易
2026-05-10 11:34:41
突传死讯!香港知名演员老公在家中离世,坐在轮椅上没了呼吸

突传死讯!香港知名演员老公在家中离世,坐在轮椅上没了呼吸

一盅情怀
2026-05-10 12:46:52
伊朗革命卫队或将发动猛烈打击

伊朗革命卫队或将发动猛烈打击

参考消息
2026-05-10 10:36:03
37死51伤!浏阳烟花厂爆炸原因查明,公司实际控制人被扒,后续!

37死51伤!浏阳烟花厂爆炸原因查明,公司实际控制人被扒,后续!

眼光很亮
2026-05-10 05:50:27
砸了5亿美金还没当上爷,他们才是最怕世界杯转播权谈崩的人

砸了5亿美金还没当上爷,他们才是最怕世界杯转播权谈崩的人

壹览商业官方
2026-05-09 19:10:40
刚达成停火协议就毁约,俄阅兵后对乌发起1524次袭击

刚达成停火协议就毁约,俄阅兵后对乌发起1524次袭击

史政先锋
2026-05-10 12:11:06
小玥儿开通个人账号!发文求救,晒照思念妈妈,外婆和小S是好友

小玥儿开通个人账号!发文求救,晒照思念妈妈,外婆和小S是好友

阿凫爱吐槽
2026-05-10 11:37:50
1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

史海孤雁
2026-05-09 19:13:11
“这环境,咋敢生孩子?”女孩因充电器被碰掉绝食,穷人家的公主

“这环境,咋敢生孩子?”女孩因充电器被碰掉绝食,穷人家的公主

妍妍教育日记
2026-05-09 13:31:49
汪峰森林北被曝分手,森林北立即断舍离,自嘲是汪峰5任中最差的

汪峰森林北被曝分手,森林北立即断舍离,自嘲是汪峰5任中最差的

露珠聊影视
2026-05-09 22:16:53
游客投诉演唱会座椅脏污被桂林文旅“拉黑” 场馆方称做了清洁,当事人要求道歉

游客投诉演唱会座椅脏污被桂林文旅“拉黑” 场馆方称做了清洁,当事人要求道歉

封面新闻
2026-05-09 19:20:03
心理学有个残忍发现:让一个人终身困在焦虑里、无法自拔,从不是缺爱缺安全感,而是这两道“埋在意识底层的心理门槛”

心理学有个残忍发现:让一个人终身困在焦虑里、无法自拔,从不是缺爱缺安全感,而是这两道“埋在意识底层的心理门槛”

心理观察局
2026-05-09 09:10:05
2026-05-10 15:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15174文章数 66854关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

体育要闻

詹姆斯生涯第6次0-3困境:今年会被横扫吗

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
时尚
手机
家居
公开课

本地新闻

用苏绣的方式,打开江西婺源

今年最好看的衬衫竟然是它?太减龄了!

手机要闻

华为智慧屏S7发布:搭载全新自研鸿鹄芯片,3999元起

家居要闻

菁英人居 全能豪宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版