网易首页 > 网易号 > 正文 申请入驻

北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型

0
分享至



视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难以兼顾高层规划与精细操控。

针对这一问题,北京大学、香港中文大学与至简动力团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。



  • 论文题目:ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation
  • 论文链接:https://arxiv.org/abs/2512.02013
  • 项目主页:https://sites.google.com/view/maunalvla


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A

不同于 π0 等端到端模型在处理复杂长程任务时仍面临的推理与执行割裂问题,ManualVLA 摒弃了将「高层次规划」与「动作生成」拆分的传统分层级联方案,构建了全新通用基础模型 Mixture-of-Transformers (MoT) 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同。

首先由「规划专家」生成由图像、空间位置提示和文字说明组成的多模态操作说明书,再通过显式与隐式相结合的「思维链」(ManualCoT)推理,将信息反馈给「动作专家」,为每一步操作提供清晰的显式控制条件的同时,通过潜在表征为动作生成提供持续的隐式引导,实现理解与生成的高度统一。

实验结果表明,ManualVLA 在现实场景任务中表现出显著优势,其平均成功率相较于分层结构的最新基线方法提升约 32%,充分验证了「生成手册–指导动作」这一统一范式的有效性。

一、研究背景与挑战

近年来,VLA 模型在机器人场景理解和泛化操作方面取得了显著进展,推动了通用具身智能体的发展。但当面临需要精确定义最终目标状态的长周期任务,例如复杂的乐高组装或物体重新排列时,现有模型仍然难以协调高级规划与精确操作。

这些任务主要面临两个核心难题:首先,VLA 模型必须执行精确操作以严格对齐预定义的最终场景或物体配置;其次,模型必须有效地将长周期规划与细粒度控制相集成,同时保持对多样化现实世界环境的泛化能力。

现有的分层方法通过依赖人工制作说明书或人类演示视频来模仿这种能力,然而,这些方法通常在泛化到未见过的最终目标状态方面存在局限性,在系统复杂度、部署成本和泛化性之间难以取得兼顾,难以形成一个统一、可端到端训练和部署的体系。

二、ManualVLA 方法陈述

为此,ManualVLA 让模型学会「自己生成说明书,再按说明书去执行动作」。在推理阶段,系统首先接收自然语言指令、当前场景图像和最终目标图像,由规划专家生成包含关键步骤的多模态手册:由文字描述指出要操控哪些物体以及要完成的子目标,像素级坐标给出目标物体在图像中的精确位置,子目标图像则展示子目标完成后的「预期画面」。动作专家在闭环控制中执行这一子目标,直到达到预期状态,再进入下一次手册生成与执行。通过这种逐步推进的方式,原本困难的长时序任务被拆解为一系列可控、可解释的短阶段。



▲ 图 1| (a) 诸如乐高拼搭或物体重排等具有预定义目标状态的长程任务,对智能机器人构成了重大挑战。(b) 为了解决此类任务,我们提出了 ManualVLA。这是一个基于 MoT 架构构建的统一 VLA 模型,它通过一种精心设计的「说明书思维链」(Manual Chain-of-Thought),实现了多模态手册生成与动作生成之间的紧密协同。


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A

架构设计

ManualVLA 将 Janus-Pro 1B 拓展到 MoT 架构,形成统一 VLA 模型并集成「规划专家」和「动作专家」,实现了多模态手册生成和动作执行之间的连贯协作。

  • 规划专家:处理图像信息时,ManualVLA 采用了基于 VQ 的视觉分词器 (VQ-based vision tokenizer),该分词器遵循 VQ-GAN 的编码器-量化器-解码器架构,对子目标图像进行离散化建模。
  • 动作专家:采用基于扩散去噪的方法进行动作建模,通过两层 MLP 构建将噪声动作注入动作专家的噪声编码器,以及用于从潜在表示中预测噪声的噪声解码器。在动作生成的视觉输入上,ManualVLA 采用了 SigLIP-large,从 384×384 输入图像中提取高维语义特征。

ManualCoT 思维链机制

该机制从显式与隐式两条路径影响动作生成。

  • 显式路径:模型把规划专家预测的目标位置以 visual prompt 形式叠加在当前图像上,构成带有明显操作区域提示的「提示图」,动作专家直接以此作为视觉输入之一,仿佛在图像上用荧光笔圈出了「请在这里操作」。
  • 隐式路径:手册生成时产生的内部特征——无论对应文字描述、坐标还是子目标图像——都通过专门设计的注意力掩码被动作专家读取,相当于在看不见的空间中不断提醒动作模块「当前在做什么、应该做到什么程度、做完以后世界会是什么样」。消融实验表明,去掉任一路径都会显著降低长任务中的成功率,说明只有显隐结合,才能兼顾精度与稳健性。



▲ 图 2| (a) 该框架包含两个专家模块:负责生成多模态「说明书」的规划专家,以及负责预测精确动作的动作专家。规划专家处理人类指令、当前图像和最终目标图像,生成结合了下一步图像、位置坐标和子任务指令的中间手册。我们引入了一个显式思维链 (Explicit CoT)推理过程,其中每个位置指示符都作为一个视觉提示 (Visual Prompt) 嵌入到动作专家的观测输入中。(b) 结合跨任务共享注意力机制和专门设计的 Attention mask,生成的「说明书」token 也被用作动作生成的条件信号,从而实现了一种能有效引导动作专家的隐式思维链 (Implicit CoT)推理过程。

三阶段训练

  • 第一阶段:基于互联网机器人数据集,筛选与装配和重排相关的轨迹,构建超过 40 万条示例的预训练集,只更新动作专家,学习抓取、搬运和放置技能。
  • 第二阶段:利用基于三维高斯表示的数字孪生工具,对乐高板、单块积木和常见桌面物体进行三维重建,在虚拟空间中反复随机排列组合,自动渲染每个中间状态的图像并记录对应的位置和文字描述模板,为每个任务合成上万帧带有精确标注的手册数据,用于训练规划专家。
  • 第三阶段:在真实双臂平台上通过遥操作采集每个任务 100 条专家示范轨迹,自动抽取关键帧生成与真实执行过程一致的手册–动作配对,在此基础上对规划与动作两个专家进行联合微调,使模型在真实环境中的规划–执行闭环更加贴合物理世界。



▲ 图 3| 数字孪生示例 (a) 我们重建了 3D 高斯溅射表征,随后将其分解为乐高底板和单个积木。(b) 我们逐步地将积木放置在底板上/将物体放置在盒子上。

三、真机、模拟器、泛化性实验

真机实验

在 Franka 双臂平台上,ManualVLA 测试了三个需要明确目标状态的长周期真实世界任务——2D 乐高组装、3D 乐高组装和物体重新排列。在手册生成方面,规划专家在 300 个未见过的测试样本上生成了令人满意的中间图像(例如 2D 乐高组装的 PSNR 达 29.01),低 FID 分数(例如物体重新排列为 24.46)证实了生成图像的真实性和保真度,而极低的 MAE 分数(例如 2D 乐高组装为 3.23)则突显了模型在预测目标对象位置方面的精确性。



▲ 图 5| 「规划专家」逐步生成 ManualCoT「说明书」,Pred 指代模型生成的预测结果,GT 指代真实图像。



▲ 表 1| 在三个长程任务上,ManualVLA 生成的中间目标图像与 UV 坐标的质量的量化结果。

动作生成结果

ManualVLA 在所有三个真实世界长周期任务中均取得了最高成功率,相比最强的分层基线 (VLM + π0.5),最终任务完成率提高了 15% 到 30%,平均成功率高出 32%。基线模型通常难以在整个长序列中保持性能,但 ManualVLA 通过 ManualCoT 策略有效地将复杂任务分解并锚定到精确动作中,缓解了性能随步骤数增加而下降的问题。


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A



▲ 表 2| 我们使用 20 个模型均未见过的目标状态进行测试,得到完成长程任务的操作成功率与关键中间步骤的成功率。

仿真实验

ManualVLA 在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率,超越了 SOTA 方法 π0 的 63%,进一步验证了 ManualCoT 策略在指导精确动作生成方面的优势,在通用原子任务上也能表现出良好效果。



▲ 表 3| ManualVLA 与各 Baseline 模型在仿真环境 RLBench 上各项原子任务的成功率与方差。

消融与泛化实验

消融实验证明,说明书中所有模态信息(文本、图像、UV 坐标)和隐式 CoT(潜在空间中的条件信号)推理对于解决长周期、目标明确的操作任务是不可或缺的,两者结合才能达到最佳性能。同时,ManualVLA 在未见过的背景、物体形状和光照变化下也表现出鲁棒的泛化能力。



▲ 表 4| 我们探究了如下因素对任务成功率的影响:(a) 说明书中包含的信息;(b) 显式与隐式的 ManualCoT 思维链机制;(c) MoT 架构与 action 生成范式。



▲ 表 5| 在明显变化且模型未见过的背景、物体形状和光照变化下,ManualVLA 的任务成功率。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太不争气了!11场季后赛仅6场上双 场均10+9 亲手把2亿合同打没了

太不争气了!11场季后赛仅6场上双 场均10+9 亲手把2亿合同打没了

大卫的篮球故事
2026-05-12 17:09:43
心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理观察局
2026-05-12 09:06:23
美国AI巨头助乌克兰,俄军进入高危时刻

美国AI巨头助乌克兰,俄军进入高危时刻

桂系007
2026-05-12 17:32:49
越来越多的本科生进厂当普工了!

越来越多的本科生进厂当普工了!

灯锦年
2026-05-12 10:31:01
容祖儿这辈子都逃不开?杨受成不娶也不放手,关系藏了27年

容祖儿这辈子都逃不开?杨受成不娶也不放手,关系藏了27年

可乐谈情感
2026-05-12 16:08:00
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

浩渺青史
2026-04-17 13:55:15
76岁的万科创始人王石,最近彻底成了全网焦点。

76岁的万科创始人王石,最近彻底成了全网焦点。

梦录的西方史话
2026-04-23 14:36:39
那些注射司美格鲁肽减重的人,后来怎样了?

那些注射司美格鲁肽减重的人,后来怎样了?

环球网资讯
2026-05-11 21:49:06
来华5天,日代表团绕道不去北京,中方特殊安排,高市要心中有数

来华5天,日代表团绕道不去北京,中方特殊安排,高市要心中有数

吃货的分享
2026-05-12 15:06:34
莱维特网上炫富,展示大钻戒和LV礼物,被批“没灵魂的恶毒女人”

莱维特网上炫富,展示大钻戒和LV礼物,被批“没灵魂的恶毒女人”

深析古今
2026-05-12 11:32:23
44岁范冰冰近照判若两人!与妈妈同框身形暴肥,这次是真怀孕了?

44岁范冰冰近照判若两人!与妈妈同框身形暴肥,这次是真怀孕了?

八卦王者
2026-05-12 15:27:14
东方证券亮红灯!融资客今夜无眠,AI泡沫要破?要是崩盘都跑不掉

东方证券亮红灯!融资客今夜无眠,AI泡沫要破?要是崩盘都跑不掉

丁丁鲤史纪
2026-05-12 17:39:23
副市长去省里跑官,让秘书给领导送温暖,市书记警告他反被威胁

副市长去省里跑官,让秘书给领导送温暖,市书记警告他反被威胁

叶天辰故事会
2025-02-26 14:05:37
假如许世友的两套作战方案得到采纳,估计越南历史会被重写

假如许世友的两套作战方案得到采纳,估计越南历史会被重写

勇哥读史
2026-05-11 14:54:10
记者:皇马队内一些有影响力的球员希望俱乐部今夏让82离开

记者:皇马队内一些有影响力的球员希望俱乐部今夏让82离开

懂球帝
2026-05-11 19:12:33
13票闪击换帅!菲律宾参议院突变天,索托当庭被掀下议长宝座?

13票闪击换帅!菲律宾参议院突变天,索托当庭被掀下议长宝座?

夜里看海
2026-05-12 06:33:09
维修资金成了“提款机”?上海一小区物业被曝疯狂敛财:1.3万修个插头 300元椅子敢报1000

维修资金成了“提款机”?上海一小区物业被曝疯狂敛财:1.3万修个插头 300元椅子敢报1000

闪电新闻
2026-05-11 18:42:48
中国油轮被伊朗特种部队扣押:喂了五年的狼,终于露出了牙

中国油轮被伊朗特种部队扣押:喂了五年的狼,终于露出了牙

以色列计划Pro
2026-05-12 12:20:26
毛主席孙媳刘滨,已成为毛家顶梁柱,为毛家育一双优秀儿女

毛主席孙媳刘滨,已成为毛家顶梁柱,为毛家育一双优秀儿女

大江
2026-05-12 17:38:50
2026-05-12 18:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12976文章数 142648关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

老人游泳馆溺水6分钟无人施救 家属:救生员在玩手机

头条要闻

老人游泳馆溺水6分钟无人施救 家属:救生员在玩手机

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

健康
艺术
教育
数码
军事航空

干细胞能让人“返老还童”吗

艺术要闻

这位画家的油画美人让人惊叹不已!

教育要闻

牛!玄外41人、明道30人、金中河西26人、求真24....特长生牛娃上岸附中!

数码要闻

雷克沙推出双口移动固态硬盘D70E,读取速率可达2000MB/s

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版