VLA?：让机器人拥有"搜索大脑"的西湖大学新突破|翻译|大模型

分享至

这项由西湖大学MiLAB实验室的赵涵等研究人员于2024年10月发表在arXiv预印本平台上的研究（论文编号：2510.14902v1），为机器人视觉-语言-动作模型带来了革命性的改进。该研究团队包括来自浙江大学、西湖大学、南方科技大学和香港科技大学（广州）的多位研究者，他们共同开发了一个名为VLA?的智能框架，让机器人能够像人类一样在遇到陌生物品时主动"上网搜索"来学习新知识。

想象一下，当你第一次看到一个从未见过的厨房用具时，你会怎么做？你可能会拿起手机搜索"这是什么东西"，了解它的用途和使用方法。现在，研究团队让机器人也拥有了这种能力。传统的机器人就像一个只会按照食谱做菜的厨师，一旦遇到食谱上没有的食材就束手无策。而VLA?就像给这个厨师配备了一台智能手机和无线网络，让它能够在遇到新食材时立即查询相关信息，学会如何处理。

当前的视觉-语言-动作模型虽然在处理训练数据中见过的物品时表现出色，但面对全新的物品概念时却常常失效。这就好比一个只在中餐厅工作过的厨师突然被要求制作意大利菜，由于缺乏相关经验，往往会手足无措。VLA?的创新之处在于为机器人建立了一套完整的"学习新知识"体系，让它能够主动获取、理解并应用新信息。

这个突破性框架的核心理念是"即时学习"。当机器人遇到训练数据中没有的新物品时，它不会像传统模型那样直接放弃，而是会启动一系列智能模块来获取相关知识。整个过程包括任务规划、网络搜索、物体检测和任务验证等多个环节，就像一个完整的问题解决流水线。

研究团队选择OpenVLA作为基础执行模型，这相当于为机器人提供了一个强大的"大脑"。然后在此基础上添加了各种外部工具模块，让机器人能够调用网络搜索、视觉识别等功能。这种设计思路类似于给智能手机安装各种应用程序，每个应用都有特定的功能，协同工作时能够解决复杂问题。

为了验证这个框架的有效性，研究团队基于LIBERO仿真环境设计了一套全新的测试体系。他们创建了三个不同难度级别的测试环境：简单级别主要测试颜色变化的适应能力，中等级别涉及物品形状和材质的变化，困难级别则包含完全陌生的物品概念。这种分层测试就像驾照考试中的科目一、科目二和科目三，每个级别都有特定的考核重点。

一、智能任务分解：让复杂变简单

VLA?框架的第一个核心组件是任务规划模块，它的作用就像一个经验丰富的项目经理，能够将复杂的工作任务分解成一系列简单明确的步骤。当你告诉机器人"把蓝白相间的瓷碗放到炉子上"时，规划模块会自动将这个指令分解为"拿起蓝白相间的瓷碗"和"将瓷碗放置到炉子上"两个基本动作。

这种分解过程并非简单的文字切割，而是需要深入理解任务的逻辑结构。研究团队使用GLM-4.1V-9B-Thinking模型作为规划器的"大脑"，这个模型经过专门训练，能够识别动作的先后顺序和依赖关系。比如，在执行"打开抽屉并把碗放进去"这样的复合任务时，规划器会明确识别出必须先执行"打开抽屉"这个前置动作，然后才能执行"放置物品"的后续动作。

为了确保规划结果的可靠性，研究团队设计了严格的输出约束条件。每个子任务必须包含确切的一个动作动词，比如"拿起"、"移动"或"打开"，同时必须明确指定相关的物品和位置。这种设计就像给机器人制定了一套标准化的"工作手册"，确保每个指令都清晰明确，不会产生歧义。

规划模块还配备了三层后处理机制来应对可能出现的错误。第一层是自动语言提取，能够从模型输出中识别关键信息。第二层是错误检测和重新生成机制，当提取失败时会要求模型重新输出。第三层是硬编码的任务特定解析，当前两层都失败时提供最后的保障。这种多重保护机制确保无论模型输出什么内容，最终传递给后续模块的都是有效且高质量的信息。

除了基本的任务分解功能，规划模块还具备处理复杂情况的能力。当遇到需要多步骤协调的任务时，比如"先打开微波炉，再把杯子放进去，最后关闭微波炉"，规划器能够正确识别这种时序依赖关系，确保动作按照合理的顺序执行。这种智能分解能力为整个框架的成功运行奠定了坚实基础。

二、视觉认知升级：从"看见"到"理解"

VLA?的视觉处理系统就像给机器人配备了一双既能"看见"又能"思考"的智慧眼睛。传统的机器人视觉系统只能识别训练时见过的物品，就像一个只认识苹果和橙子的孩子，突然看到芒果时就完全不知所措。而VLA?的视觉系统则具备了主动学习新物品的能力。

当系统遇到无法识别的物品时，它会启动一个"双重判断"机制。首先检查是否能够在图像中找到该物品的有效边界框，同时并行检查是否已经有相关的辅助关键词信息。如果任一信号缺失，系统就会触发视觉搜索分支，自动从网络下载相关图片，将这些图片组合成一个2×3的拼贴画，然后结合结构化的文本提示发送给GLM理解模块进行分析。

GLM理解模块的工作原理颇为巧妙。它会分析从网络获取的参考图片和当前场景中的目标物品，生成五个简洁的描述性关键词。这些关键词专门用于描述物品的基本属性，比如颜色、形状、功能和尺寸等。例如，当遇到"蓝白相间的瓷碗"时，系统可能会生成"圆形"、"陶瓷"、"蓝色"、"白色"、"容器"这样的关键词。这些关键词既支持后续的重新检测，也会被储存在视觉记忆中供未来任务使用。

视觉处理的下一步是精确定位和分割。系统使用增强后的关键词信息重新运行MMGroundingDINO检测器，尝试在场景中定位目标物品。一旦成功检测到物品位置，系统就会使用SAM2.1-L分割模型将边界框转换为像素级精确的遮罩。这个过程就像用彩色透明贴纸精确标记出物品的轮廓，让机器人能够准确知道目标物品的确切位置和形状。

为了帮助机器人更好地区分不同类型的物品，系统采用了颜色编码策略。操作对象（比如需要抓取的碗）和位置目标（比如放置的桌子）使用不同的颜色调色板进行标记。这种设计让下游的执行模块能够利用角色感知的颜色线索来学习动作与图像的对应关系。

整个视觉处理流程体现了"即时学习"的核心理念。系统不是简单地拒绝处理未知物品，而是积极地将陌生输入转换为熟悉的表示形式。通过将新概念分解为基本属性并将其锚定到已知概念上，系统实现了有效的跨领域泛化。这种方法的理论基础在于认知科学的研究发现：当先验知识可用且可访问时，它能够促进新信息的理解和记忆。

三、语言智能转换：化生疏为熟悉

VLA?的语言处理组件承担着将"外星语言"翻译成"本地方言"的重要任务。当机器人遇到训练词汇表中没有的新词汇时，语言模块就像一个精通多种语言的翻译官，能够找到最合适的对应词汇进行替换。

语言处理的核心机制是智能替换系统。当系统收到包含陌生词汇的指令时，比如"把茅台酒放到架子上"，而"茅台酒"这个词汇在训练数据中从未出现过，语言模块就会启动替换程序。它首先检查该词汇是否在已知词汇列表中，如果不在，就会调用GLM模型生成一个合适的替换词。

GLM理解模块在进行语言替换时会综合考虑多种信息源。它会分析第一张图像中的物品边界框和得分信息，参考从网络搜索获得的拼贴图像，结合原始提示文本、网络获取的关键词、已知词汇列表，以及外部API提供的描述信息。基于这些丰富的上下文信息，模型能够生成准确的替换映射。

例如，当遇到"茅台酒"这个陌生概念时，系统可能会将其替换为训练数据中的"酒瓶"或"瓶子"。这种替换不是简单的同义词匹配，而是基于功能和属性相似性的智能映射。替换后的词汇必须是机器人在训练过程中学会操作的熟悉概念，这样才能确保后续的动作执行能够成功。

为了提高替换效率和准确性，系统建立了文本记忆机制。每当成功生成一个有效的替换映射时，这个对应关系就会被记录在语言模块的文本记忆中。当相同的词汇再次出现时，系统可以直接使用存储的映射，而无需重新进行复杂的分析过程。这种记忆机制大大提高了系统的响应速度和一致性。

语言处理的最后一步是任务列表修复。在确定所有替换映射后，系统会相应地替换目标词汇，并修复最终的任务列表，消除长链信息传播可能导致的错误。最终输出的指令完全使用机器人熟悉的词汇，确保执行模块能够正确理解和执行。

这种语言转换策略的巧妙之处在于它保持了指令的语义完整性，同时将表达方式调整为机器人能够理解的形式。就像一个好的翻译不仅要逐字翻译，还要确保译文在目标语言环境中同样自然流畅。研究结果表明，这种语言替换机制是整个框架中最关键的组件之一，对于处理包含新颖概念的复合指令效果尤为显著。

四、执行监控双保险：确保任务顺利完成

VLA?框架的执行和判断系统就像一个经验丰富的工程监理，不仅要确保每个施工步骤都按计划进行，还要能够及时发现问题并采取补救措施。这个系统包含两个核心组件：智能验证器和自适应执行器。

验证器模块使用经过特殊训练的Qwen2.5-VL-3B-Instruct模型作为"质量检查员"。为了让这个检查员更好地适应LIBERO环境和任务分解规则，研究团队专门构建了一个精细化的训练数据集。他们从LIBERO数据集的原始视觉记录中提取视频片段，为每个片段生成对应当前子任务的文本提示，并添加标注来指示子任务是否已完成以及系统是否可以继续执行下一个子任务。

验证器的工作方式相当智能化。它会根据不同的任务动词采用不同的验证策略。对于"拿取"类任务，验证器会检查目标物品是否已被抓取并从表面抬起。对于"放置"类任务，它会确认物品是否已放置到指定位置且机械臂已经离开。对于"开启"或"关闭"类任务，它会验证设备是否达到了预期的状态。

除了基本的任务完成验证，系统还设计了故障恢复机制。当验证器发现机械臂卡住或处于异常状态时，恢复检测器会使用动态阈值来判断是否需要干预。一旦检测到异常，系统会强制将当前任务设置为"抬起机械爪"，经过固定的步骤数后，再恢复之前被中断的子任务并继续执行。这种机制就像给机器人配备了"重启"按钮，能够从卡顿状态中自动恢复。

执行器部分则负责实际的动作控制。底层的VLA模型经过特殊微调，能够处理上级规划和视觉处理模块产生的结构化输入。特别值得注意的是，训练数据中的视觉信息被重新格式化，原始的第三人称RGB视频被替换为带有透明彩色遮罩的增强视频。这种处理方式让机器人能够更好地理解物品的边界和属性。

在数据集准备过程中，研究团队使用了与主框架相同的视觉和语言模块来构建遮罩视频和相应的任务列表。这确保了训练时和实际使用时的一致性。同时，视觉和语言记忆在数据集准备阶段就已经编码了领域内任务的信息，为后续的跨领域评估提供了公平的比较基础。

为了进一步提高执行效果，系统在微调和评估过程中使用了增强的任务文本提示。这些提示采用"现在执行当前子任务，整体任务是所有子任务的组合"的格式，让VLA既知道当前应该做什么，也了解整体目标是什么。这种双重上下文信息显著改善了下游执行性能。

五、突破性实验成果：数据说话

研究团队设计了一套全面的实验来验证VLA?框架的有效性，就像给新开发的汽车进行全方位的路试。他们不仅要测试系统在标准环境下的表现，更重要的是验证它在面对完全陌生情况时的适应能力。

实验环境基于LIBERO仿真平台构建了三个难度递增的测试场景。简单级别主要涉及颜色变化，比如将原本的黑色碗改为橙色系列。中等级别包含更复杂的物品替换，例如将酒瓶重新着色为天蓝色并重命名为蓝色瓶子，将木制柜子替换为白色柜子。困难级别则引入了完全陌生的概念，比如将酒瓶完全重新设计为茅台酒的外观，将黑色碗重新设计为蓝白相间的瓷碗图案。

在最具挑战性的困难级别测试中，VLA?取得了令人印象深刻的成果。与其他最先进的模型相比，VLA?在困难环境中达到了76.2%的成功率，超过了π0模型16.2个百分点，比OpenVLA-OFT高出28.8个百分点。更重要的是，在所有自定义环境中，VLA?实现了81.5%的平均成功率，同时在原始领域内任务上没有出现性能下降。

具体任务的表现更能说明系统的能力。在处理"茅台酒-架子"任务时，VLA?的成功率达到72%，而π0仅为44%。在"碗-盘子"任务中，VLA?达到88%的成功率，远超π0的16%。这些结果表明，通过明确地将陌生输入重新格式化为模型已知的分布，VLA?在面对分布外变化时比竞争基线更加稳健。

为了深入理解各个组件的贡献，研究团队进行了详细的消融实验。当移除透明遮罩功能时，平均成功率从76.2%下降到64.8%，降幅达11.4个百分点。在需要大量交互和场景复杂的任务中，遮罩的作用更加明显，比如"开抽屉"任务成功率下降26个百分点，"碗-柜子"任务下降22个百分点。

语言替换机制的重要性更为突出。当关闭语义替换功能时，系统性能出现了最大幅度的下降，平均成功率从76.2%暴跌至51.2%，降幅达25个百分点。在包含新颖概念的复合任务中，这种影响尤为严重，"茅台酒-架子"任务成功率下降56个百分点，"碗-盘子"任务下降72个百分点。

网络搜索和记忆检索功能的移除也会显著影响性能，平均成功率下降11个百分点至65.2%。有趣的是，在一些简单场景中，检索功能可能会引入噪声，导致轻微的性能下降。但对于包含陌生品牌概念的任务，其积极作用是决定性的。

当移除所有关键模块并完全采用原始Agentic Robot框架时，系统性能几乎完全崩溃，平均成功率仅为26.2%，比VLA?低50个百分点。许多困难任务的成功率直接降为零，这充分证明了VLA?各个组件设计的重要性和有效性。

六、技术创新的深层意义

VLA?框架的技术创新远超出表面的性能提升，它代表了机器人智能发展的一个重要范式转变。传统的机器人系统就像一个只会按照既定程序工作的工厂机器，而VLA?则更像一个具备学习能力的智能助手，能够在遇到新情况时主动寻找解决方案。

这种"即时学习"能力的实现基于几个关键的技术洞察。首先是知识分解和重组的思想。当面对陌生概念时，系统不是试图直接理解它，而是将其分解为基本属性，然后与已知概念建立联系。这种方法借鉴了人类认知的基本机制，正如认知科学研究表明的那样，先验知识的存在能够促进新信息的理解和记忆。

系统设计的另一个重要创新是模块化架构。不同于端到端的训练方法，VLA?采用了分工明确的模块组合策略。这种设计不仅提高了系统的可解释性和可维护性，还使得针对特定问题的优化变得更加可行。当某个模块出现问题时，可以独立进行调试和改进，而不需要重新训练整个系统。

从计算效率的角度来看，VLA?的设计也颇为巧妙。虽然系统增加了额外的处理模块，但通过"首次认知+记忆复用"的设计，后续调用的成本大大降低。视觉和语言模块在首次推理时需要约20秒的时间，但后续使用存储的记忆时可以极快完成。这种设计在保证功能强大的同时，也考虑了实际应用中的效率要求。

更重要的是，VLA?为解决机器人领域的长期挑战提供了新思路。传统方法试图通过扩大训练数据集来覆盖更多概念，但这种方法在面对开放世界的无限可能性时必然存在局限。VLA?则提供了一种更加灵活和可扩展的解决方案，通过工具调用和外部知识整合来扩展系统能力。

这种方法论的转变也反映了人工智能发展的更大趋势。从追求单一模型的全能性，转向构建能够协同工作的专业化模块系统。这种趋势在大语言模型的工具调用能力、多模态模型的专业化分工等方面都有所体现。VLA?在机器人领域的成功应用，为这种发展方向提供了有力的验证。

从实际应用的角度来看，VLA?的技术路线更加符合现实世界的需求。现实环境中不断出现新的物品、新的品牌、新的概念，要求机器人系统具备快速适应的能力。传统的重新训练方法不仅成本高昂，而且时间周期长，难以满足快速变化的需求。VLA?提供的即时学习能力为解决这一问题开辟了新的可能性。

说到底，VLA?框架最大的价值在于它证明了一个重要观点：智能系统不需要事先了解世界上的所有事物，只要它具备学习新事物的能力就足够了。这种能力让机器人从被动的执行者转变为主动的学习者，为未来的通用人工智能发展指明了方向。

当然，这项研究也还存在一些局限性。目前的框架设计仍然相对固化，在处理更加复杂和多样化的任务时可能需要进一步的扩展。同时，研究还主要局限在仿真环境中，真实世界的应用还需要更多的验证和优化。但无论如何，VLA?为机器人智能的发展开启了一个充满可能性的新篇章，让我们对未来的智能机器人助手充满期待。

研究团队的这项工作不仅在技术层面取得了突破，更在理念层面为整个领域提供了新的思考方向。它告诉我们，构建真正智能的机器人系统不是要让它们记住所有可能的情况，而是要让它们学会如何面对未知的挑战。这种能力，正是人类智能最宝贵的特质之一。

Q&A

Q1：VLA?框架与传统机器人系统有什么根本区别？

A：传统机器人系统只能处理训练时见过的物品，遇到新物品就会失效。VLA?则像给机器人配备了"搜索大脑"，当遇到陌生物品时能主动上网搜索相关信息，学会如何处理新概念，实现了从被动执行到主动学习的转变。

Q2：VLA?的"即时学习"是如何实现的？

A：当系统遇到未知物品时，会启动智能搜索机制：首先从网络下载相关图片组成拼贴画，然后用AI模型分析生成描述关键词，接着将陌生概念转换为已知词汇，最后用彩色遮罩标记物品位置。整个过程就像人类查字典学新词一样。

Q3：这项技术在实际应用中表现如何？

A：在包含完全陌生概念的困难测试中，VLA?成功率达到76.2%，比其他先进模型高出16-28个百分点。比如处理从未见过的"茅台酒"时成功率达72%，而传统方法只有44%。目前还主要在仿真环境中验证，真实世界应用仍需进一步研究。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.