机器人还能更智能？华中科技大学等联合攻克"视而不听"难题|动作|模态|人工智能|真实世界

分享至

当我们跟机器人说"请帮我把杯子放到桌子上"时，你以为它真的在听你说话吗？实际上，很多时候机器人只是在"看图说话"，完全无视你的具体指令。这听起来是不是有些令人担忧？

这项由华中科技大学、哈尔滨工业大学、香港科技大学（广州）、郑州大学、北京航空航天大学、华东师范大学以及深度赛博公司等多家机构联合进行的研究，发表于2026年1月23日的arXiv预印本服务器（论文编号：arXiv:2601.15197v2），揭示了当前视觉-语言-动作（VLA）模型中一个令人震惊的问题：这些看似聪明的机器人其实经常在"装聋作哑"。

想象一下这样的场景：你的厨房助手机器人看到桌子上有一个瓶子，无论你说"请帮我把瓶子放进冰箱"还是"请帮我把瓶子扔进垃圾桶"，它都会执行同样的动作——拿起瓶子。为什么会这样呢？因为在它接受训练的过程中，看到瓶子这个场景几乎总是对应着"拿起瓶子"这个任务。于是，机器人学会了一个偷懒的策略：直接根据看到的东西行动，完全忽略人类的具体指令。

研究团队将这种现象称为"视觉捷径"，就像一个学生在考试中总是选择最简单的答案，而不是真正理解题目要求。更糟糕的是，当机器人面对新环境或模糊情况时，这种偷懒策略就会导致灾难性的失败。

为了解决这个问题，研究团队开发了一套名为"BayesianVLA"的创新框架。这个框架的核心思想可以用一个简单的比喻来理解：就像训练一个真正的好学生，不仅要让他看懂图片，更要让他仔细听懂老师的指令，并且能够解释为什么这个指令需要这样的行动。

一、发现问题：机器人的"选择性耳聋"

研究团队首先做了三个非常有趣的实验来证明这个问题的存在。第一个实验就像给机器人做"听力测试"。他们训练了一个标准的机器人模型，然后在测试时故意"屏蔽"掉语言指令，只给机器人看图像。结果发现，这个"耳聋"的机器人在24个不同任务上的成功率达到了44.6％，与正常"能听能看"的机器人的47.8％成功率相差无几。这就好比一个学生在听力考试中戴着耳机却不播放音频，仍然能答对大部分题目——显然，这些题目的答案都能直接从试卷上的图片看出来。

第二个实验更加精妙。研究团队使用了一个名为LIBERO Goal的特殊测试集，这个测试集的特点是同一个场景可以对应多个不同的任务。比如，看到桌子上有几个碗、一个炉子和一个抽屉，指令可能是"把碗放进抽屉"，也可能是"把碗放在炉子上"。在这种需要仔细听指令才能完成的情况下，"耳聋"机器人的成功率瞬间跌落到了9.8％，而正常机器人保持在98.0％。这就像让学生面对真正需要理解的题目时，死记硬背的策略立刻失效了。

第三个实验揭示了最严重的问题：泛化能力的彻底崩溃。研究团队在多样化的真实世界数据集上训练机器人，然后在完全不同的仿真环境中测试。令人惊讶的是，训练过程中"耳聋"机器人的损失函数值居然和正常机器人几乎一样低，这说明即使在看似多样化的真实场景中，机器人仍然找到了视觉捷径。但当面对新环境时，这种依赖视觉捷径的策略导致了灾难性的结果——成功率几乎为零。

这三个实验就像三面镜子，从不同角度反映出同一个核心问题：当前的机器人训练数据中存在一种"确定性偏见"。由于大多数机器人数据是在固定场景中重复相同任务收集的，看到特定物体几乎总是意味着特定任务，这种数据偏见让机器人养成了"看图行事"的坏习惯。

从理论角度来看，研究团队发现这个问题源于"信息坍塌"现象。在理想情况下，机器人的动作选择应该显著影响我们对指令的理解，也就是说，通过观察机器人做什么，我们应该能更好地猜出人类给出了什么指令。但在现实的训练数据中，由于场景和指令之间的高度关联性，动作失去了这种"解释指令"的能力，整个系统退化为纯粹的视觉响应机制。

二、解决方案：让机器人学会"解释"

面对这个棘手问题，研究团队提出的BayesianVLA解决方案可以用一个教学比喻来理解。传统的机器人训练就像让学生做选择题，学生发现通过观察选项的某些特征就能猜出答案，于是根本不看题目内容。而BayesianVLA的方法则是要求学生不仅要给出答案，还要解释为什么这个答案符合题目要求。

具体来说，这个框架采用了"双分支"的训练策略。第一个分支叫做"先验分支"，就像让学生只看图片就行动，这代表了基于视觉的直观反应。第二个分支叫做"后验分支"，要求学生同时考虑图片和文字指令。关键的创新在于，系统会比较这两个分支的差异，并特别奖励那些能够"解释指令"的行动。

这里的核心技术创新是"潜在动作查询"（Latent Action Queries）的引入。可以把这些查询想象成特殊的"翻译官"，它们的任务是将复杂的视觉和语言信息转换成机器人能理解的动作指令。这64个可学习的特殊标记就像64个不同专业的翻译官，每个都负责处理特定类型的信息。

更巧妙的是，通过改变这些翻译官在信息流中的位置，研究团队能够精确控制它们能接触到什么信息。在先验分支中，翻译官只能看到视觉信息；在后验分支中，它们能同时看到视觉和语言信息。这种设计就像让同一个翻译官在两种不同条件下工作，然后比较两次翻译结果的差异。

训练目标被设计为最大化"对数似然比"，这个听起来复杂的术语实际上有一个简单的含义：鼓励机器人选择那些能够"解释指令"的动作。如果一个动作选择让指令变得更容易理解（相比于仅看图像时的理解），那么这个动作就会得到奖励。反之，如果动作没有提供关于指令的额外信息，就会被惩罚。

这种方法的优雅之处在于，它不需要收集新的训练数据，而是通过重新组织现有信息的处理方式来解决问题。就像一个好老师不是给学生更多题目，而是改变教学方法，让学生真正理解题目的含义。

三、实验验证：显著的性能提升

为了验证BayesianVLA的效果，研究团队在两个主要的仿真环境中进行了全面测试：SimplerEnv和RoboCasa。这些测试就像给机器人进行"毕业考试"，检验它们是否真正学会了听从指令。

在SimplerEnv环境的测试中，结果令人印象深刻。这个测试包含四个不同的操作任务："把勺子放在毛巾上"、"把胡萝卜放在盘子里"、"把绿色积木叠在黄色积木上"，以及"把茄子放进黄色篮子里"。BayesianVLA在所有这些任务上都表现出色，平均成功率达到了66.5％，相比基准方法的55.2％提升了11.3个百分点。

特别值得注意的是在那些需要精确物体识别的任务上的表现。例如，在"把胡萝卜放在盘子里"这个任务上，BayesianVLA的成功率比基准方法高出13.6％。在"把茄子放进黄色篮子里"的任务上，提升幅度更是达到了15.0％。这些结果清楚地表明，新方法确实让机器人学会了更仔细地"听"指令，而不是仅凭视觉做出假设。

更重要的是，这些提升在各种不同的对比方法面前都保持稳定。无论是与最近的强力竞争者π0.5（57.1％）还是双系统架构的Isaac-GR00T-N1.6（57.1％）相比，BayesianVLA都展现出明显优势。这就像一个学生不仅在某一科目上表现出色，而是在各种不同类型的考试中都能保持领先。

在RoboCasa环境的测试更加复杂和全面，包含24个不同的桌面操作任务。这些任务模拟了真实厨房环境中的各种操作，比如"把瓶子放进柜子并关门"、"把罐头放进抽屉并关门"等。BayesianVLA在这个更具挑战性的环境中达到了50.4％的平均成功率，超过了所有对比方法。

特别有趣的是，研究团队还测试了一个"纯视觉"版本的机器人，结果发现它的成功率达到了44.7％，仅略低于标准方法的47.8％。这个结果再次证实了"视觉捷径"问题的普遍存在——即使在看似复杂的任务中，机器人仍然能够在很大程度上依赖视觉线索完成任务。但BayesianVLA成功突破了这个性能上限，证明了真正理解语言指令的价值。

在一个特别具有挑战性的任务"把新物体从餐垫放到盘子里"中，BayesianVLA达到了70.0％的成功率，远远超过纯视觉方法的34.0％和标准方法的48.0％。这个巨大的差距生动地说明了，当任务变得模糊或需要精确理解指令时，能够真正"听懂"指令的能力变得多么重要。

四、意外收获：保持通用能力

在验证新方法效果的过程中，研究团队发现了一个意外但重要的好处：BayesianVLA能够更好地保持原始语言模型的通用对话能力。这个发现就像在解决一个问题的同时意外修复了另一个问题。

传统的机器人训练过程中经常出现"灾难性遗忘"现象，就像一个原本能够流利对话的人突然只会说机器人指令，失去了正常交流的能力。研究团队通过一个简单的数学问题测试发现了这个问题的严重性。当问及"如果直线y = 2x + 5是曲线y = e^x + x + a的切线，那么a等于多少？"时，标准的机器人模型给出的回答完全混乱，充满了重复的无意义词汇，就像一个坏掉的录音机。

相比之下，BayesianVLA训练的模型不仅保持了解决数学问题的能力，还能给出清晰、逻辑完整的解答过程。它会说："我们需要找到这两个函数相切的点。首先，相切意味着两个条件：函数值相等，导数也相等。"然后一步步地推导出正确答案a = 4。这种能力的保持表明，新方法不仅没有损害模型的基础智能，反而通过更好的训练策略维护了它的完整性。

这个现象的原因在于BayesianVLA的训练目标天然地保护了语言理解能力。由于系统需要最大化动作对指令的"解释能力"，语言处理模块在整个训练过程中始终保持活跃状态。这就像一个多面手在学习新技能的同时，原有技能也得到了持续练习和强化。

虽然在涉及图像的复杂视觉-语言对话中仍然可能出现一些退化（这主要是因为视觉系统需要适应控制任务），但保持文本对话能力本身就具有重要价值。这确保了机器人系统不会退化为简单的"刺激-反应"机器，而是保持了进行高层推理和处理新颖指令的潜力。

五、深度分析：方法的关键要素

为了更好地理解BayesianVLA成功的原因，研究团队进行了详细的消融实验。这些实验就像拆解一台复杂机器，看看每个零件的具体作用。

首先，他们测试了"贝叶斯分解"这个核心创新的贡献。通过比较完整版本的BayesianVLA（63.5％成功率）和仅添加动作查询但没有双分支训练的版本（57.5％成功率），发现贝叶斯分解带来了6.0个百分点的显著提升。这证明了核心创新确实来自于重新设计的训练目标，而不仅仅是架构改进。

其次，即使没有完整的贝叶斯框架，仅仅引入"潜在动作查询"这种架构设计也带来了从55.2％到57.5％的性能提升。这个结果揭示了查询机制本身的价值——它迫使模型将复杂的视觉和语言信息压缩成紧凑的动作相关表示。

从计算效率的角度来看，这种查询机制还带来了意外的好处。传统方法需要将所有视觉和语言标记的隐藏状态都输入到动作解码器中，计算复杂度与输入长度的平方成正比。而BayesianVLA通过64个固定数量的查询标记，将复杂度从O(N?)降低到O(K?)，其中N是可能非常大的输入标记数，K是固定的64。这就像从处理一整本字典改为只处理一页摘要，效率提升巨大。

训练过程中的双分支设计也展现出了精妙的平衡。通过权重参数λ，系统能够在先验分支（纯视觉）和后验分支（视觉+语言）之间找到最优平衡点。同时，通过参数β控制对数似然比损失的强度，确保模型在学会"解释指令"的同时不会过度偏离基本的动作执行能力。

值得注意的是，整个训练过程使用了"整流流匹配"这种先进的生成建模技术，这让动作生成更加稳定和高质量。与传统的扩散模型相比，流匹配技术提供了更直接的训练路径，减少了训练不稳定性。

六、理论洞察：信息论的视角

BayesianVLA的成功不仅体现在实际性能上，更重要的是它为理解和解决类似问题提供了坚实的理论基础。研究团队从信息论的角度深入分析了"视觉捷径"问题的本质。

在理想情况下，机器人的动作选择应该与语言指令之间存在高度的"条件互信息"。用简单的话说，就是通过观察机器人做什么，我们应该能够更好地理解人类说了什么。但在实际的目标驱动数据集中，由于视觉场景和语言指令之间存在近乎确定的映射关系，这种互信息被严重压制了。

这个现象可以用一个日常例子来理解：如果你每次看到朋友拿起钥匙时他都会说"我要出门"，那么即使你听不见他说话，也能通过看到他拿钥匙这个动作猜出他要出门。在这种情况下，动作（拿钥匙）并没有为理解指令（出门）提供额外信息，因为这个信息已经被视觉线索（准备的姿态）完全包含了。

BayesianVLA通过最大化"点式互信息"来打破这种信息坍塌。这个方法鼓励模型选择那些真正能够"解释"语言指令的动作，即使在视觉线索强烈的情况下。这就像训练一个翻译家不仅要翻译表面意思，还要捕捉语言的细微差别和深层含义。

从贝叶斯推理的角度，这种方法实际上是在学习真正的后验分布π(a|v,l)，而不是被视觉先验p(a|v)所主导的退化版本。通过显式建模先验和后验的差异，系统能够识别和放大那些真正依赖于语言指令的行为模式。

研究团队还探讨了这种方法与最近兴起的"世界模型"方法之间的理论联系。世界模型通过想象未来状态来指导动作选择，这实际上可以看作是贝叶斯分解的另一种形式。在这种框架中，动作推理变成了对想象未来的逆向推理过程，这种设计天然地提高了对动作选择的敏感性，从而避免了信息坍塌问题。

七、未来展望：更广阔的应用前景

BayesianVLA的成功不仅解决了当前的技术问题，更为整个机器人智能领域的发展指明了方向。研究团队在论文中提出了几个值得深入探索的未来研究方向。

首先是数据收集策略的重新思考。传统的机器人数据收集往往追求效率和一致性，在固定环境中重复相同任务。但这项研究表明，我们应该更多地收集"模糊场景"的数据，即同一个视觉场景对应多种可能任务的情况。这就像在训练学生时，不仅要给他们标准题目，还要给他们需要仔细理解题意的开放性问题。

其次是人类行为数据的巨大潜力。与精心设计的机器人演示不同，人类的日常活动天然地包含了丰富的多样性和上下文依赖性。同一个厨房场景中，人类可能在做饭、清洁、整理或寻找物品，这种多样性天然地减少了视觉线索的确定性。研究团队推测，将这种人类行为知识注入机器人训练可能会显著改善信息坍塌问题。

从技术架构的角度，这项工作也为其他相关领域提供了启示。比如，在多模态大模型的训练中，类似的信息坍塌问题可能同样存在。当图像和文本之间存在强关联时，模型可能会过度依赖更容易处理的模态，而忽略其他模态的重要信息。BayesianVLA的双分支架构为解决这类问题提供了通用的设计思路。

另一个有趣的发展方向是与强化学习的结合。当前的BayesianVLA主要基于模仿学习，但其核心思想——最大化动作与指令之间的互信息——完全可以扩展到强化学习框架中。在与环境交互的过程中，智能体可以学会选择那些既能完成任务又能清楚"解释"指令意图的动作策略。

从更宏观的角度来看，这项工作体现了人工智能发展的一个重要趋势：从简单的模式匹配向真正的理解转变。BayesianVLA不满足于让机器人"看起来"懂了指令，而是要求它真正理解指令的含义并能够解释自己的行为。这种对"可解释性"的追求不仅提高了性能，更重要的是增强了系统的可靠性和可信度。

八、实际意义：从实验室到生活

虽然BayesianVLA目前还主要在仿真环境中进行测试，但其背后的核心思想已经为实际应用奠定了基础。这项技术最直接的应用场景是家庭服务机器人，特别是那些需要处理复杂、模糊指令的情况。

设想一个家庭场景：你的厨房里有各种器具和食材，你告诉机器人"帮我准备做沙拉的材料"。传统机器人可能会困惑于这个开放性指令，或者简单地执行某个预设程序。而应用了BayesianVLA理念的机器人则会真正理解"准备沙拉材料"这个指令的含义，根据当前厨房状况选择合适的蔬菜、调料和工具。

在工业自动化领域，这种技术同样具有重要价值。制造环境中经常需要根据口头指令进行快速调整，传统的预编程方法难以应对这种灵活性需求。能够真正理解和执行自然语言指令的机器人将大大提高生产线的适应能力和效率。

医疗护理是另一个潜在的应用领域。护理机器人需要理解各种复杂的医疗指令，并在动态变化的环境中做出准确响应。BayesianVLA的"解释能力"特别适合这种需要高度可靠性和可解释性的场景。

教育领域也可能从这项技术中受益。能够真正理解指令的机器人教师助手可以更好地响应学生的个性化需求，提供更精准的学习支持。这种技术还可以帮助开发更智能的语言学习工具，让机器真正理解学习者的意图和需求。

当然，要将这些实验室成果转化为实用技术，还需要解决许多挑战。计算资源的需求、实时性能的优化、安全性保障等都是需要进一步研究的问题。但BayesianVLA为这些挑战提供了一个坚实的理论基础和技术起点。

说到底，BayesianVLA代表的不仅仅是一种新的技术方法，更是一种新的人工智能哲学：让机器不仅能够执行任务，更要理解任务的意义。这种从"执行"到"理解"的转变，可能会深刻影响我们与智能系统交互的方式，让人机协作变得更加自然、可靠和富有成效。

这项研究提醒我们，在追求人工智能性能提升的同时，我们不能忽视对真正理解能力的培养。只有当机器真正"听懂"我们的话，而不是仅仅根据视觉线索猜测我们的意图时，人机协作才能达到新的高度。有兴趣深入了解技术细节的读者可以通过arXiv:2601.15197v2查询完整论文。

Q&A

Q1：BayesianVLA解决了什么核心问题？

A：BayesianVLA解决了机器人的"视觉捷径"问题，即机器人在执行任务时往往只看图像就行动，完全忽略人类的具体语言指令。这就像学生做题时不看题目内容，只根据图片就给答案，导致在面对模糊情况或新环境时完全失败。

Q2：BayesianVLA的双分支训练是怎么工作的？

A：双分支训练就像让同一个学生在两种不同条件下做题。第一个分支只能看图片，代表纯视觉反应；第二个分支既能看图片又能读指令，代表完整理解。然后比较两次结果的差异，特别奖励那些真正体现指令要求的行动，惩罚仅凭视觉就能完成的行动。

Q3：这项技术在实际应用中有什么优势？

A：BayesianVLA让机器人真正学会"听懂"指令而不是猜测，在复杂家庭环境、工业制造、医疗护理等需要精确理解人类意图的场景中表现更可靠。更重要的是，它还保持了机器人的通用对话能力，不会因为专门训练而变得只会执行机器指令。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.