![]()
这项由南洋理工大学S-Lab实验室联合中山大学、上海交通大学和商汤科技共同完成的研究发表于2026年2月,论文编号为arXiv:2602.18532v1。对于想要深入了解技术细节的读者,可以通过这个编号在学术数据库中查找完整论文。
当你看到一个机器人能够准确理解你说的话,看懂眼前的场景,然后精确地完成你交代的任务时,你是否会觉得这简直像科幻电影一样神奇?实际上,这背后涉及到的技术被称为视觉-语言-动作模型,简称VLA模型。就像教一个孩子既要会看、会听、还要会做事一样,VLA模型需要同时处理视觉信息、理解语言指令,并转化为具体的行动。
过去几年里,随着人工智能技术的飞速发展,研究人员们纷纷投入到VLA模型的研究中。每个团队都在探索自己的方法,就像不同的厨师在尝试各种食谱做同一道菜。然而,这种各自为政的研究方式带来了一个问题:由于大家使用的训练方法、评估标准都不相同,很难判断哪种设计选择真正有效。这就好比不同厨师在不同厨房、用不同食材、按不同标准做菜,最后很难比较谁的食谱更好。
南洋理工大学的研究团队意识到了这个问题。他们决定不再盲目地提出新的模型架构,而是回到基础,系统地研究VLA模型设计空间中的各种选择。他们的目标是找出一套经过验证的"最佳实践食谱",让后续的研究者们能够在一个统一的框架下工作。
研究团队从一个简单的基准模型开始,这个模型类似于之前广受关注的RT-2和OpenVLA模型。然后,他们像做对照实验一样,系统地测试了三个维度的设计选择:基础组件、感知要素,以及动作建模视角。通过这种严格的实验方法,他们最终总结出了12个关键发现,这些发现共同构成了构建强大VLA模型的实用指南。
这项研究的成果不仅仅是理论上的突破。研究团队基于他们发现的设计原则,开发出了一个名为VLANeXt的模型。令人惊喜的是,尽管VLANeXt的模型规模比现有的顶尖方法要小,但在标准测试和泛化能力测试中都表现出了更优秀的性能。更重要的是,VLANeXt在真实世界的机器人实验中也展现出了强大的适应能力。
为了推动整个领域的发展,研究团队承诺将发布一个统一、易用的代码库。这个代码库就像是为VLA研究搭建的一个标准化平台,让研究者们能够在相同的基础上复现结果、探索设计空间,并开发新的VLA变体。
一、揭开机器人智能的三层秘密
要理解VLA模型的设计,我们需要从三个层面来思考,就像分析一个优秀厨师的烹饪技艺需要看他的基本功、食材处理和烹饪技巧一样。
研究团队将VLA模型的设计空间分为三个维度。第一个维度是基础组件,这相当于厨师的基本功和使用的核心工具。在VLA模型中,这包括如何设计策略模块、如何让视觉-语言模型与策略模块相互配合,以及使用什么样的学习目标来训练模型。
第二个维度是感知要素,这就像厨师如何选择和处理食材。机器人需要处理各种输入信息:摄像头捕捉的图像、麦克风接收的语音指令,以及机器人自身的状态信息(比如关节位置、力度感应等)。如何有效地整合这些不同类型的信息,决定了机器人能否准确理解当前的情况。
第三个维度是动作建模视角,这相当于厨师的具体烹饪技巧和方法。机器人需要将理解的信息转化为具体的行动,这个过程可以有很多不同的建模方式。研究团队探索了各种辅助方法来提升机器人的动作生成能力。
在评估这些设计选择时,研究团队使用了LIBERO和LIBERO-plus这两个标准化的测试平台。LIBERO测试的是机器人在标准条件下的任务完成能力,而LIBERO-plus则更加严苛,它会在各种变化的环境条件下测试机器人的适应能力。这就好比既要测试厨师在标准厨房里的表现,也要测试他们在各种不同条件下的适应能力。
二、基础组件的精妙设计
在探索基础组件时,研究团队首先关注的是策略模块的设计。传统的方法是重复使用文本标记来表示动作,就像用现有的词汇来描述新概念一样。然而,研究团队发现,为动作预测单独设计一个专门的模块效果更好。
他们尝试了一种类似于MetaQuery的设计方案,使用多个查询标记和更深层的网络结构。这种方法的效果非常明显,就像给厨师配备了专门的工具,让他能够更精确地处理食材。实验结果显示,这种专门的策略模块显著提升了模型的性能。
接下来是动作分块的问题。传统方法每次只预测下一步的动作,就像走路时只看脚下的一步。但研究团队发现,同时预测未来几步的动作序列效果更好。他们测试了不同的时间窗口长度,发现预测8步的动作序列是一个很好的选择。这种方法让机器人具有了更好的前瞻性,能够进行更连贯的动作规划。
在动作学习目标方面,研究团队比较了多种不同的方法。传统的分类方法是将连续的动作值离散化为不同的类别,就像把温度计的连续刻度转换为"冷、温、热"这样的离散标签。然而,他们发现直接回归预测连续值的效果更好。此外,基于扩散模型的方法(如流匹配)也表现出色,这种方法能够更好地处理复杂的动作分布。
研究团队还发现,使用更强大的视觉-语言模型作为基础能够带来显著的性能提升。他们测试了从PaliGemma-3B到Qwen3-VL-4B等不同规模的模型,结果显示更强的基础模型确实能够提供更好的视觉理解和语言处理能力。最终,他们选择了Qwen3-VL-2B作为效率和性能的最佳平衡点。
在模型连接策略方面,研究团队提出了一种创新的"软连接"方法。传统的方法要么是完全解耦的松散连接,要么是逐层绑定的紧密连接。而软连接方法在两个模块之间插入了可学习的查询缓冲区,这样既保持了一定的独立性,又允许有效的信息传递。这种方法的效果略优于其他两种连接方式,为后续的研究提供了新的思路。
三、感知要素的巧妙整合
在感知要素的研究中,研究团队发现了几个令人意外的结果。首先是关于时间历史信息的使用。直观上,我们可能认为提供更多的历史帧信息会帮助机器人更好地理解当前情况,就像人类在做决定时会回忆之前发生的事情。然而,实验结果显示,添加时间历史信息不仅没有改善性能,反而略有下降。
这个结果提醒我们,对于机器人控制任务来说,当前的观察信息可能已经足够丰富,额外的历史信息可能会引入噪声或分散模型的注意力。这就好比开车时,虽然后视镜很重要,但如果过分关注后视镜而忽略前方路况,反而可能影响驾驶安全。
相比之下,多视角观察的价值则非常明显。当机器人同时使用第三人称摄像头和手腕摄像头的信息时,性能得到了显著提升。这很容易理解,就像我们在搬东西时,既需要全局视野来规划路径,也需要近距离观察来精确操作。两个不同角度的摄像头为机器人提供了互补的几何信息,帮助解决空间歧义问题。
最有趣的发现之一是关于本体感受信息(proprioception)的处理。本体感受信息包括机器人关节的位置、角度、力度等内部状态信息,就像人类的肌肉记忆和身体感知一样。研究团队测试了三种不同的整合方式:只在视觉-语言模型中使用、只在策略模块中使用,以及在两个地方都使用。
结果显示,在视觉-语言模型层面整合本体感受信息的效果最好。这个发现挑战了一些之前的研究结论。研究团队推测,将本体感受信息在早期阶段与视觉和语言信息融合,能够让模型建立更丰富的多模态表示,而不是将其作为后期的附加信息。
这就好比学习弹钢琴时,最好的方法是从一开始就将手指的触觉、视觉的音符和听觉的音调统一起来理解,而不是先学会看谱,再单独学习手指技巧。这种早期融合的方法让机器人能够建立更加协调一致的感知-动作映射。
为了验证这个发现,研究团队还比较了不同的信息整合机制,包括简单的线性投影、基于Transformer的投影器,以及带有掩码重建预训练的投影器。虽然Transformer投影器的性能略好,但为了简化最终设计,他们在VLANeXt中采用了线性投影器。
四、动作建模的创新视角
在动作建模方面,研究团队探索了两个有趣的辅助训练目标。第一个是世界建模,这个概念就像让机器人具有"预测未来"的能力。具体来说,就是让模型不仅预测下一步应该采取什么动作,还要预测执行这个动作后世界会变成什么样子。
为了实现这个目标,研究团队使用图像标记器将未来的图像转换为离散标记,然后让模型预测未来帧的图像标记。这种方法确实提升了动作生成的性能,因为预测未来观察结果的任务迫使模型建立更深层的环境理解。
然而,世界建模也带来了显著的计算开销,训练时间几乎增加了三倍。这就好比要求学生不仅要学会解数学题,还要预测每一步计算后的结果会是什么样子。虽然这种训练方式能够加深理解,但也大大增加了学习的时间成本。考虑到效率因素,研究团队最终没有将世界建模纳入最终的设计方案。
第二个探索的方向是时间序列预测视角。这个想法来自于频域建模在时间序列预测中的成功应用。机器人的动作序列具有结构化和低秩的特性,这意味着它们在频率域中可能有更简洁的表示。
研究团队引入了一个简单但有效的辅助损失函数,它在频率域中最小化预测动作和真实动作之间的均方误差。他们使用离散余弦变换将动作序列转换到频率域,然后在该域中进行约束。这个辅助损失的权重设置为主要流匹配损失的0.1到0.2倍。
这种频域约束的效果非常好,性能提升甚至略微超过了世界建模方法,但几乎没有增加计算开销。这个发现表明,机器人动作序列确实具有可以在频率域中更好地建模的结构化特性。就像音乐中的和谐音符有其内在的频率规律一样,机器人的动作序列也有其内在的节奏和模式。
通过频域建模,模型能够更好地捕捉动作序列的全局模式和局部细节之间的关系。这种方法的成功也为时间序列学习的思想向机器人学习的迁移提供了有力证据。
五、VLANeXt的卓越表现
基于所有这些发现,研究团队构建了最终的VLANeXt模型。这个模型采用了Qwen3-VL-2B作为基础视觉-语言模型,使用软连接策略将其与一个专门设计的策略模块相连。模型支持多视角输入,在视觉-语言模型层面整合本体感受信息,使用流匹配目标进行动作预测,并通过频域辅助损失进行正则化。
在标准LIBERO基准测试中,VLANeXt的表现令人印象深刻。在空间任务上达到了99.0%的成功率,在物体操作任务上达到了99.2%,在目标导向任务上达到了96.6%,在长序列任务上达到了94.6%。平均成功率为97.4%,超过了包括OpenVLA-OFT在内的所有现有方法。
更重要的是,在更具挑战性的LIBERO-plus基准测试中,VLANeXt展现出了强大的泛化能力。这个测试引入了各种环境扰动,包括光照变化、背景变化、相机角度变化、语言指令改写、噪声干扰、物体布局变化和机器人状态变化。在这些更接近真实世界条件的测试中,VLANeXt的平均成功率达到了80.1%,比之前最好的方法提升了约10个百分点。
研究团队还进行了真实世界的机器人实验,设计了四个不同的任务来验证VLANeXt的实际应用能力。单臂任务包括桌面清理(将物体从桌上拾起并放入容器)和抽屉操作(打开抽屉、放入物体、关闭抽屉)。双臂任务包括篮子举升(两只手臂协调举起篮子)和双臂桌面清理(两只手臂协同收集桌面物体)。
实验结果显示,VLANeXt在所有任务上都表现出了良好的性能。特别值得注意的是,即使没有专门的双臂训练数据,VLANeXt也能够适应双臂机器人任务,展现出了良好的跨具身适应能力。这表明模型学到的表示具有一定的通用性,能够泛化到不同的机器人平台。
六、对机器人学习领域的深远影响
这项研究的意义远超出了单个模型的性能提升。通过系统性的设计空间探索,研究团队为整个VLA领域提供了宝贵的指导原则。他们发现的一些结论颠覆了之前的一些假设,比如本体感受信息应该在何处整合、时间历史信息是否有必要等。
研究团队承诺发布的统一代码库将成为社区的重要资源。这个轻量级、最小封装的框架将让研究者们能够在相同的基础上进行比较和创新。这就像为整个领域建立了一个标准化的实验平台,避免了不同研究之间因为实现细节差异导致的不公平比较。
从技术角度来看,这项研究揭示了几个重要的设计原则。适度的架构改进,如软连接策略或VLM层面的本体感受调节,能够显著影响性能。这说明信息注入的位置和方式与信息本身同样重要。将动作生成视为结构化序列建模问题,并通过频域目标等技术加以改进,展现了时间序列学习思想向机器人学习迁移的有效性。
同时,研究也暴露了一些有趣的权衡。世界建模等更丰富的目标虽然能提升性能,但也带来了显著的计算开销,这提醒我们在追求性能的同时也要考虑效率。这种效率导向的设计理念对于实际应用具有重要意义。
七、未来发展的无限可能
VLANeXt的成功开启了VLA研究的新篇章。研究团队的系统性方法论为后续研究提供了重要参考。从临时性的模型变体向更可控的设计空间探索的转变,代表了整个领域研究方法的成熟。
通过发布统一的轻量级框架,研究团队希望支持更系统的研究和共享进展。这种开放合作的态度有助于加速整个领域的发展,避免重复造轮子的低效率问题。
当然,这项研究也指出了一些需要进一步探索的方向。如何将这种方法扩展到更多样化的具身体、更长时间的推理任务,以及更丰富的世界交互目标,都是值得深入研究的问题。此外,如何在保持高性能的同时进一步降低计算成本,也是实际应用中需要解决的重要问题。
说到底,这项研究最大的价值在于它展示了科学研究的正确方法:不是盲目地追求新奇的架构或复杂的设计,而是回到基础,系统地理解问题空间,找出真正有效的解决方案。VLANeXt的成功证明了,通过精心设计的原则性选择,我们可以在统一框架内实现强大的性能,而不需要依赖激进的模型扩展或特定任务的工程优化。
这种研究方法不仅推动了VLA领域的发展,也为其他人工智能分支提供了宝贵的方法论启示。当面对复杂的技术问题时,系统性的探索往往比临时性的创新更有价值。正是这种严谨而全面的研究态度,让我们离真正智能的机器人又近了一步。
Q&A
Q1:VLANeXt是什么样的机器人模型?
A:VLANeXt是南洋理工大学团队开发的视觉-语言-动作模型,它能够同时理解摄像头看到的画面、听懂人类的语言指令,并将这些信息转化为精确的机器人动作。就像给机器人装上了眼睛、耳朵和大脑,让它能够真正理解环境并做出合适的反应。
Q2:VLANeXt比其他机器人模型有什么优势?
A:VLANeXt最大的优势是通过系统性的设计优化,在更小的模型规模下实现了更好的性能。它在标准测试中达到97.4%的成功率,在复杂环境测试中达到80.1%的成功率,都超过了现有的顶尖方法。更重要的是,它在真实世界的机器人实验中也表现出色。
Q3:普通人什么时候能用上这种智能机器人技术?
A:虽然VLANeXt目前还在研究阶段,但研究团队承诺会发布开源代码库,这将加速整个领域的发展。随着技术不断完善和成本降低,预计在未来几年内,我们就能在家庭服务机器人、工业自动化等领域看到类似技术的应用。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.