在具身智能领域,视觉-语言-动作(Vision-Language-Action, VLA)大模型正引领着一场技术革命,让机器人能够理解复杂的指令并与真实世界交互。然而,强大的能力背后是巨大的计算开销。VLA模型在处理海量视觉信息时,其基于注意力机制的计算成为一个难以逾越的瓶颈,极大地限制了它们在自动驾驶汽车、家用机器人等资源受限平台上的实时部署。
来自理想汽车、清华大学和中科院的研究者们提出了一种名为 LightVLA 的解决方案,巧妙地回答了这个问题。这篇题为 《The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning》 的论文,提出了一种简单而高效的可微分视觉令牌(Token)裁剪框架。
LightVLA的核心思想颇具颠覆性:智能地“剪掉”多余的视觉信息,不仅能让模型跑得更快,还能让它变得更“聪明”。通过一种性能驱动的自适应裁剪机制,LightVLA在将计算量(FLOPs)和延迟分别惊人地降低 59.1% 和 38.2% 的同时,竟然还实现了 2.9% 的任务成功率提升,完美打破了“性能”与“效率”不可兼得的魔咒。
论文标题 :The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
作者 :Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang
机构 :理想汽车, 清华大学, 中国科学院
论文地址 :https://arxiv.org/abs/2509.12594
项目主页 :https://liauto-research.github.io/LightVLA
GitHub仓库 :https://github.com/liautoad/lightvla
研究动机:VLA模型的“甜蜜负担”
VLA模型通常建立在大型语言模型(LLM)之上,通过引入视觉模块来感知世界。当机器人执行任务时,它需要处理来自多个摄像头、连续不断的视频流。这些图像被转换成成百上千的视觉令牌(Visual Tokens),与语言指令令牌一起输入到模型的注意力层中。
问题在于,自注意力机制的计算复杂度与输入令牌数量的平方成正比(O(n²))。当视觉令牌数量庞大时,计算成本急剧上升,导致高延迟,这对于需要实时反应的机器人系统是致命的。
上图直观地展示了LightVLA的优越性:在大幅减少视觉令牌数量的同时,其任务成功率超越了众多现有的VLA模型和加速方法。
现有的模型压缩方法,如剪枝、量化等,往往追求效率而牺牲性能。特别是对于令牌裁剪,很多方法依赖于固定的裁剪比例或启发式规则,这不仅需要大量调参,还可能“误伤”对任务至关重要的信息。LightVLA的提出,正是为了解决这一困境,探索一条效率和性能协同优化的新路径。
核心方法:LightVLA如何智能“剪枝”?
LightVLA的框架简洁而优雅,其核心是一个可微分的、端到端学习的令牌选择过程。它不引入任何额外的可训练参数,使其极易与现有模型集成。整个过程分为三步:
1. 动态查询生成 (Dynamic Query Generation)
如何判断哪些视觉令牌更重要?直觉上,与当前任务指令最相关的视觉区域更重要。例如,当指令是“把牛奶放进篮子”时,模型应该更关注图像中的“牛奶”和“篮子”。
LightVLA通过视觉令牌和语言指令令牌之间的交叉注意力(Cross Attention)来生成一组动态查询(Token Queries)。这些查询向量融合了任务意图,可以被看作是派出去寻找“有用”视觉信息的“侦察兵”。
2. 令牌打分 (Token Scoring)
每个“侦察兵”(查询向量)都会与所有的视觉令牌进行匹配度计算(点积),得出一个分数。这个分数代表了每个视觉令牌对于该查询的重要性。所有查询向量与所有视觉令牌计算后,就形成了一个重要性得分矩阵。
3. 可微分令牌选择 (Differentiable Token Selection)
这是LightVLA最关键的一步。最直接的选择方法是,让每个查询都选择得分最高的那个视觉令牌(Argmax操作)。但问题是,Argmax是不可微分的,梯度无法回传,导致模型无法学习“如何选择”。
为了解决这个问题,LightVLA巧妙地引入了 Gumbel-Softmax 技巧。Gumbel-Softmax可以看作是Argmax的一个“平滑”版本,它在提供与Argmax相似的“one-hot”选择结果的同时,保持了操作的可微性。这样,在模型训练时,梯度就可以顺利地通过这个选择过程,让模型根据最终的任务损失(比如机器人动作的误差)来端到端地学习如何生成最佳的查询,从而选出对完成任务最有利的视觉令牌组合。
整个过程是 性能驱动 的:裁剪策略的好坏完全由最终任务的成功与否来评判和优化。模型为了获得更好的任务表现,会自发地学会保留关键信息、剔除无关或噪声信息,这正是论文标题“越学越会剪”的精髓所在。
实验结果与分析
研究团队在具身智能领域权威的 LIBERO 基准上对LightVLA进行了全面评估。LIBERO包含多种复杂的、长序列的机器人操作任务。
性能与效率双丰收
上表清晰地展示了LightVLA的加速效果。与基线模型OpenVLA-OFT相比,LightVLA在只使用平均 78 个视觉令牌(基线为512个)的情况下:
计算量(TFLOPs) 从8.8降至3.6,减少了 59.1% 。
端到端延迟 从34ms降至21ms,减少了 38.2% 。
平均任务成功率 从94.5%提升至 97.4% ,净增 2.9% 。
这一结果在所有VLA加速方法中是独一无二的,其他方法或多或少都牺牲了性能来换取效率。
在与更多VLA模型的横向对比中,LightVLA同样展现了SOTA(State-of-the-Art)的性能,在所有四个任务套件上均取得了极高的成功率。
可视化分析:模型在“看”哪里?
上图展示了在“把两个摩卡壶都放到炉子上”这个长序列任务中,LightVLA在不同阶段的注意力焦点。被遮蔽(Masked)的区域代表被裁剪掉的令牌。可以清晰地看到,模型学会了动态地将注意力集中在任务相关的物体上,如摩卡壶、炉子以及机械臂本身,而忽略了大量的背景信息。这直观地证明了LightVLA自适应裁剪的有效性。
LightVLA*:引入可学习查询的探索
研究者还探索了LightVLA的一个变体—— LightVLA*,它引入了额外的可学习参数作为查询。实验发现,这种方法同样能取得优异的性能,进一步验证了基于查询的自适应裁剪框架的潜力。
总结与展望
LightVLA 的提出,为解决VLA大模型在具身智能设备上的部署难题提供了一个全新的、高效的视角。它最重要的贡献在于:
首次 将自适应、可微分的视觉令牌裁剪成功应用于VLA任务,并实现了效率和性能的协同提升。
证明了“智能剪枝”的价值 :通过剔除冗余视觉信息,不仅能降低计算负载,还能减少噪声干扰,从而让模型更专注于核心任务,最终提升决策质量。
提供了一个即插即用的通用框架 :其无额外参数、无需启发式规则的设计,使其可以方便地应用于各种VLA模型,加速其在真实世界场景中的落地。
LightVLA背后的“性能驱动剪枝”思想极具启发性。对于大模型而言,“少即是多”不仅可能,而且可以通过端到端学习优雅地实现。这项工作无疑为开发更高效、更强大、更实用的实时机器人系统迈出了坚实而重要的一步。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.