理想汽车、清华等提出LightVLA：计算量-59%，成功率+2.9%，实现VLA模型效率与性能双赢|向量|令牌|微分|知名企业|深度思考模型|lightvla

理想汽车、清华等提出LightVLA：计算量-59%，成功率+2.9%，实现VLA模型效率与性能双赢

分享至

在具身智能领域，视觉-语言-动作（Vision-Language-Action, VLA）大模型正引领着一场技术革命，让机器人能够理解复杂的指令并与真实世界交互。然而，强大的能力背后是巨大的计算开销。VLA模型在处理海量视觉信息时，其基于注意力机制的计算成为一个难以逾越的瓶颈，极大地限制了它们在自动驾驶汽车、家用机器人等资源受限平台上的实时部署。

来自理想汽车、清华大学和中科院的研究者们提出了一种名为 LightVLA 的解决方案，巧妙地回答了这个问题。这篇题为 《The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning》 的论文，提出了一种简单而高效的可微分视觉令牌（Token）裁剪框架。

LightVLA的核心思想颇具颠覆性：智能地“剪掉”多余的视觉信息，不仅能让模型跑得更快，还能让它变得更“聪明”。通过一种性能驱动的自适应裁剪机制，LightVLA在将计算量（FLOPs）和延迟分别惊人地降低 59.1% 和 38.2% 的同时，竟然还实现了 2.9% 的任务成功率提升，完美打破了“性能”与“效率”不可兼得的魔咒。

论文标题 ：The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
作者：Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang
机构：理想汽车, 清华大学, 中国科学院
论文地址 ：https://arxiv.org/abs/2509.12594
项目主页 ：https://liauto-research.github.io/LightVLA
GitHub仓库 ：https://github.com/liautoad/lightvla

研究动机：VLA模型的“甜蜜负担”

VLA模型通常建立在大型语言模型（LLM）之上，通过引入视觉模块来感知世界。当机器人执行任务时，它需要处理来自多个摄像头、连续不断的视频流。这些图像被转换成成百上千的视觉令牌（Visual Tokens），与语言指令令牌一起输入到模型的注意力层中。

问题在于，自注意力机制的计算复杂度与输入令牌数量的平方成正比（O(n²)）。当视觉令牌数量庞大时，计算成本急剧上升，导致高延迟，这对于需要实时反应的机器人系统是致命的。

上图直观地展示了LightVLA的优越性：在大幅减少视觉令牌数量的同时，其任务成功率超越了众多现有的VLA模型和加速方法。

现有的模型压缩方法，如剪枝、量化等，往往追求效率而牺牲性能。特别是对于令牌裁剪，很多方法依赖于固定的裁剪比例或启发式规则，这不仅需要大量调参，还可能“误伤”对任务至关重要的信息。LightVLA的提出，正是为了解决这一困境，探索一条效率和性能协同优化的新路径。

核心方法：LightVLA如何智能“剪枝”？

LightVLA的框架简洁而优雅，其核心是一个可微分的、端到端学习的令牌选择过程。它不引入任何额外的可训练参数，使其极易与现有模型集成。整个过程分为三步：

1. 动态查询生成 (Dynamic Query Generation)

如何判断哪些视觉令牌更重要？直觉上，与当前任务指令最相关的视觉区域更重要。例如，当指令是“把牛奶放进篮子”时，模型应该更关注图像中的“牛奶”和“篮子”。

LightVLA通过视觉令牌和语言指令令牌之间的交叉注意力（Cross Attention）来生成一组动态查询（Token Queries）。这些查询向量融合了任务意图，可以被看作是派出去寻找“有用”视觉信息的“侦察兵”。

2. 令牌打分 (Token Scoring)

每个“侦察兵”（查询向量）都会与所有的视觉令牌进行匹配度计算（点积），得出一个分数。这个分数代表了每个视觉令牌对于该查询的重要性。所有查询向量与所有视觉令牌计算后，就形成了一个重要性得分矩阵。

3. 可微分令牌选择 (Differentiable Token Selection)

这是LightVLA最关键的一步。最直接的选择方法是，让每个查询都选择得分最高的那个视觉令牌（Argmax操作）。但问题是，Argmax是不可微分的，梯度无法回传，导致模型无法学习“如何选择”。

为了解决这个问题，LightVLA巧妙地引入了 Gumbel-Softmax 技巧。Gumbel-Softmax可以看作是Argmax的一个“平滑”版本，它在提供与Argmax相似的“one-hot”选择结果的同时，保持了操作的可微性。这样，在模型训练时，梯度就可以顺利地通过这个选择过程，让模型根据最终的任务损失（比如机器人动作的误差）来端到端地学习如何生成最佳的查询，从而选出对完成任务最有利的视觉令牌组合。

整个过程是 性能驱动 的：裁剪策略的好坏完全由最终任务的成功与否来评判和优化。模型为了获得更好的任务表现，会自发地学会保留关键信息、剔除无关或噪声信息，这正是论文标题“越学越会剪”的精髓所在。

实验结果与分析

研究团队在具身智能领域权威的 LIBERO 基准上对LightVLA进行了全面评估。LIBERO包含多种复杂的、长序列的机器人操作任务。

性能与效率双丰收

上表清晰地展示了LightVLA的加速效果。与基线模型OpenVLA-OFT相比，LightVLA在只使用平均 78 个视觉令牌（基线为512个）的情况下：

计算量（TFLOPs） 从8.8降至3.6，减少了 59.1% 。
端到端延迟 从34ms降至21ms，减少了 38.2% 。
平均任务成功率 从94.5%提升至 97.4% ，净增 2.9% 。

这一结果在所有VLA加速方法中是独一无二的，其他方法或多或少都牺牲了性能来换取效率。

在与更多VLA模型的横向对比中，LightVLA同样展现了SOTA（State-of-the-Art）的性能，在所有四个任务套件上均取得了极高的成功率。

可视化分析：模型在“看”哪里？

上图展示了在“把两个摩卡壶都放到炉子上”这个长序列任务中，LightVLA在不同阶段的注意力焦点。被遮蔽（Masked）的区域代表被裁剪掉的令牌。可以清晰地看到，模型学会了动态地将注意力集中在任务相关的物体上，如摩卡壶、炉子以及机械臂本身，而忽略了大量的背景信息。这直观地证明了LightVLA自适应裁剪的有效性。

LightVLA*：引入可学习查询的探索

研究者还探索了LightVLA的一个变体—— LightVLA*，它引入了额外的可学习参数作为查询。实验发现，这种方法同样能取得优异的性能，进一步验证了基于查询的自适应裁剪框架的潜力。

总结与展望

LightVLA 的提出，为解决VLA大模型在具身智能设备上的部署难题提供了一个全新的、高效的视角。它最重要的贡献在于：

首次将自适应、可微分的视觉令牌裁剪成功应用于VLA任务，并实现了效率和性能的协同提升。
证明了“智能剪枝”的价值 ：通过剔除冗余视觉信息，不仅能降低计算负载，还能减少噪声干扰，从而让模型更专注于核心任务，最终提升决策质量。
提供了一个即插即用的通用框架 ：其无额外参数、无需启发式规则的设计，使其可以方便地应用于各种VLA模型，加速其在真实世界场景中的落地。

LightVLA背后的“性能驱动剪枝”思想极具启发性。对于大模型而言，“少即是多”不仅可能，而且可以通过端到端学习优雅地实现。这项工作无疑为开发更高效、更强大、更实用的实时机器人系统迈出了坚实而重要的一步。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.