网易首页 > 网易号 > 正文 申请入驻

理想汽车、清华等提出LightVLA:计算量-59%,成功率+2.9%,实现VLA模型效率与性能双赢

0
分享至

在具身智能领域,视觉-语言-动作(Vision-Language-Action, VLA)大模型正引领着一场技术革命,让机器人能够理解复杂的指令并与真实世界交互。然而,强大的能力背后是巨大的计算开销。VLA模型在处理海量视觉信息时,其基于注意力机制的计算成为一个难以逾越的瓶颈,极大地限制了它们在自动驾驶汽车、家用机器人等资源受限平台上的实时部署。

来自理想汽车、清华大学和中科院的研究者们提出了一种名为 LightVLA 的解决方案,巧妙地回答了这个问题。这篇题为 《The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning》 的论文,提出了一种简单而高效的可微分视觉令牌(Token)裁剪框架。

LightVLA的核心思想颇具颠覆性:智能地“剪掉”多余的视觉信息,不仅能让模型跑得更快,还能让它变得更“聪明”。通过一种性能驱动的自适应裁剪机制,LightVLA在将计算量(FLOPs)和延迟分别惊人地降低 59.1%38.2% 的同时,竟然还实现了 2.9% 的任务成功率提升,完美打破了“性能”与“效率”不可兼得的魔咒。



  • 论文标题 :The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning

  • 作者 :Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang

  • 机构 :理想汽车, 清华大学, 中国科学院

  • 论文地址 :https://arxiv.org/abs/2509.12594

  • 项目主页 :https://liauto-research.github.io/LightVLA

  • GitHub仓库 :https://github.com/liautoad/lightvla

研究动机:VLA模型的“甜蜜负担”

VLA模型通常建立在大型语言模型(LLM)之上,通过引入视觉模块来感知世界。当机器人执行任务时,它需要处理来自多个摄像头、连续不断的视频流。这些图像被转换成成百上千的视觉令牌(Visual Tokens),与语言指令令牌一起输入到模型的注意力层中。

问题在于,自注意力机制的计算复杂度与输入令牌数量的平方成正比(O(n²))。当视觉令牌数量庞大时,计算成本急剧上升,导致高延迟,这对于需要实时反应的机器人系统是致命的。


上图直观地展示了LightVLA的优越性:在大幅减少视觉令牌数量的同时,其任务成功率超越了众多现有的VLA模型和加速方法。

现有的模型压缩方法,如剪枝、量化等,往往追求效率而牺牲性能。特别是对于令牌裁剪,很多方法依赖于固定的裁剪比例或启发式规则,这不仅需要大量调参,还可能“误伤”对任务至关重要的信息。LightVLA的提出,正是为了解决这一困境,探索一条效率和性能协同优化的新路径。

核心方法:LightVLA如何智能“剪枝”?

LightVLA的框架简洁而优雅,其核心是一个可微分的、端到端学习的令牌选择过程。它不引入任何额外的可训练参数,使其极易与现有模型集成。整个过程分为三步:


1. 动态查询生成 (Dynamic Query Generation)

如何判断哪些视觉令牌更重要?直觉上,与当前任务指令最相关的视觉区域更重要。例如,当指令是“把牛奶放进篮子”时,模型应该更关注图像中的“牛奶”和“篮子”。

LightVLA通过视觉令牌和语言指令令牌之间的交叉注意力(Cross Attention)来生成一组动态查询(Token Queries)。这些查询向量融合了任务意图,可以被看作是派出去寻找“有用”视觉信息的“侦察兵”。

2. 令牌打分 (Token Scoring)

每个“侦察兵”(查询向量)都会与所有的视觉令牌进行匹配度计算(点积),得出一个分数。这个分数代表了每个视觉令牌对于该查询的重要性。所有查询向量与所有视觉令牌计算后,就形成了一个重要性得分矩阵。

3. 可微分令牌选择 (Differentiable Token Selection)

这是LightVLA最关键的一步。最直接的选择方法是,让每个查询都选择得分最高的那个视觉令牌(Argmax操作)。但问题是,Argmax是不可微分的,梯度无法回传,导致模型无法学习“如何选择”。

为了解决这个问题,LightVLA巧妙地引入了 Gumbel-Softmax 技巧。Gumbel-Softmax可以看作是Argmax的一个“平滑”版本,它在提供与Argmax相似的“one-hot”选择结果的同时,保持了操作的可微性。这样,在模型训练时,梯度就可以顺利地通过这个选择过程,让模型根据最终的任务损失(比如机器人动作的误差)来端到端地学习如何生成最佳的查询,从而选出对完成任务最有利的视觉令牌组合。

整个过程是 性能驱动 的:裁剪策略的好坏完全由最终任务的成功与否来评判和优化。模型为了获得更好的任务表现,会自发地学会保留关键信息、剔除无关或噪声信息,这正是论文标题“越学越会剪”的精髓所在。

实验结果与分析

研究团队在具身智能领域权威的 LIBERO 基准上对LightVLA进行了全面评估。LIBERO包含多种复杂的、长序列的机器人操作任务。

性能与效率双丰收

上表清晰地展示了LightVLA的加速效果。与基线模型OpenVLA-OFT相比,LightVLA在只使用平均 78 个视觉令牌(基线为512个)的情况下:

  • 计算量(TFLOPs) 从8.8降至3.6,减少了 59.1%

  • 端到端延迟 从34ms降至21ms,减少了 38.2%

  • 平均任务成功率 从94.5%提升至 97.4% ,净增 2.9%

这一结果在所有VLA加速方法中是独一无二的,其他方法或多或少都牺牲了性能来换取效率。


在与更多VLA模型的横向对比中,LightVLA同样展现了SOTA(State-of-the-Art)的性能,在所有四个任务套件上均取得了极高的成功率。

可视化分析:模型在“看”哪里?

上图展示了在“把两个摩卡壶都放到炉子上”这个长序列任务中,LightVLA在不同阶段的注意力焦点。被遮蔽(Masked)的区域代表被裁剪掉的令牌。可以清晰地看到,模型学会了动态地将注意力集中在任务相关的物体上,如摩卡壶、炉子以及机械臂本身,而忽略了大量的背景信息。这直观地证明了LightVLA自适应裁剪的有效性。

LightVLA*:引入可学习查询的探索

研究者还探索了LightVLA的一个变体—— LightVLA*,它引入了额外的可学习参数作为查询。实验发现,这种方法同样能取得优异的性能,进一步验证了基于查询的自适应裁剪框架的潜力。



总结与展望

LightVLA 的提出,为解决VLA大模型在具身智能设备上的部署难题提供了一个全新的、高效的视角。它最重要的贡献在于:

  1. 首次 将自适应、可微分的视觉令牌裁剪成功应用于VLA任务,并实现了效率和性能的协同提升。

  2. 证明了“智能剪枝”的价值 :通过剔除冗余视觉信息,不仅能降低计算负载,还能减少噪声干扰,从而让模型更专注于核心任务,最终提升决策质量。

  3. 提供了一个即插即用的通用框架 :其无额外参数、无需启发式规则的设计,使其可以方便地应用于各种VLA模型,加速其在真实世界场景中的落地。

LightVLA背后的“性能驱动剪枝”思想极具启发性。对于大模型而言,“少即是多”不仅可能,而且可以通过端到端学习优雅地实现。这项工作无疑为开发更高效、更强大、更实用的实时机器人系统迈出了坚实而重要的一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
65张活久未见的照片,太神奇了!

65张活久未见的照片,太神奇了!

中国艺术家
2025-09-14 05:26:31
小心“张云龙”!多名受害者及家属指认:他已诱骗至少4人到柬埔寨同一电诈园区

小心“张云龙”!多名受害者及家属指认:他已诱骗至少4人到柬埔寨同一电诈园区

红星新闻
2025-09-18 20:23:06
哈马斯发布强硬声明

哈马斯发布强硬声明

政知新媒体
2025-09-19 16:35:27
三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

文史达观
2025-09-08 20:13:26
西甲公布各队薪资上限,皇马高达7.6亿欧,比巴萨多4亿

西甲公布各队薪资上限,皇马高达7.6亿欧,比巴萨多4亿

雷速体育
2025-09-19 19:53:23
独山县委书记李景宽任上被查

独山县委书记李景宽任上被查

观察者网
2025-09-19 14:22:03
30队今夏至今花钱排名:雷霆超8亿居首 火箭排第5勇士零花费垫底

30队今夏至今花钱排名:雷霆超8亿居首 火箭排第5勇士零花费垫底

罗说NBA
2025-09-19 08:07:53
《731》官微沦陷,片中出现搞怪情节,网友直言历史不该被调侃

《731》官微沦陷,片中出现搞怪情节,网友直言历史不该被调侃

萌神木木
2025-09-18 17:29:23
A股:股民抓稳扶手,大资金目的达到了,下周将迎来全新的变化?

A股:股民抓稳扶手,大资金目的达到了,下周将迎来全新的变化?

小嵩
2025-09-19 16:04:36
貂蝉献舞董卓府首夜,董卓创下一项记录,后世君主无一人能突破

貂蝉献舞董卓府首夜,董卓创下一项记录,后世君主无一人能突破

雅俗共赏1
2025-08-28 12:03:22
意外?朝鲜计划去日本参加亚运会!日本政府原则上禁止朝鲜人入境

意外?朝鲜计划去日本参加亚运会!日本政府原则上禁止朝鲜人入境

念洲
2025-09-19 07:47:51
国际篮联重磅宣布,中国男篮收重大好消息,郭士强要碾压日本队

国际篮联重磅宣布,中国男篮收重大好消息,郭士强要碾压日本队

宗介说体育
2025-09-19 15:24:33
广州的廖一帆爸爸火了,因为他揭开了家委会的真相

广州的廖一帆爸爸火了,因为他揭开了家委会的真相

清晖有墨
2025-09-05 19:24:18
詹姆斯宣布破产!亲自承认:现在退役还不是时候

詹姆斯宣布破产!亲自承认:现在退役还不是时候

陈意小可爱
2025-09-19 12:16:33
清华晨跑队刘小平去世,年仅51岁,坚持晨跑8年,前一天还在跑步

清华晨跑队刘小平去世,年仅51岁,坚持晨跑8年,前一天还在跑步

凡知
2025-09-19 16:21:09
换了四辆车之后,我对六座SUV彻底失望了,这些家庭要买更不推荐

换了四辆车之后,我对六座SUV彻底失望了,这些家庭要买更不推荐

小李车评李建红
2025-09-19 06:51:08
袁甲评哈维尔:真是在外边找不到工作的都来咱这骗钱了

袁甲评哈维尔:真是在外边找不到工作的都来咱这骗钱了

直播吧
2025-09-19 13:56:16
县委书记李景宽,任上被查

县委书记李景宽,任上被查

新京报政事儿
2025-09-19 13:03:35
蜜雪冰城,美国首店来了!中式价格战把纽约人打懵了

蜜雪冰城,美国首店来了!中式价格战把纽约人打懵了

深蓝财经
2025-09-18 19:15:00
再见傲骨!37岁巴西前国脚宣布退役,曾效力国安5年夺1冠+任队长

再见傲骨!37岁巴西前国脚宣布退役,曾效力国安5年夺1冠+任队长

我爱英超
2025-09-18 22:31:34
2025-09-19 21:36:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5088文章数 64587关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

一艘从中国出发的货轮将试航北方海路新路线 中方回应

头条要闻

一艘从中国出发的货轮将试航北方海路新路线 中方回应

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

684亿大牛股,把孕妇逼到胎停?

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

家居
教育
时尚
游戏
房产

家居要闻

公共艺术 限时体验打造

教育要闻

2025上经贸主要生源来自哪些高中?

今日热点:电影《震耳欲聋》定档1004;《惊天魔盗团3》发布新预告……

《战地6》可允许自由安装战役或多人 还有究极画质

房产要闻

全民撑广州,不止于赛场!与“有态度”者共筑城市骄傲

无障碍浏览 进入关怀版