网易首页 > 网易号 > 正文 申请入驻

理想汽车、清华等提出LightVLA:计算量-59%,成功率+2.9%,实现VLA模型效率与性能双赢

0
分享至

在具身智能领域,视觉-语言-动作(Vision-Language-Action, VLA)大模型正引领着一场技术革命,让机器人能够理解复杂的指令并与真实世界交互。然而,强大的能力背后是巨大的计算开销。VLA模型在处理海量视觉信息时,其基于注意力机制的计算成为一个难以逾越的瓶颈,极大地限制了它们在自动驾驶汽车、家用机器人等资源受限平台上的实时部署。

来自理想汽车、清华大学和中科院的研究者们提出了一种名为 LightVLA 的解决方案,巧妙地回答了这个问题。这篇题为 《The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning》 的论文,提出了一种简单而高效的可微分视觉令牌(Token)裁剪框架。

LightVLA的核心思想颇具颠覆性:智能地“剪掉”多余的视觉信息,不仅能让模型跑得更快,还能让它变得更“聪明”。通过一种性能驱动的自适应裁剪机制,LightVLA在将计算量(FLOPs)和延迟分别惊人地降低 59.1%38.2% 的同时,竟然还实现了 2.9% 的任务成功率提升,完美打破了“性能”与“效率”不可兼得的魔咒。



  • 论文标题 :The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning

  • 作者 :Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang

  • 机构 :理想汽车, 清华大学, 中国科学院

  • 论文地址 :https://arxiv.org/abs/2509.12594

  • 项目主页 :https://liauto-research.github.io/LightVLA

  • GitHub仓库 :https://github.com/liautoad/lightvla

研究动机:VLA模型的“甜蜜负担”

VLA模型通常建立在大型语言模型(LLM)之上,通过引入视觉模块来感知世界。当机器人执行任务时,它需要处理来自多个摄像头、连续不断的视频流。这些图像被转换成成百上千的视觉令牌(Visual Tokens),与语言指令令牌一起输入到模型的注意力层中。

问题在于,自注意力机制的计算复杂度与输入令牌数量的平方成正比(O(n²))。当视觉令牌数量庞大时,计算成本急剧上升,导致高延迟,这对于需要实时反应的机器人系统是致命的。


上图直观地展示了LightVLA的优越性:在大幅减少视觉令牌数量的同时,其任务成功率超越了众多现有的VLA模型和加速方法。

现有的模型压缩方法,如剪枝、量化等,往往追求效率而牺牲性能。特别是对于令牌裁剪,很多方法依赖于固定的裁剪比例或启发式规则,这不仅需要大量调参,还可能“误伤”对任务至关重要的信息。LightVLA的提出,正是为了解决这一困境,探索一条效率和性能协同优化的新路径。

核心方法:LightVLA如何智能“剪枝”?

LightVLA的框架简洁而优雅,其核心是一个可微分的、端到端学习的令牌选择过程。它不引入任何额外的可训练参数,使其极易与现有模型集成。整个过程分为三步:


1. 动态查询生成 (Dynamic Query Generation)

如何判断哪些视觉令牌更重要?直觉上,与当前任务指令最相关的视觉区域更重要。例如,当指令是“把牛奶放进篮子”时,模型应该更关注图像中的“牛奶”和“篮子”。

LightVLA通过视觉令牌和语言指令令牌之间的交叉注意力(Cross Attention)来生成一组动态查询(Token Queries)。这些查询向量融合了任务意图,可以被看作是派出去寻找“有用”视觉信息的“侦察兵”。

2. 令牌打分 (Token Scoring)

每个“侦察兵”(查询向量)都会与所有的视觉令牌进行匹配度计算(点积),得出一个分数。这个分数代表了每个视觉令牌对于该查询的重要性。所有查询向量与所有视觉令牌计算后,就形成了一个重要性得分矩阵。

3. 可微分令牌选择 (Differentiable Token Selection)

这是LightVLA最关键的一步。最直接的选择方法是,让每个查询都选择得分最高的那个视觉令牌(Argmax操作)。但问题是,Argmax是不可微分的,梯度无法回传,导致模型无法学习“如何选择”。

为了解决这个问题,LightVLA巧妙地引入了 Gumbel-Softmax 技巧。Gumbel-Softmax可以看作是Argmax的一个“平滑”版本,它在提供与Argmax相似的“one-hot”选择结果的同时,保持了操作的可微性。这样,在模型训练时,梯度就可以顺利地通过这个选择过程,让模型根据最终的任务损失(比如机器人动作的误差)来端到端地学习如何生成最佳的查询,从而选出对完成任务最有利的视觉令牌组合。

整个过程是 性能驱动 的:裁剪策略的好坏完全由最终任务的成功与否来评判和优化。模型为了获得更好的任务表现,会自发地学会保留关键信息、剔除无关或噪声信息,这正是论文标题“越学越会剪”的精髓所在。

实验结果与分析

研究团队在具身智能领域权威的 LIBERO 基准上对LightVLA进行了全面评估。LIBERO包含多种复杂的、长序列的机器人操作任务。

性能与效率双丰收

上表清晰地展示了LightVLA的加速效果。与基线模型OpenVLA-OFT相比,LightVLA在只使用平均 78 个视觉令牌(基线为512个)的情况下:

  • 计算量(TFLOPs) 从8.8降至3.6,减少了 59.1%

  • 端到端延迟 从34ms降至21ms,减少了 38.2%

  • 平均任务成功率 从94.5%提升至 97.4% ,净增 2.9%

这一结果在所有VLA加速方法中是独一无二的,其他方法或多或少都牺牲了性能来换取效率。


在与更多VLA模型的横向对比中,LightVLA同样展现了SOTA(State-of-the-Art)的性能,在所有四个任务套件上均取得了极高的成功率。

可视化分析:模型在“看”哪里?

上图展示了在“把两个摩卡壶都放到炉子上”这个长序列任务中,LightVLA在不同阶段的注意力焦点。被遮蔽(Masked)的区域代表被裁剪掉的令牌。可以清晰地看到,模型学会了动态地将注意力集中在任务相关的物体上,如摩卡壶、炉子以及机械臂本身,而忽略了大量的背景信息。这直观地证明了LightVLA自适应裁剪的有效性。

LightVLA*:引入可学习查询的探索

研究者还探索了LightVLA的一个变体—— LightVLA*,它引入了额外的可学习参数作为查询。实验发现,这种方法同样能取得优异的性能,进一步验证了基于查询的自适应裁剪框架的潜力。



总结与展望

LightVLA 的提出,为解决VLA大模型在具身智能设备上的部署难题提供了一个全新的、高效的视角。它最重要的贡献在于:

  1. 首次 将自适应、可微分的视觉令牌裁剪成功应用于VLA任务,并实现了效率和性能的协同提升。

  2. 证明了“智能剪枝”的价值 :通过剔除冗余视觉信息,不仅能降低计算负载,还能减少噪声干扰,从而让模型更专注于核心任务,最终提升决策质量。

  3. 提供了一个即插即用的通用框架 :其无额外参数、无需启发式规则的设计,使其可以方便地应用于各种VLA模型,加速其在真实世界场景中的落地。

LightVLA背后的“性能驱动剪枝”思想极具启发性。对于大模型而言,“少即是多”不仅可能,而且可以通过端到端学习优雅地实现。这项工作无疑为开发更高效、更强大、更实用的实时机器人系统迈出了坚实而重要的一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
切尔西昔日巨星彻底拉胯!球迷怒喷:上他等于少打一人

切尔西昔日巨星彻底拉胯!球迷怒喷:上他等于少打一人

澜归序
2026-02-20 04:10:16
警报!三种“毒早餐”竟成家长的心头好,快来看看你在喂什么!

警报!三种“毒早餐”竟成家长的心头好,快来看看你在喂什么!

特约前排观众
2026-01-25 00:20:06
特朗普称奥巴马涉外星人言论泄密

特朗普称奥巴马涉外星人言论泄密

澎湃新闻
2026-02-20 04:49:03
北大教授韩毓海:毛主席在世的时候,我完全没有能力理解他!

北大教授韩毓海:毛主席在世的时候,我完全没有能力理解他!

王発吃吃喝喝
2026-02-18 13:03:21
“姐弟之争”变中央“铁腕清场”!郑丽文三不规矩,卢秀燕梦碎!

“姐弟之争”变中央“铁腕清场”!郑丽文三不规矩,卢秀燕梦碎!

汪镛的创业之路
2026-02-19 10:30:17
俞飞鸿和母亲的事情,被网友大肆吐槽

俞飞鸿和母亲的事情,被网友大肆吐槽

陈意小可爱
2026-02-19 08:41:34
太监是否会出现净身不彻底的情况?晚清一名宫女道出其中一些门道

太监是否会出现净身不彻底的情况?晚清一名宫女道出其中一些门道

抽象派大师
2026-01-28 02:30:30
这是最好的生日礼物!苏翊鸣夺金之后难掩热泪:我只有获得第一名,才能让我们的国歌奏响

这是最好的生日礼物!苏翊鸣夺金之后难掩热泪:我只有获得第一名,才能让我们的国歌奏响

环球网资讯
2026-02-19 07:45:11
自取灭亡的立陶宛总统瑙塞达,这次中国没有迁就他!

自取灭亡的立陶宛总统瑙塞达,这次中国没有迁就他!

百态人间
2026-01-29 15:43:09
“流水220万,利润0” 2026开年多了个新词——无利润繁荣

“流水220万,利润0” 2026开年多了个新词——无利润繁荣

餐饮界
2026-02-13 19:49:19
不出意外,中国未来一半以上人口,将会流入到这些地方

不出意外,中国未来一半以上人口,将会流入到这些地方

蓝色海边
2026-02-18 00:24:06
郭台铭没料到!富士康厂妹成劲敌,抢走大批苹果订单,年赚2209亿

郭台铭没料到!富士康厂妹成劲敌,抢走大批苹果订单,年赚2209亿

胖哥不胡说
2026-01-13 12:09:17
长沙“年入35万扛楼小伙”:不想一辈子扛楼,以后想做生意挣钱买房

长沙“年入35万扛楼小伙”:不想一辈子扛楼,以后想做生意挣钱买房

封面新闻
2026-02-19 19:49:03
报复一个人最狠的方法,不是翻脸,不是打压,而是佛家三句话

报复一个人最狠的方法,不是翻脸,不是打压,而是佛家三句话

瓜哥的动物日记
2026-02-14 00:59:40
A股宝藏:被市场低估的50只优质龙头全梳理

A股宝藏:被市场低估的50只优质龙头全梳理

慧眼看世界哈哈
2026-02-20 04:26:13
美股深夜下挫,科技股普跌,原油涨近2%,特朗普称伊朗必须与美国达成“有意义的协议”

美股深夜下挫,科技股普跌,原油涨近2%,特朗普称伊朗必须与美国达成“有意义的协议”

21世纪经济报道
2026-02-19 23:46:40
中国1月Swift人民币在全球支付中占比3.13%

中国1月Swift人民币在全球支付中占比3.13%

每日经济新闻
2026-02-19 09:12:45
离春节假期结束仅剩4天,社会上出现奇怪一幕!过年出现大变样?

离春节假期结束仅剩4天,社会上出现奇怪一幕!过年出现大变样?

猫叔东山再起
2026-02-19 18:05:03
你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

带你感受人间冷暖
2026-01-21 00:15:05
小朋友说过最离谱的话是啥?网友:哈哈哈,这个画面感也太强了点

小朋友说过最离谱的话是啥?网友:哈哈哈,这个画面感也太强了点

带你感受人间冷暖
2026-02-05 02:09:15
2026-02-20 08:36:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5367文章数 64614关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

65岁尹锡悦被判无期 韩国近10年来未曾判处过一例死刑

头条要闻

65岁尹锡悦被判无期 韩国近10年来未曾判处过一例死刑

体育要闻

宁忠岩4年从第7到摘金,刷新奥运纪录

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

亲子
旅游
本地
公开课
军事航空

亲子要闻

妈妈的侥幸,就是孩子的灾难!

旅游要闻

大年初三,济南30家重点监测景区纳客79.57万人次

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

金正恩出席火箭炮赠送仪式 强调确保朝鲜安全环境

无障碍浏览 进入关怀版