网易首页 > 网易号 > 正文 申请入驻

免训练、性能几乎无损!天津大学LightVLM让26B大模型比8B还快

0
分享至

大型视觉语言模型(VLM)虽然功能强大,但其高昂的推理成本和延迟一直是阻碍其在现实世界广泛部署的“拦路虎”。为了解决这一痛点,来自天津大学的研究者们提出了一种名为 LightVLM 的新方法,它如同一套轻巧的“外挂”,能够无缝部署在现有的VLM之上,无需任何额外训练,即可显著加速模型的推理过程。

LightVLM的核心思想是,将VLM的推理过程分为 编码(Encoding)解码(Decoding) 两个阶段,并在这两个阶段同时进行优化。通过“金字塔令牌合并”和“KV缓存压缩”两大技术,LightVLM实现了惊人的加速效果。实验表明,该方法甚至能让一个26B的超大模型(InternVL2.5 26B)跑得比一个8B的小模型(InternVL2.5 8B)还快,真正实现了“大而快”。

论文标题 : LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression

  • 作者 : Lianyu Hu, Fanhua Shang, Wei Feng, Liang Wan

  • 机构 : 天津大学

  • 论文地址 : https://arxiv.org/abs/2509.00419

  • 录用信息 : EMNLP 2025 Findings

  • 背景:VLM推理的两大瓶颈

    VLM的推理过程主要包含两个阶段,每个阶段都有其效率瓶颈:

    1. 编码(预填充)阶段 :模型处理输入的图像和文本提示。当输入图像被转换成大量的视觉令牌(Token)时,这个阶段的计算量巨大,耗时很长。

    2. 解码(生成)阶段 :模型逐个生成输出文本的令牌。每生成一个新令牌,都需要利用之前所有令牌的KV缓存(KV Cache)来维持上下文。当需要生成很长的文本序列时,这个KV缓存会变得异常庞大,严重拖慢生成速度。

    现有的一些加速方法往往只关注其中一个阶段,而LightVLM的创新之处在于 双管齐下 ,同时解决两个阶段的瓶颈。

    LightVLM:免训练的双阶段加速策略

    LightVLM通过两项核心技术,分别在编码和解码阶段进行加速,且整个过程完全无需重新训练模型。

    研究者观察到,在VLM的深层网络中,并非所有的视觉令牌都同等重要。如下图所示,随着网络层数的加深,模型的注意力会逐渐集中到少数“主导”令牌上。

    基于此发现,LightVLM提出“金字塔令牌合并”策略。它不在一开始就丢弃令牌,而是在LLM的不同层级, 逐步地、分层地 将那些不那么重要的令牌合并掉,最终只保留少数最关键的主导令牌参与后续计算。这种金字塔式的合并方式,既能显著减少计算量,又能最大程度地保留原始图像信息,从而在加速的同时保证了性能。

    2. 解码加速:KV缓存压缩 (KV Cache Compression)

    针对解码阶段因KV缓存过大而导致的延迟问题,LightVLM提出了相应的压缩策略。该策略通过识别并移除KV缓存中不必要或冗余的条目,有效减小了缓存的大小。这使得模型在生成长文本序列时,能够大幅提升吞吐量,降低延迟。

    实验结果:性能与速度的双重胜利

    LightVLM的实验结果令人印象深刻,它在性能保持和推理加速上都取得了优异的成绩。

    1. 极高压缩率下性能几乎无损

    实验表明,LightVLM可以在 仅保留35%图像令牌的情况下,保持100%的性能 。即便在极为苛刻的条件下, 只保留3%的图像令牌,模型性能也仅下降约2% ,展现了其强大的效率和鲁棒性。

    量化指标上,LightVLM将模型的 网络吞吐量提升了约2.02倍 ,将 预填充时间降低了约3.65倍 。在生成长文本(如4096个令牌)的场景下, 推理时间更是能降低约3.21倍 ,远超现有其他方法。

    最引人注目的结果是,LightVLM打破了“模型越大,速度越慢”的常规。如下图所示,通过LightVLM加速后,一个260亿参数的InternVL 2.5模型,其推理延迟竟然低于一个未经加速的80亿参数的同系列模型。这一发现对于大模型的实际部署具有里程碑式的意义。

    论文价值与总结

    LightVLM的提出,为解决大型VLM的推理效率问题提供了一个简单、通用且高效的解决方案。

    1. 免训练,即插即用 :作为一种无需额外训练的方法,LightVLM可以轻松地应用于各种现有的VLM,极大地降低了使用门槛。

    2. 双阶段并行加速 :同时优化编码和解码两个阶段,相比只关注单一阶段的方法,加速效果更全面、更显著。

    3. 为大模型落地扫清障碍 :通过实现“大而快”,LightVLM使得在资源有限的设备上部署更大、更强的模型成为可能,有望极大地推动VLM在现实世界中的应用。

    总而言之,LightVLM以其巧妙的设计和卓越的效果,为VLM的普及和应用带来了新的曙光,证明了通过精巧的算法设计,可以在不牺牲性能的前提下,让强大的AI模型变得更加轻盈和高效。

    特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

    Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

    相关推荐
    热点推荐
    人未至车先落!美军运输机突降北京,中方亮出首张“阻断底牌”

    人未至车先落!美军运输机突降北京,中方亮出首张“阻断底牌”

    趣文说娱
    2026-05-04 20:17:05
    前脸大变样!新款奔驰GLS谍照曝光:预计2027年国内上市

    前脸大变样!新款奔驰GLS谍照曝光:预计2027年国内上市

    快科技
    2026-05-04 14:54:05
    网友匿名爆料自己身边的八卦,你永远也想不到,到底能有多炸裂!

    网友匿名爆料自己身边的八卦,你永远也想不到,到底能有多炸裂!

    夜深爱杂谈
    2026-05-03 11:22:10
    柳州发生刑案致4死1伤,警方称1名死者有重大嫌疑,居民:当晚来了不少警车,事发地为老旧住宅区

    柳州发生刑案致4死1伤,警方称1名死者有重大嫌疑,居民:当晚来了不少警车,事发地为老旧住宅区

    极目新闻
    2026-05-03 13:46:23
    巴萨防线困局:一个边后卫改踢中卫的意外解法

    巴萨防线困局:一个边后卫改踢中卫的意外解法

    体育硬核说
    2026-05-05 00:12:49
    一汽 - 大众全新速腾S亮相 3 月上市推双动力版本

    一汽 - 大众全新速腾S亮相 3 月上市推双动力版本

    汽扯扒谈
    2026-01-27 18:03:26
    北京协和医学院博士:千万不要把烦死了、累死了、气死了挂在嘴上

    北京协和医学院博士:千万不要把烦死了、累死了、气死了挂在嘴上

    洞见
    2026-04-30 09:25:41
    斯威士兰是非洲的一个内陆小国,空军很弱,只有5架直升机

    斯威士兰是非洲的一个内陆小国,空军很弱,只有5架直升机

    无心小姐姐
    2026-05-04 11:14:53
    我为什么毫不担心央视真会拒买世界杯转播权

    我为什么毫不担心央视真会拒买世界杯转播权

    人格志
    2026-05-04 22:52:41
    马克龙表态:法国不参与

    马克龙表态:法国不参与

    上观新闻
    2026-05-04 15:11:07
    中国女足3-0越南,提前一轮出线,诞生4个不可思议,还有3个事实

    中国女足3-0越南,提前一轮出线,诞生4个不可思议,还有3个事实

    刘哥谈体育
    2026-05-05 00:03:52
    特朗普回绝伊朗新方案,美军今起大规模护航霍尔木兹

    特朗普回绝伊朗新方案,美军今起大规模护航霍尔木兹

    界面新闻
    2026-05-04 08:22:44
    突发!伊朗:两枚导弹击中一艘美军舰,该舰试图进入霍尔木兹海峡!金银突然跳水,国际油价拉升,布油大涨5%

    突发!伊朗:两枚导弹击中一艘美军舰,该舰试图进入霍尔木兹海峡!金银突然跳水,国际油价拉升,布油大涨5%

    每日经济新闻
    2026-05-04 18:53:07
    还能拿到D类顶薪合同吗?辽篮王牌内线合同到期,季后赛场均11+4

    还能拿到D类顶薪合同吗?辽篮王牌内线合同到期,季后赛场均11+4

    老叶评球
    2026-05-04 21:26:26
    56岁的王菲现身西藏,打扮的很高级,不愧是经常拜佛的人

    56岁的王菲现身西藏,打扮的很高级,不愧是经常拜佛的人

    乡野小珥
    2026-04-11 01:30:53
    魔幻的韩国股市,父母给婴儿开户买股票

    魔幻的韩国股市,父母给婴儿开户买股票

    吴晓波频道
    2026-05-04 08:35:15
    羽坛“大地震”!张军被查后才懂,林丹6年前的选择有多清醒

    羽坛“大地震”!张军被查后才懂,林丹6年前的选择有多清醒

    深度报
    2026-05-03 20:19:50
    法国媒体表示,随着输给韩国队和瑞典队,中国队不再是不可战胜的

    法国媒体表示,随着输给韩国队和瑞典队,中国队不再是不可战胜的

    凤幻洋
    2026-05-04 16:32:23
    永久底层:硅谷的AI从业者普遍认为,普通人已经“完蛋了”。

    永久底层:硅谷的AI从业者普遍认为,普通人已经“完蛋了”。

    不懂经1人独角兽
    2026-05-02 23:35:50
    39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

    39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

    揽星河的笔记
    2026-04-14 15:18:30
    2026-05-05 02:59:00
    算法与数学之美 incentive-icons
    算法与数学之美
    分享知识,交流思想
    5513文章数 64625关注度
    往期回顾 全部

    科技要闻

    在中国市场搞「付费订阅」,豆包咋想的?

    头条要闻

    媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

    头条要闻

    媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

    体育要闻

    骑士破猛龙:加雷特·阿伦的活力

    娱乐要闻

    张敬轩还是站上了英皇25周年舞台

    财经要闻

    魔幻的韩国股市,父母给婴儿开户买股票

    汽车要闻

    同比大涨190% 方程豹4月销量29138台

    态度原创

    健康
    旅游
    艺术
    游戏
    数码

    干细胞治烧烫伤面临这些“瓶颈”

    旅游要闻

    假期沪郊露营地人气旺,林下经济激活乡村休闲新场景

    艺术要闻

    震惊!43岁妈妈晒女儿合影,30万网友猜测身份!

    PS6新爆料太狠了:SSD性能翻倍 还能玩PS5游戏

    数码要闻

    华硕推出ZenScreen OLED MQ16FC便携显示器:16英寸,280欧元起

    无障碍浏览 进入关怀版