网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 Spotlight | NYU提出QSVD数学压缩让模型轻、快、稳

0
分享至



本工作由纽约大学 NYU SAI Lab 的硕士生王宇彤与博士生王海宇合作完成。本文的通讯作者为张赛骞,他是纽约大学(New York University)计算机科学系助理教授、SAI Lab 负责人,其研究方向涵盖多模态大模型(Vision-Language Models)压缩与加速、低比特量化、高效推理以及可信智能系统。

在多模态智能浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统,它们让机器能够「看懂世界、说人话」。

然而,强大的性能也带来了沉重的代价——模型动辄上百亿参数,显存和计算压力巨大。以 LLaVA-13B 为例,推理时 Key-Value 缓存(KV cache)体积极大,速度慢、资源耗尽,这让多模态/大模型的「落地」之路异常艰难。

面对这一瓶颈,来自纽约大学的研究团队 SAI Lab 在 NeurIPS 2025 上提出了一项突破性工作——QSVD(Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models)。它通过「联合低秩分解 + 量化」的创新策略,为多模态模型找到了一条「轻量化而不减智」的新路径。



  • 论文标题:QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models
  • 论文地址:https://arxiv.org/abs/2510.16292
  • Github:https://github.com/SAI-Lab-NYU/QSVD

让多模态模型「减负」:

从 Key-Value 缓存出发

视觉语言模型的强大来自 Transformer 中的注意力机制,但这也带来巨大的 KV 缓存压力。现有方案如 Grouped-Query Attention、Multi-Query Attention、DeepSeek 的 MLA 等虽能降低计算开销,却要么精度受损,要么需要重新训练。

QSVD 的目标很明确:不改架构、不重新训练,只通过数学压缩就让模型更轻、更快、更稳。

核心思想:

联合 QKV 奇异值分解(Joint SVD over QKV)

传统做法是分别对 Q、K、V 矩阵进行奇异值分解(SVD),而 QSVD 首创联合分解(Joint SVD)







这带来三大优势:

  • 计算更少:降维乘法减少矩阵乘法;
  • 显存更省:只缓存一个中间表示,KV 缓存量减半;
  • 表示更稳:联合分解保持 Q/K/V 之间的语义耦合,不损失信息。

自适应秩分配:

让压缩更聪明

QSVD 进一步提出跨层秩分配策略(Cross-layer Rank Allocation)。不同层的重要性不同,不能「一刀切」地压缩。研究者通过梯度近似计算每个奇异值对模型损失的影响,得到重要性评分,并在全模型范围内排序与截断。



这样,模型可以智能决定「该减多少秩、留多少精度」,实现全局最优的压缩配置。

低比特量化 + 异常值平滑

仅靠低秩近似还不够。为了进一步提升硬件效率,QSVD 结合了后训练量化(PTQ)与异常值平滑(Outlier Smoothing)。







实验结果:

更轻、更快、更准

研究团队在 LLaVA-v1.5(7B/13B)、LLaVA-Next 和 SmolVLM 等模型上进行了系统评估,结果令人惊喜:

  • FP16 比 ASVD 与 SVD-LLM 精度高 10% 以上;
  • W8A8(8 位量化)下几乎无精度损失,W4A4 极低比特条件下依然稳定工作
  • 推理速度最高提升 13 倍。

这些结果说明,QSVD 不仅压缩模型,还让模型更「聪明」。

技术总结:

三步实现高效多模态推理

  • Joint SVD over QKV

拼接 Q/K/V 矩阵,统一做低秩分解;

  • Cross-layer Rank Allocation

按重要性分配秩,全局最优压缩;

  • Quantization with Outlier Smoothing

旋转量化 + 可学习奇异值分配,抑制异常值。

三步即可打造出低显存、高精度、快速响应的多模态大模型。

结语

在这项工作中,我们提出了QSVD—— 一个将奇异值分解(SVD)与量化(Quantization)结合的统一框架,用于高效压缩视觉语言模型(VLM)。通过对 Q、K、V 权重矩阵的联合分解,并引入跨层自适应秩分配策略,QSVD 在几乎不损失精度的前提下,显著降低了计算开销、KV 缓存规模与模型存储成本。

虽然量化操作应用于整个模型,但压缩的核心集中在自注意力层(Self-Attention Layers)的 QKV 权重上,这正是影响推理效率的关键环节。未来,我们计划将优化范围扩展至跨模块联合压缩与自适应优化,进一步推动多模态模型的系统级轻量化。

值得注意的是,提高模型效率也意味着更强的可部署性与普惠性。当更强大的模型能够被更广泛地使用时,它们将有潜力加速教育、医疗、创意与人机交互的发展——但同时也可能带来监控、隐私与虚假信息传播等风险。如何在开放与安全之间取得平衡,是下一阶段研究必须正视的问题。

论文与代码均已公开,欢迎感兴趣的同学阅读、复现以及深入讨论。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西长治狗主人家房子曝光,豪华宽大却朝向奇特,被网友质疑违建

山西长治狗主人家房子曝光,豪华宽大却朝向奇特,被网友质疑违建

另子维爱读史
2025-11-17 21:53:08
陈妤颉创28年全运女子百米最佳 先天短跑圣体!中国短跑开启陈时代

陈妤颉创28年全运女子百米最佳 先天短跑圣体!中国短跑开启陈时代

劲爆体坛
2025-11-17 22:30:03
行程全剧终,沈伯洋返回台湾,下飞机后紧闭双眼,解放军四面围岛

行程全剧终,沈伯洋返回台湾,下飞机后紧闭双眼,解放军四面围岛

影孖看世界
2025-11-17 18:12:57
员工在同事群,八卦领导“彩旗飘飘”被开除!员工委屈诉至法院

员工在同事群,八卦领导“彩旗飘飘”被开除!员工委屈诉至法院

极目新闻
2025-11-17 12:27:20
第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

心妍的家
2025-11-17 23:13:23
为啥日本着急派高官来华解释?

为啥日本着急派高官来华解释?

国是直通车
2025-11-17 15:57:28
22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

锅子篮球
2025-11-17 20:20:53
副部级李显刚被判无期,曾要求私营企业主将办公场所改成会所,被留置前一晚仍在会所大吃大喝;被通报大搞钱色交易、违规打探巡视信息

副部级李显刚被判无期,曾要求私营企业主将办公场所改成会所,被留置前一晚仍在会所大吃大喝;被通报大搞钱色交易、违规打探巡视信息

极目新闻
2025-11-17 18:38:22
中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

影孖看世界
2025-11-16 20:05:08
日本航空自卫队参谋长称,中国不让中国人去日本,正中日本下怀

日本航空自卫队参谋长称,中国不让中国人去日本,正中日本下怀

我心纵横天地间
2025-11-17 12:59:24
逐利执法新花样?苏州一被告人取保4年,借钱退赃9000万后再逮捕

逐利执法新花样?苏州一被告人取保4年,借钱退赃9000万后再逮捕

塔子山评说
2025-11-17 11:51:14
前TVB过气一姐北上夜场开工,唱到露膊近距离可摸手仔

前TVB过气一姐北上夜场开工,唱到露膊近距离可摸手仔

粤睇先生
2025-11-18 00:53:15
宝马X4才跑一年多,四条轮胎均出现龟裂 4S店:经检测存在老化,非轮胎品质问题

宝马X4才跑一年多,四条轮胎均出现龟裂 4S店:经检测存在老化,非轮胎品质问题

大风新闻
2025-11-17 18:00:05
外卖为什么突然没单了

外卖为什么突然没单了

大嘴説
2025-11-17 11:29:20
善恶终有报!连娶三徒弟,毁掉奥运冠军前途的金炜,终究难逃"反噬"

善恶终有报!连娶三徒弟,毁掉奥运冠军前途的金炜,终究难逃"反噬"

小熊侃史
2025-11-14 00:05:51
初中生开窍的规律,还挺准的!

初中生开窍的规律,还挺准的!

好爸育儿
2025-11-17 09:25:09
安德玛不想给库里“打工”了

安德玛不想给库里“打工”了

钛媒体APP
2025-11-17 19:29:36
霍尊复出,亮相音乐节连唱9首歌曲;4年前宣布退圈:我的错,我来扛

霍尊复出,亮相音乐节连唱9首歌曲;4年前宣布退圈:我的错,我来扛

台州交通广播
2025-11-17 11:39:46
高市早苗一手炮制日本外交天崩开局:同时得罪四国,制造罕见被动局面

高市早苗一手炮制日本外交天崩开局:同时得罪四国,制造罕见被动局面

上观新闻
2025-11-18 00:28:13
把兰州文旅干破防的“剪刀姐”身份被扒,不是谁发视频谁有理

把兰州文旅干破防的“剪刀姐”身份被扒,不是谁发视频谁有理

Mr王的饭后茶
2025-11-16 21:54:10
2025-11-18 07:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11737文章数 142506关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

该聊聊琉球问题了 日本国内集体破大防

头条要闻

该聊聊琉球问题了 日本国内集体破大防

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

本地
旅游
家居
教育
公开课

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

旅游要闻

今日数据精选:韩国取代日本,出境游洗牌;地铁车辆将有新国标

家居要闻

回廊通道 强化空间秩序

教育要闻

学生“爆改”教室!你给哪个打满分?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版