网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 Spotlight | NYU提出QSVD数学压缩让模型轻、快、稳

0
分享至



本工作由纽约大学 NYU SAI Lab 的硕士生王宇彤与博士生王海宇合作完成。本文的通讯作者为张赛骞,他是纽约大学(New York University)计算机科学系助理教授、SAI Lab 负责人,其研究方向涵盖多模态大模型(Vision-Language Models)压缩与加速、低比特量化、高效推理以及可信智能系统。

在多模态智能浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统,它们让机器能够「看懂世界、说人话」。

然而,强大的性能也带来了沉重的代价——模型动辄上百亿参数,显存和计算压力巨大。以 LLaVA-13B 为例,推理时 Key-Value 缓存(KV cache)体积极大,速度慢、资源耗尽,这让多模态/大模型的「落地」之路异常艰难。

面对这一瓶颈,来自纽约大学的研究团队 SAI Lab 在 NeurIPS 2025 上提出了一项突破性工作——QSVD(Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models)。它通过「联合低秩分解 + 量化」的创新策略,为多模态模型找到了一条「轻量化而不减智」的新路径。



  • 论文标题:QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models
  • 论文地址:https://arxiv.org/abs/2510.16292
  • Github:https://github.com/SAI-Lab-NYU/QSVD

让多模态模型「减负」:

从 Key-Value 缓存出发

视觉语言模型的强大来自 Transformer 中的注意力机制,但这也带来巨大的 KV 缓存压力。现有方案如 Grouped-Query Attention、Multi-Query Attention、DeepSeek 的 MLA 等虽能降低计算开销,却要么精度受损,要么需要重新训练。

QSVD 的目标很明确:不改架构、不重新训练,只通过数学压缩就让模型更轻、更快、更稳。

核心思想:

联合 QKV 奇异值分解(Joint SVD over QKV)

传统做法是分别对 Q、K、V 矩阵进行奇异值分解(SVD),而 QSVD 首创联合分解(Joint SVD)







这带来三大优势:

  • 计算更少:降维乘法减少矩阵乘法;
  • 显存更省:只缓存一个中间表示,KV 缓存量减半;
  • 表示更稳:联合分解保持 Q/K/V 之间的语义耦合,不损失信息。

自适应秩分配:

让压缩更聪明

QSVD 进一步提出跨层秩分配策略(Cross-layer Rank Allocation)。不同层的重要性不同,不能「一刀切」地压缩。研究者通过梯度近似计算每个奇异值对模型损失的影响,得到重要性评分,并在全模型范围内排序与截断。



这样,模型可以智能决定「该减多少秩、留多少精度」,实现全局最优的压缩配置。

低比特量化 + 异常值平滑

仅靠低秩近似还不够。为了进一步提升硬件效率,QSVD 结合了后训练量化(PTQ)与异常值平滑(Outlier Smoothing)。







实验结果:

更轻、更快、更准

研究团队在 LLaVA-v1.5(7B/13B)、LLaVA-Next 和 SmolVLM 等模型上进行了系统评估,结果令人惊喜:

  • FP16 比 ASVD 与 SVD-LLM 精度高 10% 以上;
  • W8A8(8 位量化)下几乎无精度损失,W4A4 极低比特条件下依然稳定工作
  • 推理速度最高提升 13 倍。

这些结果说明,QSVD 不仅压缩模型,还让模型更「聪明」。

技术总结:

三步实现高效多模态推理

  • Joint SVD over QKV

拼接 Q/K/V 矩阵,统一做低秩分解;

  • Cross-layer Rank Allocation

按重要性分配秩,全局最优压缩;

  • Quantization with Outlier Smoothing

旋转量化 + 可学习奇异值分配,抑制异常值。

三步即可打造出低显存、高精度、快速响应的多模态大模型。

结语

在这项工作中,我们提出了QSVD—— 一个将奇异值分解(SVD)与量化(Quantization)结合的统一框架,用于高效压缩视觉语言模型(VLM)。通过对 Q、K、V 权重矩阵的联合分解,并引入跨层自适应秩分配策略,QSVD 在几乎不损失精度的前提下,显著降低了计算开销、KV 缓存规模与模型存储成本。

虽然量化操作应用于整个模型,但压缩的核心集中在自注意力层(Self-Attention Layers)的 QKV 权重上,这正是影响推理效率的关键环节。未来,我们计划将优化范围扩展至跨模块联合压缩与自适应优化,进一步推动多模态模型的系统级轻量化。

值得注意的是,提高模型效率也意味着更强的可部署性与普惠性。当更强大的模型能够被更广泛地使用时,它们将有潜力加速教育、医疗、创意与人机交互的发展——但同时也可能带来监控、隐私与虚假信息传播等风险。如何在开放与安全之间取得平衡,是下一阶段研究必须正视的问题。

论文与代码均已公开,欢迎感兴趣的同学阅读、复现以及深入讨论。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个写文章的人,被抓了

一个写文章的人,被抓了

玖奌杂货铺
2026-02-04 00:01:56
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
高市早苗发文,宣布一个重大消息,竟然将中国说成“特定国家”!

高市早苗发文,宣布一个重大消息,竟然将中国说成“特定国家”!

扶苏聊历史
2026-02-03 18:21:14
记者:在续约马奎尔的问题上,曼联内部存在分歧;贝巴:卡里克上周邀请我和谢什科谈谈

记者:在续约马奎尔的问题上,曼联内部存在分歧;贝巴:卡里克上周邀请我和谢什科谈谈

MUREDS
2026-02-04 00:02:08
一天2.2万人爽约!灵隐寺这次算是被白嫖党,给狠狠上了一课!

一天2.2万人爽约!灵隐寺这次算是被白嫖党,给狠狠上了一课!

云中浮生
2026-02-02 13:57:22
卢克曼:国王杯上场?如果获得机会,我会准备好的

卢克曼:国王杯上场?如果获得机会,我会准备好的

懂球帝
2026-02-04 06:44:12
先别吹!,等高铁将换气难题和“卡脖子”短板攻下来再说!

先别吹!,等高铁将换气难题和“卡脖子”短板攻下来再说!

细雨中的呼喊
2026-02-03 07:15:05
中方发声强烈谴责瓜达尔港袭击事件:对遇难者表示深切哀悼,中方将一如既往坚定支持巴方打击恐怖主义

中方发声强烈谴责瓜达尔港袭击事件:对遇难者表示深切哀悼,中方将一如既往坚定支持巴方打击恐怖主义

扬子晚报
2026-02-03 17:14:22
官方丨切尔西攻击手正式转会米兰

官方丨切尔西攻击手正式转会米兰

米兰圈
2026-02-03 09:26:34
最高15℃→最低0℃!武汉阴雨加码、冷空气强势来袭

最高15℃→最低0℃!武汉阴雨加码、冷空气强势来袭

极目新闻
2026-02-03 16:18:58
有色金属,突传大消息!

有色金属,突传大消息!

数据宝
2026-02-03 18:58:37
买宝瑶:父孙楠闪婚九载终散场,演员梦被继母无情捏碎

买宝瑶:父孙楠闪婚九载终散场,演员梦被继母无情捏碎

不甜的李子
2026-02-03 00:08:39
理性!不要梭哈!

理性!不要梭哈!

一莎观察
2026-02-01 13:37:59
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
小米SU7一年半跑了26.5万公里几乎零故障!电池更是仅衰减5.5%

小米SU7一年半跑了26.5万公里几乎零故障!电池更是仅衰减5.5%

快科技
2026-02-02 20:08:52
警钟长鸣!大连左转客车与直行货车相撞,5人殒命,事故细节曝光

警钟长鸣!大连左转客车与直行货车相撞,5人殒命,事故细节曝光

童童聊娱乐啊
2026-02-04 03:10:24
女排季后赛分组出炉!上海晋级无忧,江苏山东争第一,天津悬了

女排季后赛分组出炉!上海晋级无忧,江苏山东争第一,天津悬了

骑马寺的少年
2026-02-03 23:23:13
赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

达文西看世界
2026-01-20 13:35:51
鳌太线2死1坠崖事件完整经过梳理:19岁高颜女大学生被活活冻死!

鳌太线2死1坠崖事件完整经过梳理:19岁高颜女大学生被活活冻死!

不二表姐
2026-01-10 22:29:28
男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

云端小院
2026-01-31 08:59:12
2026-02-04 06:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12241文章数 142562关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

教育
游戏
时尚
亲子
军事航空

教育要闻

学霸和普通娃,差的不是脑子

魔兽怀旧服:暴雪大出手,整治GZS排骨人吃香,国服会跟进吗?

状态比10年前更好,她到底做对了什么?

亲子要闻

突然觉得豁然开朗,固化的思维升华了过

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版