网易首页 > 网易号 > 正文 申请入驻

通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持

0
分享至

新智元报道

编辑:LRST

【新智元导读】LLM.265研究发现,视频编码器本身就是一种高效的大模型张量编码器。原本用于播放8K视频的现成视频编解码硬件,其实压缩AI模型数据的效率也非常高,甚至超过了许多专门为AI开发的方案。该工作已被世界微架构大会MICRO-2025正式接收,相关成果将于今年10月在首尔进行展示与讨论。

在大模型的发展历程中,提升参数规模已被多次证明是提升模型智能的最有效手段之一。

然而,随着模型参数量的增加,GPU内存容量和互联带宽已成为限制未来更大规模模型训练和部署的主要瓶颈。

在有限的硬件资源下,如何更有效地训练和推理更大规模的模型,已成为一个备受关注且具有显著经济价值的课题。

为应对这一挑战,压缩技术逐渐成为研究的重点,尤其是在大模型的训练和推理过程中,内存和通信带宽已成为最关键的瓶颈。

压缩技术通过减少数据量,直接缓解了系统瓶颈,使得压缩率的提升往往能直接转化为系统效能的增强。

模型压缩的巨大潜力吸引了大量研究者探索多种方法,致力于压缩大模型训练和推理过程中的各类张量,以提升整体效率。

来自杜克大学、卡耐基梅隆大学和香港科技大学的研究团队发现,视频编码器本身就是一种有效的张量编码器。

论文链接:https://arxiv.org/abs/2407.00467

代码链接:https://github.com/Entropy-xcy/llm.265

更重要的是,视频编解码器具备许多对于大规模模型系统至关重要的特性。

灵活的码率控制

传统的量化压缩方法通常局限于整数存储,这使得存储空间只能以整数位来控制(例如3bit、4bit每个元素)。然而,视频编解码器能够灵活控制码率,支持任意实数的位数(例如每个元素平均3.1415bit),从而更加高效地利用存储空间。

多种张量的压缩

传统的量化压缩算法通常只针对少数几种张量进行压缩。而LLM.265方法发现,视频编解码器在处理模型参数、激活函数、KV缓存、参数梯度和反向传播梯度等多个张量时,具有卓越的压缩效果。

通过使用统一的压缩算法对整个系统中的大部分张量进行压缩,极大地降低了AI系统的复杂度。

硬件支持

现有的GPU已自带视频编解码器,LLM.265可以直接利用现有GPU的硬件视频编解码单元加速张量压缩。

此外,视频编解码硬件的实现效率高且已有几十年的成熟经验,因此直接利用或调整视频编解码器进行张量压缩,对于大模型加速器的设计与实现是一种切实可行的方案。

为什么是视频编码器?

视频编解码器是一个神奇的怪物。

时间x宽度x高度x色彩,最初在计算机上播放视频的工程师一定想不到,这个庞大四维视频张量,可以在几十年后做到在8K,240fps的分辨率下,在手掌大小的移动设备上通过无线网络播放。

诚然,摩尔定律提供了算力基石,然而除此之外更加难以置信的是,视频编解码器的发展,使得视频矩阵可以在被压缩几千倍的情况下,让人类视觉上几乎看不出和原视频的差别。

如今,在计算机体系结构领域的顶会中,大模型加速器是毫无疑问的兵家必争之地,是当今时代毫无疑问的「杀手级应用」。

殊不知,30年前体系结构领域也有一个「杀手级应用」,就是视频编解码!

可以说,30年前的视频编解码这个话题的卷的程度,丝毫不弱于当今的大模型加速器。

然而在这卷的过程中,视频编解码器和其硬件实现也已经被卷得优化到了极致,让今天做大模型加速和压缩的研究者回头望去,就好像历史在重演,让人不自觉的便要学习之前的经验。

然而视频编码器正是这么一个具象的经验,在大模型压缩领域的很多研究,都有意或无意的借鉴了许多视频编码器的工作流程,比如说DeepCompression的熵编码,QuaRot和QUIP,和MXFP的分组量化。

然而纵使借鉴,却未有人尝试直接利用视频编解码器,LLM.265改变了这一「灯下黑」的现状。

下面用两个更具体的例子抛砖引玉,展示视频编码器可以高效压缩张量的原理。

正交编码均摊离群值(Outlier)的编码压力

在信息论领域,高效压缩服从正态分布的数据早已涌现出众多成熟方案。

然而,对现代大模型而言,无论是权重还是激活,往往呈现「正态主体+离群值」的混合分布(见图a、c),既跨度大又要求对分布中心保持高分辨率。

这种「宽动态范围+高精细度」的双重需求让传统压缩/量化方法进退维谷:不是浪费大量比特覆盖离群值,便是牺牲中心区域精度,或直接截断离群值,结果都难以令人满意。

然而视频编解码器中的正交变化(如H.264中的DCT)为此提供了一条更为优雅途径。

有时候,模型参数中会出现一些特别大的数字,就像炒菜时放进一大块盐,如果没拌匀,整道菜就会忽咸忽淡。

而DCT(离散余弦变换)就像一把把盐搅拌均匀的勺子,把「盐味」分散到周围,让整锅菜的味道更均衡、协调。如图a→b所示,DCT先把含离群值的分布「整形」成更规整的近正太分布。

从具体例子来说,在图c→d过程中,DCT可以将「128」这一极端值的能量分散到邻近系数,把原本集中的编码压力均匀摊薄。

最终,虽然整体幅值略有升高,但离群值被彻底吸收,后续的编码管线的复杂度和存储开销都大可以大降低。

帧间预测+残差编码

谈及视频编码,首先必须提到其灵魂技术——预测编码。正是预测编码,使得视频压缩效率达到了前所未有的水平。预测编码的核心思想是「预测而非直接存储

如果我们能够依据已有信息对待编码的数据块进行精准预测,那么该块本身就无需再存储;即便预测并不完美,也无需担心,只要能够得到数据块的大致轮廓,随后计算出真实数据与预测之间的残差,并仅保存能量更低的残差信息即可。

相比直接保存完整数据块,仅存残差便能大幅缩减所需比特数。

上图概述了视频编码器在张量压缩中的工作链路。编码器首先对输入帧进行边缘预测(见图b):一旦判断出存在连续边缘,便直接记录「从(x₁,y₁)到(x₂,y₂)的像素均为蓝色」这类几何描述,而非逐像素存储。

凭借这种轮廓级表达,数据体积骤减,压缩比随之倍增。类似地,LLM的权重、激活和梯度张量也蕴含可视化意义上的「边缘」。

这些张量通常呈轴向分布,即沿同一轴方向的数据整体偏高或偏低(见图b)。

视频编码器可以把这类轴向结构视作「可预测」的边缘区域,先用预测值勾勒大致轮廓,再只编码预测与真实之间的低能量残差(见图c)。

对残差先进行正交变换,再进行量化后,其信息熵会进一步降低(见图d),于是需要传输或存储的比特数大幅减少,压缩率显著提升。

实验结果

实验结果表明,在几乎所有模型压缩的场景中,无论是推理还是训练,也不论是单卡还是分布式环境,使用视频编解码器对张量进行压缩都能取得显著的效果。

针对权重压缩的实验,LLM.265将传统的4 bit量化进一步推进至2.5 bit,在仅用2.5 bit的预算下仍能够实现与原来4 bit相当的性能,几乎与全精度基准线持平,未出现可感知的精度下降。

在训练过程中,LLM.265将每参数的平均通信比特从之前的3.5 bit降至1.4 bit,通信量因此缩减约2.5倍,同时收敛速度也超过了此前的最先进方法。这些结果充分说明视频编解码器在张量压缩方面具备卓越的潜力。

关于未来加速卡设计、编码器和LLM系统的思考

用更多计算换更小数据量会越来越划算

随着模型规模的持续扩大,摩尔定律的效应趋于衰减,计算能力的提升相对受限,而通信和内存带宽的瓶颈在硬件成本、能耗以及可扩展性方面表现得尤为突出。

在此背景下,数据压缩作为一种「用计算量换取更小数据规模」的技术手段,对缓解内存和通信压力具有重要意义。

研究结果发现,视频编码模块在芯片上占用的面积不足GPU面积的百分之一,这意味着在现有GPU上额外集成若干视频编码单元即可显著提升系统级能效,降低整体成本;若进一步研发专用于张量的编码单元,效益将更加突出。

不再强求无损压缩,有损有更高的自由度

过去的压缩加速器研究大多聚焦于无损方案,而无损压缩的理论上限通常不超过两倍的压缩率。

LLM.265的实验表明,在允许适度有损的前提下,只要在性能与精度之间进行合理的权衡,就可以实现远高于无损的压缩率,同时在训练和推理阶段仍能保持模型效果和精度的可接受水平。

更重要的是,有损压缩方案往往只需对现有硬件进行少量改动,即可在需要时切换回无损模式,保持灵活性。

通用还是专用,that is the question

LLM.265的实验提示可以从两条路径进行探索:

一是将现有视频编码器精细化为专门的张量编码器,去除与张量无关的功能模块,强化对张量有价值的部件,并加入针对张量特性的专用模块,以追求极致性能;

二是将张量编码的功能融入视频编码器之中,利用视频、图像以及通用文件压缩流水线之间的高度相似性,实现硬件压缩加速器的模块共享。

若能够构建一个能够服务多种压缩场景的共享加速器,则有望在硬件资源利用率和系统整体效率上获得更大收益。

结语

通用抑或专用,计算体系结构自诞生伊始便笼罩着激烈的争论。千位架构师、千种应用,恰似千人千面、千个哈姆雷特,孕育出万般设计。

正是这种无限的自由度,造就了体系结构与架构设计的独特魅力,也促成了芯片史上无数大胆、疯狂的创新。

然而,架构师面对的并非舞台上「文无第一」的妙语横生,而是「武无第二」的沙场血战。

在无数基准测试的天平下,所有的架构设计都高下立判。每一次架构抉择,都足以左右一个企业的兴衰存亡——此为即决高下,也决生死。我想,这正是芯片架构设计最令人着迷之所在。

参考资料:

https://arxiv.org/abs/2407.00467

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
受权发布|中华人民共和国国务院令  第833号

受权发布|中华人民共和国国务院令  第833号

新华社
2026-03-26 17:03:04
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
苹果 Max 新品正式开售,3999 元起!

苹果 Max 新品正式开售,3999 元起!

科技堡垒
2026-03-26 11:36:39
医保大变革!4月1日执行,取消备案、全家共济、药店可报销

医保大变革!4月1日执行,取消备案、全家共济、药店可报销

复转这些年
2026-03-26 09:27:58
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
中国无人装甲车最新画面曝光,模块化武器系统可按需切换

中国无人装甲车最新画面曝光,模块化武器系统可按需切换

IT之家
2026-03-26 22:00:05
伊朗军方:已击中或击落202架各类美以军机

伊朗军方:已击中或击落202架各类美以军机

界面新闻
2026-03-26 15:29:15
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
好消息!电动车、摩托、三轮、四轮车松绑,不禁不罚路权全面放开

好消息!电动车、摩托、三轮、四轮车松绑,不禁不罚路权全面放开

复转这些年
2026-03-26 09:38:31
所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

青青子衿
2026-03-26 01:37:03
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
全线跳水!刚刚,伊朗发动攻击

全线跳水!刚刚,伊朗发动攻击

中国基金报
2026-03-26 16:15:26
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
2026-03-26 22:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
家居
手机
本地
旅游

上新|| 她们说,找到了自己的人生裙子!

家居要闻

傍海而居 静观蝴蝶海

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

别再人挤人,泰州的这条老街,传承1200年!

无障碍浏览 进入关怀版