网易首页 > 网易号 > 正文 申请入驻

研究人员提出AI模型无损压缩框架,压缩率达70%

0
分享至

大模型被压缩 30% 性能仍与原模型一致,既能兼容 GPU 推理、又能减少内存和 GPU 开销、并且比英伟达nvCOMP 解压缩快 15 倍。

这便是美国莱斯大学博士生张天一和合作者打造的无损压缩框架 DFloat11 所拥有的“本领”。

研究中,他们针对包括 Llama-3.1、Qwen-2.5 和 Gemma-3 在内的最新模型进行了实验,借此证明 DFloat11 在保持逐位精确输出的同时,可以将模型大小减少约 30%。

与那些将未压缩模型的部分卸载到 CPU 以便满足内存限制的替代方案相比,DFloat11 在 token 生成方面的吞吐量提高了 1.9 倍至 38.8 倍。

在 GPU 内存预算固定的情况下,DFloat11 的上下文长度比未压缩模型长出 5.3 倍至 13.17 倍。

这让本次方法能在配备 8 个 80GB GPU 的单个节点上,实现 810GB Llama-3.1-405B 模型的无损推理。

这表明,基于 DFloat11 的压缩技术显著降低了大语言模型的硬件需求,同时在大多数实际用例中仅引入了合理的处理开销。

这意味着,本次方案能将任何 BFloat16 模型压缩至其原始大小的约 70%,在提供与原始模型 100% 相同的性能的同时,还能带来诸多吞吐量优势,非常适用于 GPU 资源受限的部署环境。目前,研究人员已将相关代码和模型放在 GitHub(https://github.com/LeanModels/DFloat11)。

DFloat11 解压内核的三个核心组件

据了解,为了在 GPU 上实现基于熵编码权重的有效推理,研究团队引入了 DFloat 这种新型数据表示方法,并打造出一个 GPU 内核,该内核旨在以大规模并行的方式针对 DFloat11 权重进行快速的在线解压缩。

DFloat11 解压内核由三个核心组件组成:

➊ 利用存储在 GPU 共享内存中的紧凑查找表(LUT,lookup tables)针对熵编码权重进行高效解码。用于解码 32 位霍夫曼码的单个单片查找表,大约需要 42.9 亿个条目,这使得其内存占用过高。为了缓解这一问题,研究团队将其分解为多个可放入 GPU 共享内存中的紧凑查找表,以便实现快速的访问。

➋ 精确高效地识别编码权重中的“读取”位置,以及解码权重中的“写入”位置。由于经过熵编码的权重具有可变位宽、且紧密排列的特性,因此为每个线程确定正确的读取/写入偏移量颇具挑战。为此,研究团队通过两阶段内核设计方案来解决这一问题,即使用最少的辅助变量,来高效协调线程特定的输入和输出位置。

➌ 通过批量执行矩阵解压缩的方法,来提高 GPU 资源利用率。由于单个权重矩阵的尺寸相对较小,对其进行单独解压缩会导致 GPU 利用率低下。为了解决这一问题,研究团队在 Transformer 块级别针对权重进行解压缩,不仅提高了吞吐量还降低了推理延迟。

研究人员表示,DFloat 是目前唯一一种既能减少内存占用,又能与高效 GPU 推理兼容的数据格式。

通过应用熵编码,DFloat11 可以将频率视为权重,从而分配动态长度编码,借此实现接近信息最优的压缩,并且不会损失任何精度。

基于多款主流大模型开展实验验证

研究中,课题组以实证方式评估了 DFloat11 压缩的有效性及其在 GPU 上的推理效率。

他们将多款最新大语言模型从其原始的 BFloat16 表示形式压缩为 DFloat 格式,并展示了相应的压缩因子。

然后,将运行在不同 GPU 上的 DFloat11 压缩模型的推理性能,与未压缩模型的推理性能进行比较。

同时,他们进行了一项消融研究,以便分析压缩的影响。

研究团队在 CUDA 和 C++ 中实现了 DFloat11 解压内核,并将其集成到 Transformers 推理框架中,进而评估了无损压缩模型与未压缩模型在推理效率上的对比结果。

对于未压缩的基线模型,其使用 Hugging Face Accelerate 框架来支持 CPU 卸载和多 GPU 推理。

为了评估 DFloat11 内核在不同硬件配置下的性能,研究团队在多台配备不同 GPU 和 CPU 配置的机器上进行了实验。

研究团队针对所有线性投影层都进行了压缩处理,将其参数格式从 BF16 转换为 DFloat11。

所压缩的模型包括 LLaMA 3/3.1/3.3、Qwen 2.5、QwQ、Mistral Nemo/Small/Codestral、Gemma 2/3 以及 DeepSeek R1 Distilled。

结果发现,DFloat11 在所有模型中实现了约 70% 的压缩率,相当于有效位宽约为 11 位。

通过在标准基准测试上进行准确率评估和困惑度评估,研究团队验证了 DFloat11 压缩的无损特性。

其使用 lm_evaluation_harness 工具完成了本次评估,并展示了在大规模多任务语言理解基准(MMLU)和 TruthfulQA 上的准确率,以及在维基文本(WikiText)和 C4 数据集上的词级困惑度。

结果如下表所示,压缩后的模型与其原始的 BF16 版本,它们在准确率和困惑度上保持一致。

为了进一步验证无损特性,研究团队将 DFloat11 解压缩后的 BF16 权重矩阵与每个模型的原始矩阵进行了比较,确认了它们在比特级上的完全等效性。

具体来说,其比较了 DFloat11 和 BF16 模型在不同硬件平台上的推理效率。

评估结果显示,未压缩的 BF16 模型超出了单个 GPU 的内存限制,而无损压缩的 DFloat11 模型则符合这些限制。

对于 BF16 模型,研究团队保留了 GPU 中的大部分模型和计算,同时将一些组件及其相关计算卸载到 CPU 上。

为了测量延迟和吞吐量,他们首先通过处理100 个 token 来进行预热运行。

在实际评估中,研究团队从空提示(empty prompt)开始解码了 100 个 token,并使用了不同的批大小(patch size),每种配置分别运行五次。

如上图所示,在 CPU 卸载的情况下,DFloat11 模型的表现始终优于 BF16 模型,其延迟降低了 1.85 至 38.83 倍。

为了比较使用多个 GPU 的情况,研究人员还展示了在单个 GPU 上运行的 DFloat11 模型与在两个 GPU 上运行的 BF16 模型的性能对比。

结果显示,DFloat11 压缩所带来的内存节省,不仅减少了推理所需的 GPU 数量,还能实现更长的文本生成长度。

在推理过程中,随着解码 token 数量的增加,键值缓存也会出现线性增长,进而会迅速成为 GPU 内存的瓶颈。

如下图,研究团队展示了在批大小为 1 的情况下,随着解码 token 数量的增加,DFloat11 和 BF16 模型在推理过程中的 GPU 内存消耗情况。

与 BF16 模型相比,DFloat11 压缩显著延长了 token 生成长度,使得在达到 GPU 内存限制之前,将可解码的 token 数量增加了 5.33 至 13.17 倍。

与此同时,研究团队在单个英伟达 A100-40GB GPU 上,使用不同的 token 批大小,比较了 BF16 和 DFloat11 格式下 Llama-3.1-8B-Instruct 的延迟分解。

对于每种配置,他们都在 10 次运行中测量前向传递过程中每个组件的延迟,并在下图中报告了平均值。

与原始模型相比,由于 Transformer 块的解压和语言建模头(Language Modeling Head)的存在,DFloat11 压缩版本引入了额外的延迟。

这种解压操作会增加一个固定的开销,但是这一开销与 token 批大小无关。

因此,增加批大小可以分摊解压成本,从而显著缩小整体推理时间的差距。

研究中,课题组还使用不同大小的权重矩阵,将 DFloat11 解压缩内核的延迟和吞吐量与两个基线进行对比:分别是 CPU 到 GPU 的传输,以及来自英伟达 nvCOMP 库的非对称数字系统(ANS,Asymmetric Numeral System)解压缩。

这样做是为了对比评估以下两种针对内存受限推理的策略:第一种策略是将权重矩阵卸载到 CPU 内存中,并在需要时将其传输到 GPU;第二种策略是将压缩后的矩阵存储在 GPU 上,并在需要时进行解压缩。

实验中,研究团队使用 Llama-3.1-8B-Instruct 语言建模头的权重矩阵,并将其分割成不同的大小,实验结果如下图所示。

实验结果显示,DFloat11 解压缩的效率明显高于两条基线,其吞吐量比 CPU 到 GPU 的传输高出 24.87 倍,不仅延迟更低,而且比英伟达 nvCOMP 解压缩快 15.12 倍。

总的来说,研究人员提出的 DFloat11 能将大语言模型的 BFloat16 权重无损压缩至约 11 位。通过利用 BFloat16 表示的信息冗余,研究团队在保持输出逐位相同的同时,实现了大约 30% 的模型尺寸缩减。

其还引入了新的算法设计,从而能使 DFloat11 压缩模型实现高效的 GPU 推理。通过精心地利用 GPU 内存和计算层次结构,研究团队开发了硬件感知算法,借此实现了 DFloat11 压缩模型的高效在线推理。

针对主流大语言模型和大型推理模型的实验结果表明,本次方法在不改变输出的情况下,始终能实现约 30% 的压缩率。对于当前比较缺少高端 GPU 的国内研发环境来说,这一成果或能为大家带来一定启发。

参考资料:

https://openreview.net/profile?id=~Tianyi_Zhang6

https://github.com/tonyzhang617

https://arxiv.org/pdf/2504.11651

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场5-0,让世界杯K组乱了:葡萄牙登上榜首,乌兹别克出线有条件

一场5-0,让世界杯K组乱了:葡萄牙登上榜首,乌兹别克出线有条件

侃球熊弟
2026-06-24 03:00:33
高考陆续出分!第一批“天坑专业”开始逆袭,当年哭着说入错行的人,现在闷声发大财?

高考陆续出分!第一批“天坑专业”开始逆袭,当年哭着说入错行的人,现在闷声发大财?

新东方
2026-06-23 12:31:54
哈兰德再度梅开二度,挪威3比2塞内加尔

哈兰德再度梅开二度,挪威3比2塞内加尔

澎湃新闻
2026-06-23 10:00:27
含泪辞职!英首相斯塔默倒下后 特朗普第一时间发声:他彻底失败了

含泪辞职!英首相斯塔默倒下后 特朗普第一时间发声:他彻底失败了

冰汝看美国
2026-06-23 04:08:06
血亏!曼联 5000 万水货世界杯现形,现在 2500 万甩卖都没人要

血亏!曼联 5000 万水货世界杯现形,现在 2500 万甩卖都没人要

奶盖熊本熊
2026-06-24 05:03:37
0-3!世界杯第二惨亚洲球队诞生:2连败丢7球+0分垫底,基本出局

0-3!世界杯第二惨亚洲球队诞生:2连败丢7球+0分垫底,基本出局

侃球熊弟
2026-06-23 08:48:38
曾被云南镇雄县公安局原副局长举报伪造、篡改笔录,涉事办案人员已不再担任县信访局局长职务

曾被云南镇雄县公安局原副局长举报伪造、篡改笔录,涉事办案人员已不再担任县信访局局长职务

大风新闻
2026-06-23 11:32:12
人民日报都看不下去了!教师什么时候成了“上街巡逻队”?

人民日报都看不下去了!教师什么时候成了“上街巡逻队”?

教师吧
2026-06-23 14:39:06
演员张雨绮直播中自曝“遭男友刘子琪无理由断崖式分手”,至今不知原因

演员张雨绮直播中自曝“遭男友刘子琪无理由断崖式分手”,至今不知原因

大风新闻
2026-06-23 12:01:05
为什么我不会看电影《抓特务》?

为什么我不会看电影《抓特务》?

十柱
2026-06-23 16:07:19
一觉醒来,美股7巨头崩了5个

一觉醒来,美股7巨头崩了5个

贩财局
2026-06-23 09:16:46
C罗:我不关心梅西进球;踢了24年球我早已能够承受批评

C罗:我不关心梅西进球;踢了24年球我早已能够承受批评

懂球帝
2026-06-24 03:53:08
埃及足协透露:萨拉赫等人被禁止飞往美国,世界杯球队发布公告

埃及足协透露:萨拉赫等人被禁止飞往美国,世界杯球队发布公告

十夏九漓
2026-06-23 20:11:00
8万人体育场有多稀缺?中美数量差距巨大,根本不是基建问题

8万人体育场有多稀缺?中美数量差距巨大,根本不是基建问题

梦史
2026-06-23 15:24:57
6-3,6-4!中国莎娃爆冷美网亚军,2连胜进8强,静候3号种子?

6-3,6-4!中国莎娃爆冷美网亚军,2连胜进8强,静候3号种子?

刘姚尧的文字城堡
2026-06-23 21:01:40
董路:C罗进球了但葡萄牙队很难走远 卡纳瓦罗临场指挥能力接近为0

董路:C罗进球了但葡萄牙队很难走远 卡纳瓦罗临场指挥能力接近为0

风过乡
2026-06-24 04:46:00
众多瑜伽馆雇佣印度男人动作不堪入目,充满了性崇拜仪式!

众多瑜伽馆雇佣印度男人动作不堪入目,充满了性崇拜仪式!

灯锦年
2026-06-23 13:18:24
RMC:约旦球迷在本国广场看世界杯时发生踩踏事故,致1死8伤

RMC:约旦球迷在本国广场看世界杯时发生踩踏事故,致1死8伤

懂球帝
2026-06-23 20:38:20
《求是》全新提法:房地产调整让居民家底变薄,需修复资产负债表

《求是》全新提法:房地产调整让居民家底变薄,需修复资产负债表

丁建刚房产
2026-06-23 17:03:20
大反转!顺德渔村驱赶母子避雨后续:监控视频公布,宝妈骗了全网

大反转!顺德渔村驱赶母子避雨后续:监控视频公布,宝妈骗了全网

李晚书
2026-06-23 09:56:58
2026-06-24 06:19:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16872文章数 515045关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

葡萄牙5-0乌兹别克斯坦 C罗梅开二度

头条要闻

葡萄牙5-0乌兹别克斯坦 C罗梅开二度

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

AI“算力稀缺”信仰开始动摇?

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

艺术
时尚
游戏
房产
军事航空

艺术要闻

高约400米!深圳湾金融中心大厦,冲出正负零

被40万人追更的火焰魔术师,重塑古老灯工玻璃

D加密破解技术真无敌了!又一大作同步版本更新

房产要闻

洞察新局|预算不变 居住升级 2026广州置业成本观察

军事要闻

以色列总理、国防部长和国防军总参谋长发表联合声明

无障碍浏览 进入关怀版