网易首页 > 网易号 > 正文 申请入驻

微软BitDistill将LLM压缩到1.58比特:10倍省内存、2.65倍推理加速

0
分享至



机器之心报道

编辑:+0、陈陈

大语言模型(LLM)不仅在推动通用自然语言处理方面发挥了关键作用,更重要的是,它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性,但在下游任务中高效部署仍面临重大挑战。随着模型规模的急剧扩大,这些挑战被进一步放大,尤其是在资源受限的设备上(如智能手机),内存占用和计算开销都变得极其昂贵。

为应对这些问题,近期研究提出了极低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。这种方法旨在显著降低内存占用并加速推理,从而为 LLM 在下游应用中的高效部署提供一条可行途径。

然而,要让 1.58 比特的 BitNet 在下游任务中达到与高精度模型相媲美的准确率,通常需要从零开始在大规模语料上进行预训练,这会带来巨大的计算和能耗成本。

如图 1 所示,直接对已有的全精度 LLM 进行 1.58 比特量化感知训练(Quantization-Aware Training, QAT)时,在特定下游任务上的训练过程往往不稳定,难以保持原有的性能,并表现出较差的可扩展性:当模型规模从 0.6B 增大到 4B 时,相对于全精度基线的性能差距从 13.9 扩大到 15.3。



这一现象凸显出:迫切需要专门为 1.58 比特 BitNet 设计的更有效的量化感知训练方法。

在本研究中,来自微软的研究者聚焦于将已有的 LLM 微调至 1.58 比特以适配特定下游任务,同时保持与全精度模型相当的性能。为此,本文提出了 BitDistill(BitNet Distillation)—— 一种具备良好可扩展性的量化感知训练(QAT)框架,旨在弥合极端 1.58 比特量化与实际部署之间的性能差距。

在四个基准任务及多种模型规模上的大量实验表明,BitDistill 具有出色的可扩展性,其下游任务性能可与全精度基线持平。同时,如图 1 所示,BitDistill 在 CPU 上实现了 10 倍的内存节省和 2.65 倍的推理加速,显著改善了延迟、吞吐量、内存效率和能耗,使其特别适合部署在资源受限的硬件平台上。



  • 论文地址:https://www.arxiv.org/pdf/2510.13998
  • 代码地址:https://github.com/microsoft/BitNet
  • 论文标题:BitNet Distillation

方法介绍:BitDistill

本文针对在资源受限设备上部署 LLM 以执行特定下游任务。重点是高效地将现有的预训练 LLM 压缩为 1.58 比特的 BitNet 模型,同时尽量减少性能损失与训练成本。

BitDistill 框架包含三个关键阶段:

第一阶段:模型精炼阶段。

与全精度模型不同,在标准初始化方案下,全精度模型的隐藏状态方差通常能够保持在一个稳定范围内;而低比特量化模型(如 1.58 比特 LLM)则常常遭受过大的激活方差问题,导致优化过程不稳定并造成收敛性能下降。

为缓解这一问题,借鉴先前 1.58 比特 BitNet 的设计原则,本文在每个 Transformer 模块内的关键位置引入了额外的归一化层(SubLN),以实现稳定的优化过程。

第二阶段:持续预训练阶段。

如图 1 所示,直接将已有的全精度 LLM 转换为 1.58 比特 BitNet 并在下游任务上进行微调,往往会得到次优结果。这是因为有限的训练 token 数量不足以有效地将全精度权重适配到受限的 1.58 比特表示空间中,从而导致可扩展性较差:随着模型规模的增大,其性能与全精度基线之间的差距也随之扩大。

为此,本文提出了一个两阶段训练流程:首先进行持续训练阶段,利用少量预训练语料来实现所需的适配;随后再在下游任务上进行微调。

第三阶段:基于蒸馏的微调。

为更有效地缓解由精度降低带来的性能退化,本文在下游任务微调阶段引入了两种知识蒸馏技术:其中,微调后的全精度 LLM 作为教师模型,而其 1.58 比特量化版本作为学生模型,通过蒸馏过程进行学习与性能对齐。

蒸馏过程主要利用 logits 蒸馏和多头注意力蒸馏来恢复全精度性能。



实验

实验设置

BitDistill 方法的有效性在两个代表性任务上进行评估:文本分类与文本摘要。分类任务采用通用语言理解评估 (GLUE) 基准中的 MNLI、QNLI 与 SST-2 三个数据集,摘要任务使用 CNN/DailyMail (CNNDM) 数据集。所有数据集均用于训练与评估,以全面验证方法性能。

BitDistill 的目标是将预训练的全精度大语言模型 (LLM) 微调为适用于下游任务的 1.58-bit BitNet 模型。比较对象包括:

(1) 在相同任务上直接微调的全精度 FP16 模型 (FP16-SFT);

(2) 将全精度模型量化为 1.58-bit BitNet 后再微调的模型 (BitNet-SFT)。

实验以 Qwen3 系列为基础模型,涵盖 0.6B、1.7B 与 4B 三种规模,并额外测试了 Qwen2.5 与 Gemma 等替代骨干网络以评估模型类型影响。所有方法均采用贪心搜索确定学习率与训练轮数,以兼顾性能与公平比较。最大训练序列长度设为 512,批大小为 32,所有模型均在配备 8 块 AMD Mi300X GPU 的服务器上训练。

Logits 蒸馏温度设为 5.0;分类任务中 λ=10、γ=1e5,摘要任务中 λ=1、γ=1e3,所有实验中 αi=1.0。持续预训练阶段使用 FALCON 语料库中采样的 100 亿个 token,与从头训练 1.58-bit 模型所需的约 4 万亿个 token 相比,成本几乎可忽略。

评估设置

采样参数固定为 top-p=1.0、温度 = 0。分类性能以准确率衡量,摘要性能使用 BLEU、ROUGE-1/2/L/SUM 评估,最大生成长度为 4096 token。运行时效率通过 16 线程 CPU 的 token 吞吐量(tokens/s)报告。

主要结果

BitDistill 在各基准数据集上表现如表 1 与表 2 所示。与全精度基线相比,1.58-bit 模型在准确率和摘要质量上保持接近性能,同时推理速度提升约 2 倍,内存占用减少近 10 倍,展示出在资源受限环境下的显著优势。这表明通过合理蒸馏策略,激进量化仍可实现高性能。



文本分类任务上的结果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每个指标和数据集的最高分均以粗体突出显示。1.58-bit 的 BitDistill 模型实现了与 FP16 基线相当的性能,同时在所有数据集上将推理速度提升了 2 倍,并将内存占用降低了 10 倍。符号 * 表示在 BitDistill 中所使用的 FP16 教师模型。



文本摘要任务(CNNDM 数据集)上的结果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每个指标和数据集的最高分均以粗体突出显示。1.58-bit 的 BitDistill 模型实现了与 FP16 基线相当的性能,同时在所有数据集上将推理速度提升了 2 倍,并将内存占用降低了 10 倍。符号 * 表示在 BitDistill 中所使用的 FP16 教师模型。

将基础模型替换为 Qwen2.5 和 Gemma 后,BitDistill 仍保持稳定性能(见表 4)。虽然不同预训练模型间存在轻微波动,但整体趋势一致,显示该方法具备跨架构通用性和良好的部署适应性。



不同量化技术在文本分类任务上的结果。B、G、A 分别代表块量化、GPTQ 和 AWQ。

消融实验

BitDistill 包含三个阶段。消融实验表明,移除任一阶段均显著降低性能(表 5),说明各阶段相互补充,完整流程对效率与准确率平衡至关重要。



BitDistill 中不同阶段的效果。此处使用 Qwen3 0.6B 作为基础模型。M.D.、C.T. 和 D.T. 分别表示建模优化、持续预训练以及基于蒸馏的微调。

在第三阶段中,单独使用 logits 蒸馏或注意力蒸馏均能提升性能,但联合使用效果最佳(表 6)。两种技术从不同角度缓解量化优化难题,其协同作用在极低比特环境下尤为显著。



蒸馏技术的效果。此处,LD 表示公式 9 中的 logits 蒸馏,AD 表示公式 12 中的多头注意力蒸馏。

BitDistill 与 Block-Quant、GPTQ、AWQ 等多种量化方案兼容。实验显示:(1) 无论底层量化方法为何,BitDistill 均能稳定提升性能;(2) GPTQ、AWQ 等复杂量化策略在其基础上进一步增强效果。这表明 BitDistill 提供了一种普适的低比特模型增强框架。

分析

在阶段一中插入 SubLN 层能稳定 1.58-bit BitNet 的优化并加速收敛。如图 3 (a) 所示,带 SubLN 的模型在 FALCON 语料库上的微调表现优于未使用 SubLN 的版本。



(a) 使用 SubLN 将现有的大语言模型 (LLMs) 微调为 1.58-bit BitNet,可以获得更优的性能和更快的收敛速度。

持续训练可显著缩小大模型的 1.58-bit 与 FP16 性能差距。权重分布可视化(图 2)显示,经过持续训练后,BitNet 权重从近似高斯分布转变为更接近从头训练的分布。该特征促使权重集中于 0 与 ±1 过渡区域,增加梯度更新的敏感度,从而提升模型对下游任务的拟合能力。



模型权重的可视化。上面两行展示了从头开始训练的 BitNet 的量化权重,及其对应的 FP16 分布。下面两行展示的是从 LLM 加载权重并进行持续训练后,BitNet 的量化权重及其对应的 FP16 分布。

在第三阶段,单层注意力蒸馏优于多层蒸馏(图 3 (b))。后期层的蒸馏效果更佳,表明层选择对蒸馏质量至关重要。



(b) 在 Qwen3 0.6B 模型上,通过蒸馏不同层所获得的 MNLI 准确率对比。

使用更大规模的 FP16 教师(如 Qwen3-1.7B、Qwen3-4B)显著提升学生模型性能(图 3 (c)),甚至超越同规模的 FP16 模型,证明高质量教师能为 BitDistill 带来额外收益。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在这个比烂的世界,他们迫不及待要把中国拖入战争深渊!

在这个比烂的世界,他们迫不及待要把中国拖入战争深渊!

观云者
2026-02-06 08:53:23
忘掉 B 费吧!曼联新王登基,范佩西 2.0 才是红魔真核

忘掉 B 费吧!曼联新王登基,范佩西 2.0 才是红魔真核

澜归序
2026-02-06 07:40:19
春晚第四次联排,40位大咖亮相,近十年来最强阵容!收视稳了

春晚第四次联排,40位大咖亮相,近十年来最强阵容!收视稳了

乡野小珥
2026-02-08 20:52:25
《求是》杂志评论文章“积极推动物价合理回升”,这是什么信号?

《求是》杂志评论文章“积极推动物价合理回升”,这是什么信号?

总在茶余后
2026-02-08 23:35:59
断了!英伟达30年来首年不推出任何新显卡!

断了!英伟达30年来首年不推出任何新显卡!

游民星空
2026-02-07 17:05:08
你越来越沉默的原因是什么?网友:尊重每一只青蛙,和它的井

你越来越沉默的原因是什么?网友:尊重每一只青蛙,和它的井

另子维爱读史
2026-01-31 23:01:33
加盟就起作用,哈登关键三分逆转对手,骑士终于迎来詹姆斯!

加盟就起作用,哈登关键三分逆转对手,骑士终于迎来詹姆斯!

爱体育
2026-02-08 23:34:20
悬殊的7-0!U17国足狂胜印尼,重用董路足球小将,晋级世界杯在望

悬殊的7-0!U17国足狂胜印尼,重用董路足球小将,晋级世界杯在望

球场没跑道
2026-02-09 00:11:01
不打球的花了1.55亿!打球的才1300万.....好畸形!

不打球的花了1.55亿!打球的才1300万.....好畸形!

柚子说球
2026-02-08 10:22:18
程若葵辛愿<<死亡是她爱我的遗书>>:程若葵爱情、忠诚与背叛交织

程若葵辛愿<<死亡是她爱我的遗书>>:程若葵爱情、忠诚与背叛交织

电独白
2026-01-28 19:45:22
上海112-83山东4好消息!弗格+2本土球员展现价值,白边太无解!

上海112-83山东4好消息!弗格+2本土球员展现价值,白边太无解!

篮球资讯达人
2026-02-08 22:47:46
赚翻了!一千多就拿下价值超9000元的SSD

赚翻了!一千多就拿下价值超9000元的SSD

快科技
2026-02-08 23:44:03
这三类人,是当今社会过得最惨的一批人。

这三类人,是当今社会过得最惨的一批人。

诗词中国
2026-02-05 18:39:50
溥仪在伪满洲国有多大的权力?

溥仪在伪满洲国有多大的权力?

莫地方
2026-02-09 01:10:04
钱躺在银行,人已去天堂,密集套现60亿后,“饲料大王”憾然辞世

钱躺在银行,人已去天堂,密集套现60亿后,“饲料大王”憾然辞世

牛牛叨史
2026-02-08 23:59:35
无缘时隔9年再度加冕!安洗莹12连胜夺三冠,国羽0-3不敌韩国

无缘时隔9年再度加冕!安洗莹12连胜夺三冠,国羽0-3不敌韩国

钉钉陌上花开
2026-02-08 12:52:21
明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

铭记历史呀
2026-01-31 23:08:25
喜欢K-POP,外国人花大价钱去韩国培训想出道,结果全是骗局

喜欢K-POP,外国人花大价钱去韩国培训想出道,结果全是骗局

英国那些事儿
2026-02-07 23:21:31
美媒:埃及求购歼20谈判有新进展,单价1亿美元?

美媒:埃及求购歼20谈判有新进展,单价1亿美元?

兵国大事
2026-02-07 18:11:44
睾酮极低记录曝光,爱泼斯坦再引争议

睾酮极低记录曝光,爱泼斯坦再引争议

橙星文娱
2026-02-08 13:28:44
2026-02-09 02:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

为实现雄心勃勃的计划,特斯拉开始招人

头条要闻

高市早苗豪赌得手保住相位 实现“双重巩固”

头条要闻

高市早苗豪赌得手保住相位 实现“双重巩固”

体育要闻

“我就是王楚钦” 王楚钦霸气指向球衣背后

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

旅游
本地
健康
房产
公开课

旅游要闻

留沪过年玩点新的!上海海昌海洋公园把11项国家级非遗搬来了,马年烟花秀、傩舞、鱼龙灯…这份新春限定攻略请查收

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

转头就晕的耳石症,能开车上班吗?

房产要闻

实景超预期呈现!三亚豪宅,再迎封面之作!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版