网易首页 > 网易号 > 正文 申请入驻

微软BitDistill将LLM压缩到1.58比特:10倍省内存、2.65倍推理加速

0
分享至



机器之心报道

编辑:+0、陈陈

大语言模型(LLM)不仅在推动通用自然语言处理方面发挥了关键作用,更重要的是,它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性,但在下游任务中高效部署仍面临重大挑战。随着模型规模的急剧扩大,这些挑战被进一步放大,尤其是在资源受限的设备上(如智能手机),内存占用和计算开销都变得极其昂贵。

为应对这些问题,近期研究提出了极低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。这种方法旨在显著降低内存占用并加速推理,从而为 LLM 在下游应用中的高效部署提供一条可行途径。

然而,要让 1.58 比特的 BitNet 在下游任务中达到与高精度模型相媲美的准确率,通常需要从零开始在大规模语料上进行预训练,这会带来巨大的计算和能耗成本。

如图 1 所示,直接对已有的全精度 LLM 进行 1.58 比特量化感知训练(Quantization-Aware Training, QAT)时,在特定下游任务上的训练过程往往不稳定,难以保持原有的性能,并表现出较差的可扩展性:当模型规模从 0.6B 增大到 4B 时,相对于全精度基线的性能差距从 13.9 扩大到 15.3。



这一现象凸显出:迫切需要专门为 1.58 比特 BitNet 设计的更有效的量化感知训练方法。

在本研究中,来自微软的研究者聚焦于将已有的 LLM 微调至 1.58 比特以适配特定下游任务,同时保持与全精度模型相当的性能。为此,本文提出了 BitDistill(BitNet Distillation)—— 一种具备良好可扩展性的量化感知训练(QAT)框架,旨在弥合极端 1.58 比特量化与实际部署之间的性能差距。

在四个基准任务及多种模型规模上的大量实验表明,BitDistill 具有出色的可扩展性,其下游任务性能可与全精度基线持平。同时,如图 1 所示,BitDistill 在 CPU 上实现了 10 倍的内存节省和 2.65 倍的推理加速,显著改善了延迟、吞吐量、内存效率和能耗,使其特别适合部署在资源受限的硬件平台上。



  • 论文地址:https://www.arxiv.org/pdf/2510.13998
  • 代码地址:https://github.com/microsoft/BitNet
  • 论文标题:BitNet Distillation

方法介绍:BitDistill

本文针对在资源受限设备上部署 LLM 以执行特定下游任务。重点是高效地将现有的预训练 LLM 压缩为 1.58 比特的 BitNet 模型,同时尽量减少性能损失与训练成本。

BitDistill 框架包含三个关键阶段:

第一阶段:模型精炼阶段。

与全精度模型不同,在标准初始化方案下,全精度模型的隐藏状态方差通常能够保持在一个稳定范围内;而低比特量化模型(如 1.58 比特 LLM)则常常遭受过大的激活方差问题,导致优化过程不稳定并造成收敛性能下降。

为缓解这一问题,借鉴先前 1.58 比特 BitNet 的设计原则,本文在每个 Transformer 模块内的关键位置引入了额外的归一化层(SubLN),以实现稳定的优化过程。

第二阶段:持续预训练阶段。

如图 1 所示,直接将已有的全精度 LLM 转换为 1.58 比特 BitNet 并在下游任务上进行微调,往往会得到次优结果。这是因为有限的训练 token 数量不足以有效地将全精度权重适配到受限的 1.58 比特表示空间中,从而导致可扩展性较差:随着模型规模的增大,其性能与全精度基线之间的差距也随之扩大。

为此,本文提出了一个两阶段训练流程:首先进行持续训练阶段,利用少量预训练语料来实现所需的适配;随后再在下游任务上进行微调。

第三阶段:基于蒸馏的微调。

为更有效地缓解由精度降低带来的性能退化,本文在下游任务微调阶段引入了两种知识蒸馏技术:其中,微调后的全精度 LLM 作为教师模型,而其 1.58 比特量化版本作为学生模型,通过蒸馏过程进行学习与性能对齐。

蒸馏过程主要利用 logits 蒸馏和多头注意力蒸馏来恢复全精度性能。



实验

实验设置

BitDistill 方法的有效性在两个代表性任务上进行评估:文本分类与文本摘要。分类任务采用通用语言理解评估 (GLUE) 基准中的 MNLI、QNLI 与 SST-2 三个数据集,摘要任务使用 CNN/DailyMail (CNNDM) 数据集。所有数据集均用于训练与评估,以全面验证方法性能。

BitDistill 的目标是将预训练的全精度大语言模型 (LLM) 微调为适用于下游任务的 1.58-bit BitNet 模型。比较对象包括:

(1) 在相同任务上直接微调的全精度 FP16 模型 (FP16-SFT);

(2) 将全精度模型量化为 1.58-bit BitNet 后再微调的模型 (BitNet-SFT)。

实验以 Qwen3 系列为基础模型,涵盖 0.6B、1.7B 与 4B 三种规模,并额外测试了 Qwen2.5 与 Gemma 等替代骨干网络以评估模型类型影响。所有方法均采用贪心搜索确定学习率与训练轮数,以兼顾性能与公平比较。最大训练序列长度设为 512,批大小为 32,所有模型均在配备 8 块 AMD Mi300X GPU 的服务器上训练。

Logits 蒸馏温度设为 5.0;分类任务中 λ=10、γ=1e5,摘要任务中 λ=1、γ=1e3,所有实验中 αi=1.0。持续预训练阶段使用 FALCON 语料库中采样的 100 亿个 token,与从头训练 1.58-bit 模型所需的约 4 万亿个 token 相比,成本几乎可忽略。

评估设置

采样参数固定为 top-p=1.0、温度 = 0。分类性能以准确率衡量,摘要性能使用 BLEU、ROUGE-1/2/L/SUM 评估,最大生成长度为 4096 token。运行时效率通过 16 线程 CPU 的 token 吞吐量(tokens/s)报告。

主要结果

BitDistill 在各基准数据集上表现如表 1 与表 2 所示。与全精度基线相比,1.58-bit 模型在准确率和摘要质量上保持接近性能,同时推理速度提升约 2 倍,内存占用减少近 10 倍,展示出在资源受限环境下的显著优势。这表明通过合理蒸馏策略,激进量化仍可实现高性能。



文本分类任务上的结果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每个指标和数据集的最高分均以粗体突出显示。1.58-bit 的 BitDistill 模型实现了与 FP16 基线相当的性能,同时在所有数据集上将推理速度提升了 2 倍,并将内存占用降低了 10 倍。符号 * 表示在 BitDistill 中所使用的 FP16 教师模型。



文本摘要任务(CNNDM 数据集)上的结果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每个指标和数据集的最高分均以粗体突出显示。1.58-bit 的 BitDistill 模型实现了与 FP16 基线相当的性能,同时在所有数据集上将推理速度提升了 2 倍,并将内存占用降低了 10 倍。符号 * 表示在 BitDistill 中所使用的 FP16 教师模型。

将基础模型替换为 Qwen2.5 和 Gemma 后,BitDistill 仍保持稳定性能(见表 4)。虽然不同预训练模型间存在轻微波动,但整体趋势一致,显示该方法具备跨架构通用性和良好的部署适应性。



不同量化技术在文本分类任务上的结果。B、G、A 分别代表块量化、GPTQ 和 AWQ。

消融实验

BitDistill 包含三个阶段。消融实验表明,移除任一阶段均显著降低性能(表 5),说明各阶段相互补充,完整流程对效率与准确率平衡至关重要。



BitDistill 中不同阶段的效果。此处使用 Qwen3 0.6B 作为基础模型。M.D.、C.T. 和 D.T. 分别表示建模优化、持续预训练以及基于蒸馏的微调。

在第三阶段中,单独使用 logits 蒸馏或注意力蒸馏均能提升性能,但联合使用效果最佳(表 6)。两种技术从不同角度缓解量化优化难题,其协同作用在极低比特环境下尤为显著。



蒸馏技术的效果。此处,LD 表示公式 9 中的 logits 蒸馏,AD 表示公式 12 中的多头注意力蒸馏。

BitDistill 与 Block-Quant、GPTQ、AWQ 等多种量化方案兼容。实验显示:(1) 无论底层量化方法为何,BitDistill 均能稳定提升性能;(2) GPTQ、AWQ 等复杂量化策略在其基础上进一步增强效果。这表明 BitDistill 提供了一种普适的低比特模型增强框架。

分析

在阶段一中插入 SubLN 层能稳定 1.58-bit BitNet 的优化并加速收敛。如图 3 (a) 所示,带 SubLN 的模型在 FALCON 语料库上的微调表现优于未使用 SubLN 的版本。



(a) 使用 SubLN 将现有的大语言模型 (LLMs) 微调为 1.58-bit BitNet,可以获得更优的性能和更快的收敛速度。

持续训练可显著缩小大模型的 1.58-bit 与 FP16 性能差距。权重分布可视化(图 2)显示,经过持续训练后,BitNet 权重从近似高斯分布转变为更接近从头训练的分布。该特征促使权重集中于 0 与 ±1 过渡区域,增加梯度更新的敏感度,从而提升模型对下游任务的拟合能力。



模型权重的可视化。上面两行展示了从头开始训练的 BitNet 的量化权重,及其对应的 FP16 分布。下面两行展示的是从 LLM 加载权重并进行持续训练后,BitNet 的量化权重及其对应的 FP16 分布。

在第三阶段,单层注意力蒸馏优于多层蒸馏(图 3 (b))。后期层的蒸馏效果更佳,表明层选择对蒸馏质量至关重要。



(b) 在 Qwen3 0.6B 模型上,通过蒸馏不同层所获得的 MNLI 准确率对比。

使用更大规模的 FP16 教师(如 Qwen3-1.7B、Qwen3-4B)显著提升学生模型性能(图 3 (c)),甚至超越同规模的 FP16 模型,证明高质量教师能为 BitDistill 带来额外收益。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
故事:蓝玉临死前疾呼:刘先生算得太准!朱元璋问:哪个刘先生?

故事:蓝玉临死前疾呼:刘先生算得太准!朱元璋问:哪个刘先生?

白云故事
2025-10-28 14:25:05
天啦噜!深圳48岁女子怀孕7-8周了,24岁女儿坚决反对,引发争议

天啦噜!深圳48岁女子怀孕7-8周了,24岁女儿坚决反对,引发争议

火山诗话
2025-10-31 22:27:50
昆明“第四代住宅”狂上 ,真改善还是割韭菜你看懂了吗?

昆明“第四代住宅”狂上 ,真改善还是割韭菜你看懂了吗?

易观彩云之南
2025-11-03 18:01:18
不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

混沌录
2025-10-22 21:54:06
没想到,丈夫密春雷的争议过去仅两年,董卿就以“这种姿态”出现

没想到,丈夫密春雷的争议过去仅两年,董卿就以“这种姿态”出现

史行途
2025-11-03 08:55:18
上海近期大量上市,医生提醒:但凡吃药,最好别吃这种水果→

上海近期大量上市,医生提醒:但凡吃药,最好别吃这种水果→

上海杨浦
2025-10-30 20:01:12
一旦武统台湾,这4个台湾人必上“斩首”名单,全都是罪有应得!

一旦武统台湾,这4个台湾人必上“斩首”名单,全都是罪有应得!

老闫侃史
2025-08-10 18:05:03
德媒:我们就是把中国想得太好了,德国沦落到今天的田地纯属自找

德媒:我们就是把中国想得太好了,德国沦落到今天的田地纯属自找

历史求知所
2025-11-03 19:55:03
全球最大火电厂易主!北仑9号机组今日投产,超托克托成世界第一

全球最大火电厂易主!北仑9号机组今日投产,超托克托成世界第一

科普大世界
2025-11-03 18:04:50
4天的沉默印证游本昌“真实人品”,为他撑腰的,不止金靖

4天的沉默印证游本昌“真实人品”,为他撑腰的,不止金靖

娱乐圈笔娱君
2025-11-03 16:12:23
有黑幕?媒体人:中超本轮肯定有假球,反腐不彻底!浙江直接裸奔

有黑幕?媒体人:中超本轮肯定有假球,反腐不彻底!浙江直接裸奔

国足风云
2025-11-03 10:08:26
"杀手锏"令对手难以招架,王艺迪夺冠不到24小时,孙颖莎说对了

"杀手锏"令对手难以招架,王艺迪夺冠不到24小时,孙颖莎说对了

史行途
2025-11-03 16:04:58
一个人最大的愚蠢,两个字

一个人最大的愚蠢,两个字

洞读君
2025-11-03 20:35:03
男子带94岁母亲下深圳高铁,吐槽工作人员冷漠,网友:郑智化没错

男子带94岁母亲下深圳高铁,吐槽工作人员冷漠,网友:郑智化没错

户外钓鱼哥阿勇
2025-11-02 16:04:55
1945年,法国巴黎,伊娃的衣服被人扒下来,丰腴的身体没任何遮挡

1945年,法国巴黎,伊娃的衣服被人扒下来,丰腴的身体没任何遮挡

百态人间
2025-11-03 16:15:12
就在今天!11月3日,NBA传来杜兰特、史密斯和申京新消息

就在今天!11月3日,NBA传来杜兰特、史密斯和申京新消息

皮皮观天下
2025-11-03 15:52:05
惊险!全红婵差点从跳台掉下去,身体掌控力超强,谁敢说她不行了

惊险!全红婵差点从跳台掉下去,身体掌控力超强,谁敢说她不行了

念洲
2025-11-03 10:28:26
美国终于明白,当年他们“误炸”中国大使馆,中国为什么不反击

美国终于明白,当年他们“误炸”中国大使馆,中国为什么不反击

蜉蝣说
2025-10-07 16:08:53
八宝山送别后遗嘱谣言平息,翁帆将携清华史料赴剑桥,走出新道路

八宝山送别后遗嘱谣言平息,翁帆将携清华史料赴剑桥,走出新道路

蔡蔡说史
2025-11-03 15:29:41
吴石将军被捕后,铁三角好友周至柔和陈诚,是怎么对待他的

吴石将军被捕后,铁三角好友周至柔和陈诚,是怎么对待他的

张生全精彩历史
2025-11-03 16:05:54
2025-11-03 21:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11635文章数 142497关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

手机
教育
时尚
游戏
军事航空

手机要闻

华为打通苹果生态!HarmonyOS 6.0预计12月支持iOS互传文件功能

教育要闻

李亚栋院士:要整体降低高考难度,尤其数学物理

伊姐周日热推:电视剧《三人行》;电视剧《棕眼之谜》......

盘点8款PS5上最棒的Xbox第一方游戏:你玩过哪些?

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版