网易首页 > 网易号 > 正文 申请入驻

AI 术语通俗词典:蒸馏

0
分享至

蒸馏是深度学习、大模型压缩、模型部署、知识迁移和生成式人工智能中常见的一个术语,英文通常称为 Distillation 或 Knowledge Distillation,即“知识蒸馏”。它用来描述一种让小模型学习大模型能力的方法。换句话说,蒸馏是在回答:如何把一个大模型中学到的知识,迁移到一个更小、更快、更便宜的模型中。

如果说大模型像一位能力很强但成本较高的老师,那么小模型就像一位更轻量的学生。蒸馏的核心思想是:不只让学生模型学习训练数据中的标准答案,还让它学习教师模型的输出分布、判断方式、推理倾向或中间表示。

因此,蒸馏常用于模型压缩、移动端部署、边缘计算、低延迟推理、小模型训练、专用任务模型、大语言模型微调和多模态模型优化中,是理解“如何让小模型继承大模型能力”的重要基础概念。

一、基本概念:什么是蒸馏

蒸馏(Distillation)是指用一个较大的教师模型指导一个较小的学生模型训练。

典型流程可以概括为:教师模型 → 产生软标签或中间知识 → 学生模型学习 → 得到轻量模型。


图 1:蒸馏的基本思想

例如,在图像分类任务中,标准标签可能只告诉模型:

这张图是猫。

但教师模型可能输出更细的信息:

其他:0.02

这类概率分布被称为“软标签”。

软标签比硬标签包含更多信息。它不仅告诉学生模型“正确答案是猫”,还告诉它“这张图和狗、狐狸也有一点相似,但和汽车差别很大”。

从通俗角度看:普通训练只告诉学生“标准答案是什么”。蒸馏训练还告诉学生“老师为什么更倾向于这个答案”。

二、为什么需要蒸馏

蒸馏之所以重要,是因为大模型虽然能力强,但使用成本也高。

大模型通常存在以下问题:

• 参数量大

• 推理速度慢

• 显存占用高

• 部署成本高

• 不适合移动端或边缘设备

• 在高并发场景中成本较高

例如,一个大语言模型可能在理解、生成和推理方面效果很好,但如果每次请求都调用大模型,成本和延迟可能难以接受。

这时,可以用大模型生成训练信号,让小模型学习特定任务。

例如:

• 用大模型生成分类标注,训练小分类模型

• 用大模型生成问答样本,训练专用问答模型

• 用大模型生成推理步骤,训练小模型模仿解题方式

• 用大模型输出结果,训练小模型在本地快速推理

从通俗角度看:蒸馏的目标不是让小模型完全复制大模型,而是让小模型在重要任务上尽量接近大模型,同时更快、更省、更容易部署。

三、蒸馏学习什么

蒸馏并不只有一种形式。学生模型可以学习教师模型的不同“知识”。


图 2:知识蒸馏过程概览

1、学习软标签

最常见的是学习教师模型输出的概率分布。

普通监督学习通常使用硬标签:

正确类别:猫

蒸馏可以使用软标签:

猫 0.82,狗 0.10,狐狸 0.05……

软标签包含类别之间的相似关系,因此更有指导价值。

例如,“猫”和“狗”都属于动物,比“猫”和“汽车”更接近。教师模型的概率分布可以把这种关系传递给学生模型。

2、学习中间表示

有些蒸馏方法会让学生模型学习教师模型的中间层表示。

例如:

• 隐藏层向量

• 注意力权重

• 特征图

• token 表示

• 图像特征

这种方式不只模仿最终答案,还模仿教师模型处理信息的过程。

3、学习生成结果

在大语言模型中,学生模型也可以学习教师模型生成的回答。

例如:问题 → 教师模型回答 → 学生模型学习回答风格和任务模式。

这种方式常用于指令微调、小模型训练和专用领域模型构建。

4、学习推理过程

对于复杂任务,教师模型还可以生成中间推理步骤,让学生模型学习更清晰的解题路径。

不过,推理过程蒸馏需要谨慎。错误推理也可能被学生模型学到,因此需要筛选和验证数据质量。

四、蒸馏的基本目标

蒸馏训练通常希望学生模型输出接近教师模型输出。


图 3:蒸馏训练流程与损失分析

如果教师模型输出的概率分布为 q,学生模型输出的概率分布为 p,可以让学生模型尽量接近 q。

常见思想可以写为:

其中:

• L_distill 表示蒸馏损失

• q 表示教师模型输出分布

• p 表示学生模型输出分布

• D 表示分布之间的差异度量

在实际训练中,也常把真实标签损失和蒸馏损失结合起来:

其中:

• L 表示总损失

• L_hard 表示学生模型对真实标签的监督学习损失

• L_distill 表示学生模型模仿教师模型的损失

• α 表示两类损失的权重

从通俗角度看:学生模型既要学习标准答案,也要学习教师模型的判断习惯。

五、蒸馏与微调、量化的区别

蒸馏常与微调、量化一起出现,但它们不是同一件事。

1、蒸馏

蒸馏关注的是:让小模型学习大模型的能力。

它通常涉及教师模型和学生模型。

2、微调

微调关注的是:让已有模型适应某个具体任务或领域。

例如,在法律问答数据上微调模型,使它更适合法律场景。

微调不一定涉及教师模型。

3、量化

量化关注的是:用更低精度保存和计算模型参数。

例如,把 FP16 参数压缩为 INT8 或 INT4,以减少显存和提高推理效率。

量化通常不改变模型结构,也不一定重新训练模型。

4、三者关系

可以概括为:

• 蒸馏:换成更小学生模型

• 微调:让模型适应任务

• 量化:让模型存储和计算更省

在实际部署中,三者可以结合使用。

例如:先用大模型蒸馏出小模型,再在业务数据上微调,最后进行量化部署。

六、蒸馏在大模型中的应用

在大语言模型时代,蒸馏的应用更加广泛。

1、训练专用小模型

如果某个任务比较固定,例如客服分类、合同条款识别、商品标题改写,可以用大模型生成大量高质量样本,再训练一个小模型完成该任务。

这样可以降低在线推理成本。

2、压缩通用能力

一些小语言模型会通过学习大模型生成的数据,获得较好的指令理解和问答能力。

这种方式不能完全复制大模型能力,但可以显著提升小模型表现。

3、构建领域模型

在医疗、法律、金融、教育等领域,可以用强模型生成或筛选领域样本,再训练较小的领域模型。

不过,高风险领域必须进行专家审核,不能完全依赖教师模型生成内容。

4、提升部署效率

蒸馏后的小模型可以用于:

• 本地部署

• 移动端应用

• 低延迟服务

• 高并发场景

• 企业私有化部署

• 边缘设备推理

从实践角度看,蒸馏是大模型能力工程化落地的重要方法之一。

七、蒸馏的优势、局限与常见误解

1、蒸馏的主要优势

蒸馏最大的优势是让小模型获得接近大模型的任务能力,同时降低成本。

它可以带来:

• 更快推理速度

• 更低显存占用

• 更低部署成本

• 更适合本地运行

• 更适合专用任务

• 更容易上线到资源受限设备

从通俗角度看:蒸馏让“大模型做老师,小模型学本领”。

2、蒸馏的主要局限

蒸馏也有明显局限。

首先,学生模型容量有限,不可能完整继承教师模型所有能力。

其次,教师模型如果输出错误,学生模型也可能学习错误。

再次,蒸馏效果依赖训练数据质量。如果蒸馏数据覆盖不充分,小模型在新任务上可能表现差。

此外,蒸馏后的模型通常更适合特定任务,不一定拥有教师模型同样的泛化能力。

3、常见误解

误解一:蒸馏后的小模型一定和大模型一样强。

不对。小模型通常只能在部分任务上接近教师模型。

误解二:蒸馏只是压缩参数。

不准确。蒸馏不是简单删除参数,而是通过训练迁移教师模型的行为和知识。

误解三:教师模型越大,蒸馏效果一定越好。

不一定。教师模型质量、任务匹配程度、数据质量和学生模型容量都很重要。

误解四:蒸馏可以替代所有部署优化。

不对。实际部署还可能需要量化、剪枝、缓存、并行和工程优化。

八、如何理解蒸馏的应用价值

蒸馏的核心价值是“能力迁移”。它不是为了证明小模型一定比大模型好,而是为了在效果、速度、成本和部署条件之间取得平衡。

在 AI 系统中,可以这样理解:

• 大模型负责提供强能力和高质量示范

• 小模型负责在具体场景中高效执行

例如:

• 大模型用于生成训练数据

• 小模型用于线上高频调用

• 大模型用于复杂问题兜底

• 小模型用于低成本常规任务

这种组合方式可以让系统既有较强能力,又能控制成本。

从实践角度看,蒸馏适合那些任务边界较清楚、数据可构造、输出可验证、部署成本敏感的场景。

九、Python 示例

下面用简化示例说明蒸馏的基本思想。

示例 1:教师模型输出软标签

软标签比“猫”这个硬标签包含更多类别关系信息。

示例 2:学生模型学习教师输出

    

蒸馏训练的目标,就是让学生模型的输出分布逐渐接近教师模型。

示例 3:真实标签与蒸馏信号结合

这个例子说明:学生模型可以同时学习真实标签和教师模型的软标签。

示例 4:蒸馏数据样本

在大模型蒸馏中,教师模型可以提供答案,也可以提供简短解释或结构化输出。

小结

蒸馏是一种让小模型学习大模型能力的训练方法。它通过教师模型提供软标签、中间表示、生成结果或推理过程,让学生模型在较低成本下获得较好的任务表现。蒸馏不能让小模型完全复制大模型,但可以显著提升小模型在特定任务中的效果。对初学者而言,可以把蒸馏理解为:用大模型当老师,把有用能力迁移给更轻量的学生模型。

点赞有美意,赞赏是鼓励

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个家庭,父母越尊重孩子,孩子越怕苦怕累、脾气大、事事依赖…

一个家庭,父母越尊重孩子,孩子越怕苦怕累、脾气大、事事依赖…

新东方家庭教育
2026-06-03 16:16:08
足坛一夜动态:荷兰0-1爆冷,意大利1-0险胜,波兰补时绝平

足坛一夜动态:荷兰0-1爆冷,意大利1-0险胜,波兰补时绝平

足球狗说
2026-06-04 04:50:04
欺人太甚!一家长因孩子备考,请求邻居约束噪音,对方回复没办法

欺人太甚!一家长因孩子备考,请求邻居约束噪音,对方回复没办法

火山詩话
2026-06-03 11:06:12
陕西一公司半夜通知“全员放假”,一夜搬空,领导失联,200多名员工数百万工资被拖欠,员工:连维权都不知怎么办

陕西一公司半夜通知“全员放假”,一夜搬空,领导失联,200多名员工数百万工资被拖欠,员工:连维权都不知怎么办

大象新闻
2026-06-03 16:47:13
杀妻子全家逃亡30年,霸占独居女人强奸其儿媳,深夜被锤杀成枯骨

杀妻子全家逃亡30年,霸占独居女人强奸其儿媳,深夜被锤杀成枯骨

易玄
2026-06-03 18:16:14
ESPN专访文班:少林特训有点被夸大 波波维奇始终是我们的掌舵人

ESPN专访文班:少林特训有点被夸大 波波维奇始终是我们的掌舵人

罗说NBA
2026-06-04 06:07:49
如果马寅初没有提出人口论,没有实施计划生育,如今我国会怎样?

如果马寅初没有提出人口论,没有实施计划生育,如今我国会怎样?

史之铭
2026-04-29 00:48:26
称逛山姆是托举后续!宝妈痛哭道歉,全家信息被扒,孩子不敢上学

称逛山姆是托举后续!宝妈痛哭道歉,全家信息被扒,孩子不敢上学

离离言几许
2026-06-02 18:11:45
4天期限已到,中方不忍了!我大使敲警钟,欺负中国人后果很严重

4天期限已到,中方不忍了!我大使敲警钟,欺负中国人后果很严重

冷眼看尽世间繁华
2026-06-03 20:01:43
一旦美国关闭GPS导航,全球导弹将会变“瞎子”,只有2国能够幸免

一旦美国关闭GPS导航,全球导弹将会变“瞎子”,只有2国能够幸免

深析古今
2026-06-03 16:16:24
正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

易玄
2026-05-25 01:45:09
纳达尔:打破我在法网的纪录,比打破德约的24冠更难

纳达尔:打破我在法网的纪录,比打破德约的24冠更难

懂球帝
2026-06-03 23:45:34
禁止所有中国外交官入境,这个国家比美国还嚣张?

禁止所有中国外交官入境,这个国家比美国还嚣张?

福建睿平
2026-06-03 14:30:38
43岁香港女星在中山买房,晒房产证直呼划算,四房两厅不到200万

43岁香港女星在中山买房,晒房产证直呼划算,四房两厅不到200万

青梅侃史啊
2026-05-28 07:50:02
中纪委再划红线!党员干部“八小时外”100条禁令

中纪委再划红线!党员干部“八小时外”100条禁令

微法官
2026-06-04 00:07:22
中方呼吁罗马尼亚无人机事件有关方保持冷静克制

中方呼吁罗马尼亚无人机事件有关方保持冷静克制

环球网资讯
2026-06-02 09:23:09
曝德甲队欲签19岁王钰栋!看重其商业价值,或外租奥甲、比甲锻炼

曝德甲队欲签19岁王钰栋!看重其商业价值,或外租奥甲、比甲锻炼

我爱英超
2026-06-04 07:22:42
希音法国再受2250万欧元重罚  希音官方霸气回应:不成比例且具有歧视性 对两项提出全面异议

希音法国再受2250万欧元重罚 希音官方霸气回应:不成比例且具有歧视性 对两项提出全面异议

新浪财经
2026-06-03 23:04:14
CBA最新消息!北控男篮主帅确定,杜锋完成签约

CBA最新消息!北控男篮主帅确定,杜锋完成签约

体坛瞎白话
2026-06-03 16:00:25
雷霆或有大交易!两大球星下家赔率:切特加盟雄鹿+杰威去篮网?

雷霆或有大交易!两大球星下家赔率:切特加盟雄鹿+杰威去篮网?

罗说NBA
2026-06-04 07:12:29
2026-06-04 12:32:49
MediaTea
MediaTea
专业的数字媒体、新媒体技术
1870文章数 80关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

体育要闻

王俊杰11前板成第一尖刀 媒体人:独一档

娱乐要闻

奚梦瑶头纱上的古董发卡也是四太的

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

数码
旅游
本地
艺术
时尚

数码要闻

MONTECH迎来十周年,多款机箱新品台北现身

旅游要闻

无锡鸿山遗址博物馆取消实名预约:博物馆不是非预约不可丨中听

本地新闻

用杨柳青年画的方式,打开天津

艺术要闻

唐寅『梅花册』

粗腿宽肩,正在成为中女审美新风向

无障碍浏览 进入关怀版