网易首页 > 网易号 > 正文 申请入驻

什么是数据蒸馏和模型蒸馏?有何特点?

0
分享至

随着低成本AI模型的爆火,“数据蒸馏”和“模型蒸馏”这两个关键词也频频出现。

到底什么是蒸馏技术?有何优缺点?它是如何实现在降低计算资源的情况下提升模型性能的?数据蒸馏和模型蒸馏又有何区别和联系?

如果你也好奇,下面不妨跟着司普科技1号解说员小司一起来看看。

什么是蒸馏技术?

AI领域的蒸馏(Distillation),又常被称为知识蒸馏(Knowledge Distillation,简称:KD),最早于2015年由诺贝尔奖得主杰弗里•辛顿(Geoffrey Hinton)在公开论文中提出。

和热力学的蒸馏萃取相似,AI领域的蒸馏法也指向通过提炼压缩,实现:

数据蒸馏-海量数据到少量高质量数据集的提取,降低人工标注量和预训练成本;

模型蒸馏-原始模型到小模型的知识迁移,保持模型性能的同时,压缩计算成本。

就方法而言,蒸馏技术目前分为离线蒸馏(Offline distillation)、在线蒸馏(Online distillation)、自蒸馏(Self-distillation)等多种类型。

蒸馏技术的存在,让“高性能≠高成本”成为可能,让模型能在保持良好性能的同时,拥抱更低的推理成本,同时降低部署的资源要求。

在Scaling Law(尺度定律)面临瓶颈(预训练数据池萎缩)的大背景下,这种机器学习的优化技术越发受到推崇,逐渐成为很多主流大模型在控本情况下实现性能提升的新策略。

蒸馏技术如何实现?

简单来说,蒸馏技术很像是:“站在巨人的肩膀上,更好地推动目标实现”。

其中,数据蒸馏主要在通过对原始数据进行优化处理,提炼和合成高质量数据集辅助模型进行高效学习。因为前期“去粗取精”,所以针对性更强,学习效果也事半功倍。

模型蒸馏则表现为让训练良好、结构复杂、参数较大的教师模型「Teacher Model」指导和优化结构较简单、体量小的学生模型「student(Distilled model)」的学习训练,并通过微调,使得学生模型尽可能接近教师模型的性能,最终以较少的人工干预和计算资源让其实现SOTA 性能,达到“尖子生”的水准。

在这个过程中,因其绕过大量基础性训练直接掌握要领,经蒸馏后也更容易实现从1到100的知识和能力的极大飞跃。

数据蒸馏VS模型蒸馏有何区别和联系?

结合以上几点我们不难看出:数据蒸馏更偏于训练数据的优化与处理,主要通过数据预处理、特征提取、降噪降维等提取合成高质量、关键数据集,以减少机器学习过程中数据处理方面的时间和资源损耗。

而模型蒸馏则聚焦复杂大模型的压缩和知识能力的迁移,主要通过“老带新‌”、“师带徒”的方式指导学生模型高效学习,少走弯路,减少基础性训练成本。

虽然两者的侧重点不同,但同属机器学习领域的知识迁移技术,可以单独使用,也可以配合使用,最终目标都在于更大程度提升模型性能,降低计算成本。

蒸馏技术的特点?

比起原始大模型在大量“题海战术”中,反复试错才能掌握要领。经蒸馏的小模型一开始就在教师模型的指导下接受“真题”试炼,所以“命中率”(性能)更有保障,模型训练数据量和计算成本也能降低不少。这是蒸馏技术的显著特点。

不过也有人指出:教师模型教会了学生模型,并不代表蒸馏模型能反超原始模型。毕竟模型压缩和知识传递过程中有损失(loss),蒸馏模型虽能汲取原始模型的部分精髓,知识覆盖面和精细度方面却很难100%继承。

而且过度蒸馏易导致模型同质化,削弱模型的多样性和鲁棒性。蒸馏过程不透明,也导致可解释性不强。加上模型幻觉很难完全消除,脱离物理世界,完全“用AI训练AI”也引起了不少人的隐忧。

但就目前来说,蒸馏还只是机器学习领域的一门探索性技术,并未全面覆盖基础性预训练,更多在后训练和推理中扮演重要角色,旨在缓解大模型在参数大(难部署)、速度慢(资源占用和计算负担大)、成本高(算力投入大)方面的不足,保障性能的同时,降低部署难度和推理成本。

而在主流的基础大模型中,有的选择走蒸馏路线,有的则选择从0开始做加法,也算各有所长,各取所需,最终还得看算力资源、模型长期性能、发展战略等综合来定,也不能一概而论。

值得一提的是:在持续的高性能期待面前,有媒体猜测:部分大模型厂商可能选择了“雪藏”自己最新的基础大模型,转而将其作为教师模型指导推出更多高性能的学生模型,以更快的速度占领市场,这就是另一个值得探究的话题了。

备注:本文原创,有参考每日经济新闻、机器之心、sciencedirect等,仅做分享。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美会晤结束,特朗普马不停蹄直奔天坛,选在这里有何特殊用意?

中美会晤结束,特朗普马不停蹄直奔天坛,选在这里有何特殊用意?

壹知眠羊
2026-05-15 14:20:29
CBA半决赛15日起开战,北上“广”深四强展开厮杀

CBA半决赛15日起开战,北上“广”深四强展开厮杀

齐鲁壹点
2026-05-15 14:20:09
深圳房东:在我的一降再降下,房子终于租出去了。失业与房贷,熬着熬着就柳暗花明啦

深圳房东:在我的一降再降下,房子终于租出去了。失业与房贷,熬着熬着就柳暗花明啦

林子说事
2026-05-15 00:00:42
10个月建成人民大会堂,毛主席参观时一直盯着穹顶,笑问:谁想的

10个月建成人民大会堂,毛主席参观时一直盯着穹顶,笑问:谁想的

浩渺青史
2026-05-06 16:57:17
谈妥了?曝十家中国企业获批采购英伟达H200,名单毫不意外

谈妥了?曝十家中国企业获批采购英伟达H200,名单毫不意外

泡泡网
2026-05-14 17:19:06
高血压一点酒都不能沾?医生怒斥:高血压喝酒,或许有这3个变化

高血压一点酒都不能沾?医生怒斥:高血压喝酒,或许有这3个变化

健康之光
2026-05-15 11:55:11
这售价要超200万了吧!消息称华为、江淮、玛莎拉蒂联手造车:最快2027年见到“玛界”

这售价要超200万了吧!消息称华为、江淮、玛莎拉蒂联手造车:最快2027年见到“玛界”

快科技
2026-05-14 11:54:52
7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

拳击时空
2026-04-16 06:04:48
黄景瑜微博突然改名!十年Johnny消失,背后藏着事业大动作

黄景瑜微博突然改名!十年Johnny消失,背后藏着事业大动作

小椰的奶奶
2026-05-15 09:45:15
雨要来了!具体时间——

雨要来了!具体时间——

BRTV新闻
2026-05-15 08:50:38
她为儿子30年不嫁,儿子墓前哭:来生还做您儿子!

她为儿子30年不嫁,儿子墓前哭:来生还做您儿子!

东方不败然多多
2026-05-14 18:01:16
中国银行信用卡App即将关停

中国银行信用卡App即将关停

每日经济新闻
2026-05-14 23:13:31
俄罗斯发动全面战争以来最大规模空袭,超1400架无人机袭击乌克兰

俄罗斯发动全面战争以来最大规模空袭,超1400架无人机袭击乌克兰

山河路口
2026-05-14 16:31:39
马頔当导游一天叹八百次气,网友:一边骂骂咧咧一边努力干活

马頔当导游一天叹八百次气,网友:一边骂骂咧咧一边努力干活

韩小娱
2026-05-15 10:18:56
次轮被打爆!如何评价艾顿这一年,湖人该留下他吗?

次轮被打爆!如何评价艾顿这一年,湖人该留下他吗?

篮球实录
2026-05-15 14:48:09
全球军队研究印巴507空战,发现最震撼细节,难怪印度不想打了

全球军队研究印巴507空战,发现最震撼细节,难怪印度不想打了

琴音似君语
2026-05-10 17:56:21
敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

华山穹剑
2026-01-19 21:32:59
5月15日早评:沪指失守4200点,资金进攻方向大幅切换!

5月15日早评:沪指失守4200点,资金进攻方向大幅切换!

小白鸽财经
2026-05-15 08:57:43
北京四季酒店连续三天满房,特朗普要住这了,为何选这个地方?

北京四季酒店连续三天满房,特朗普要住这了,为何选这个地方?

李昕言温度空间
2026-05-13 06:00:20
马斯克带着儿子现身人民大会堂,拍照时还扛在肩上,也太宠孩子啦

马斯克带着儿子现身人民大会堂,拍照时还扛在肩上,也太宠孩子啦

八八尚语
2026-05-14 23:07:33
2026-05-15 15:04:49
司普科技
司普科技
我们致力于开发新一代大语言模型(LLM)技术,创造智能写作、搜索、对话、分析报表等更多可能。
94文章数 0关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

牛弹琴:中美元首历史性会晤 向世界释放五个信号

头条要闻

牛弹琴:中美元首历史性会晤 向世界释放五个信号

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

艺术
数码
本地
健康
公开课

艺术要闻

一个北大 “反卷教授” 的意外走红

数码要闻

经典风格重现:华硕ROG CROSSHAIR 2026复刻版主板实物现身

本地新闻

用苏绣的方式,打开江西婺源

专家揭秘干细胞回输的安全风险

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版