随着低成本AI模型的爆火,“数据蒸馏”和“模型蒸馏”这两个关键词也频频出现。
到底什么是蒸馏技术?有何优缺点?它是如何实现在降低计算资源的情况下提升模型性能的?数据蒸馏和模型蒸馏又有何区别和联系?
如果你也好奇,下面不妨跟着司普科技1号解说员小司一起来看看。
什么是蒸馏技术?
AI领域的蒸馏(Distillation),又常被称为知识蒸馏(Knowledge Distillation,简称:KD),最早于2015年由诺贝尔奖得主杰弗里•辛顿(Geoffrey Hinton)在公开论文中提出。
和热力学的蒸馏萃取相似,AI领域的蒸馏法也指向通过提炼压缩,实现:
数据蒸馏-海量数据到少量高质量数据集的提取,降低人工标注量和预训练成本;
模型蒸馏-原始模型到小模型的知识迁移,保持模型性能的同时,压缩计算成本。
就方法而言,蒸馏技术目前分为离线蒸馏(Offline distillation)、在线蒸馏(Online distillation)、自蒸馏(Self-distillation)等多种类型。
蒸馏技术的存在,让“高性能≠高成本”成为可能,让模型能在保持良好性能的同时,拥抱更低的推理成本,同时降低部署的资源要求。
在Scaling Law(尺度定律)面临瓶颈(预训练数据池萎缩)的大背景下,这种机器学习的优化技术越发受到推崇,逐渐成为很多主流大模型在控本情况下实现性能提升的新策略。
蒸馏技术如何实现?
简单来说,蒸馏技术很像是:“站在巨人的肩膀上,更好地推动目标实现”。
其中,数据蒸馏主要在通过对原始数据进行优化处理,提炼和合成高质量数据集辅助模型进行高效学习。因为前期“去粗取精”,所以针对性更强,学习效果也事半功倍。
模型蒸馏则表现为让训练良好、结构复杂、参数较大的教师模型「Teacher Model」指导和优化结构较简单、体量小的学生模型「student(Distilled model)」的学习训练,并通过微调,使得学生模型尽可能接近教师模型的性能,最终以较少的人工干预和计算资源让其实现SOTA 性能,达到“尖子生”的水准。
在这个过程中,因其绕过大量基础性训练直接掌握要领,经蒸馏后也更容易实现从1到100的知识和能力的极大飞跃。
数据蒸馏VS模型蒸馏有何区别和联系?
结合以上几点我们不难看出:数据蒸馏更偏于训练数据的优化与处理,主要通过数据预处理、特征提取、降噪降维等提取合成高质量、关键数据集,以减少机器学习过程中数据处理方面的时间和资源损耗。
而模型蒸馏则聚焦复杂大模型的压缩和知识能力的迁移,主要通过“老带新”、“师带徒”的方式指导学生模型高效学习,少走弯路,减少基础性训练成本。
虽然两者的侧重点不同,但同属机器学习领域的知识迁移技术,可以单独使用,也可以配合使用,最终目标都在于更大程度提升模型性能,降低计算成本。
蒸馏技术的特点?
比起原始大模型在大量“题海战术”中,反复试错才能掌握要领。经蒸馏的小模型一开始就在教师模型的指导下接受“真题”试炼,所以“命中率”(性能)更有保障,模型训练数据量和计算成本也能降低不少。这是蒸馏技术的显著特点。
不过也有人指出:教师模型教会了学生模型,并不代表蒸馏模型能反超原始模型。毕竟模型压缩和知识传递过程中有损失(loss),蒸馏模型虽能汲取原始模型的部分精髓,知识覆盖面和精细度方面却很难100%继承。
而且过度蒸馏易导致模型同质化,削弱模型的多样性和鲁棒性。蒸馏过程不透明,也导致可解释性不强。加上模型幻觉很难完全消除,脱离物理世界,完全“用AI训练AI”也引起了不少人的隐忧。
但就目前来说,蒸馏还只是机器学习领域的一门探索性技术,并未全面覆盖基础性预训练,更多在后训练和推理中扮演重要角色,旨在缓解大模型在参数大(难部署)、速度慢(资源占用和计算负担大)、成本高(算力投入大)方面的不足,保障性能的同时,降低部署难度和推理成本。
而在主流的基础大模型中,有的选择走蒸馏路线,有的则选择从0开始做加法,也算各有所长,各取所需,最终还得看算力资源、模型长期性能、发展战略等综合来定,也不能一概而论。
值得一提的是:在持续的高性能期待面前,有媒体猜测:部分大模型厂商可能选择了“雪藏”自己最新的基础大模型,转而将其作为教师模型指导推出更多高性能的学生模型,以更快的速度占领市场,这就是另一个值得探究的话题了。
备注:本文原创,有参考每日经济新闻、机器之心、sciencedirect等,仅做分享。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.