大型语言模型也能"节食减肥"：ISTA研究团队突破1位量化训|原理|估计器

分享至

这项由奥地利科学技术研究所（ISTA）的Andrei Panferov、Jiale Chen、Dan Alistarh等人领导的研究发表于2025年6月的arXiv预印本平台，论文编号为arXiv:2502.05003v2。有兴趣深入了解的读者可以通过https://github.com/IST-DASLab/QuEST访问完整代码和论文详情。

当我们谈论人工智能模型的"减肥"时，其实是在说一件非常有趣的事情。就像人类需要在保持健康的同时控制体重一样，大型语言模型也面临着一个两难问题：既要保持强大的智能水平，又要减少计算资源的消耗。奥地利科学技术研究所的研究团队最近取得了一个令人瞩目的突破，他们开发出了一种名为QuEST的新方法，成功让大型语言模型在极低精度下仍能稳定训练。

要理解这项研究的重要性，我们可以把大型语言模型想象成一个超级精密的计算器。传统的模型就像使用高精度的电子计算器，每个数字都精确到小数点后很多位，这样虽然精确，但需要消耗大量的电力和存储空间。而QuEST方法就像是教会这个计算器用更简单的方式思考，比如只用1和0来表示所有信息，却依然能得到相当准确的结果。

目前，训练大型语言模型就像建造一座摩天大楼一样昂贵。每次训练都需要消耗大量的电力，使用昂贵的专业硬件，还要占用巨大的存储空间。研究团队面临的挑战是：如何在大幅降低这些成本的同时，保持模型的智能水平不会显著下降？过去的研究已经将这个"最优精度"推进到了8位，但QuEST方法将这个极限进一步推向了4位，甚至在1位精度下也能实现稳定训练。

这项研究的创新之处在于重新思考了两个关键问题。第一个问题类似于如何将一幅彩色图片转换为黑白图片，既要保持图片的主要特征，又要尽可能减少信息损失。第二个问题则像是在翻译过程中如何确保翻译的准确性，即使原文和译文使用的是完全不同的表达方式。

一、量化训练的"减肥"哲学

理解量化训练最好的方式是把它比作摄影的发展历程。早期的胶片摄影需要使用大量化学药剂和复杂的冲洗过程，每张照片的成本都很高。随着数字摄影技术的发展，我们学会了用更少的像素点来表示同样丰富的图像信息。量化训练就是在做类似的事情，它试图用更简单的数字表示方式来存储和处理模型中的信息。

在传统的模型训练中，每个参数都像一个非常精确的温度计，可以显示23.456789度这样的精确数值。但在量化训练中，我们把这个精确的温度计换成了一个简单的温度指示器，只能显示"很冷"、"适中"或"很热"三种状态。虽然精度降低了，但占用的存储空间和计算复杂度都大大减少了。

问题在于，当我们把精确的测量工具换成简单的指示器时，很多细微但重要的信息可能会丢失。就像用粗糙的画笔画肖像画一样，虽然能画出人物的大致轮廓，但很难捕捉到细腻的面部表情。之前的研究发现，当精度降低到一定程度时，模型的性能会急剧下降，就像画笔太粗导致画出来的肖像面目全非。

研究团队发现，目前被认为是"最优"的8位量化训练方案其实还有很大的改进空间。他们通过大量实验发现，在特定条件下，4位精度甚至能够超越传统的16位训练方法，这就像发现了一支神奇的粗画笔，居然能画出比细画笔更精美的作品。更令人惊讶的是，他们还成功实现了1位精度的稳定训练，这相当于只用黑白两色就能画出彩色画作的效果。

二、QuEST方法的核心创新

QuEST方法的核心思想可以比作优化一个古老的信号传输系统。在古代，人们用烽火台传递信息，每个烽火台只能表示简单的"有火"或"无火"状态，但通过巧妙的编码和传输策略，依然能传递复杂的军事情报。QuEST方法就是在设计这样一套现代化的"烽火台系统"。

该方法的第一个创新点在于改进了"分布拟合"过程。这个过程就像是学习如何用有限的颜料调出最接近原色的效果。传统方法往往依赖于反向传播来调整颜料的配比，但这种方法在极低精度下容易出现不稳定的情况。QuEST采用了一种更直接的方法，首先对原始数据进行哈达玛变换，这个过程类似于重新整理调色盘，让颜料的分布更加规整和容易处理。

哈达玛变换的作用可以用整理书架来类比。原本书籍可能按照购买时间随意摆放，有些书很厚，有些很薄，整个书架看起来杂乱无章。哈达玛变换就像是按照书籍的主题重新整理书架，让相似的书籍聚集在一起，这样在查找和管理时就变得更加高效。对于模型参数来说，这种重新整理使得量化过程更加精准，减少了信息损失。

接下来，QuEST使用均方误差最优拟合来确定最佳的量化策略。这个过程类似于调音师为钢琴调音，目标是让每个琴键发出的声音都尽可能接近标准音调。通过数学计算找出最优的量化参数，就像找到了每个琴键的最佳调音位置，确保整体的和谐效果。

第二个创新点是"信任梯度估计器"的设计。在模型训练过程中，梯度就像是指路的指南针，告诉模型应该朝哪个方向调整参数。但在低精度训练中，这个指南针可能会因为量化误差而指向错误的方向。传统的直通估计器就像是一个经常出错的指南针，虽然大部分时候指向正确，但偶尔的错误指向可能导致严重的后果。

QuEST的信任估计器就像是一个智能的导航系统，它不仅提供方向指引，还会评估每个指引的可靠程度。当系统检测到某个方向指引可能不准确时，会降低对该指引的信任度，从而避免被错误信息误导。具体来说，系统会计算每个参数的量化误差，对于误差较大的参数，会减少其梯度的影响权重，这样就避免了少数"坏苹果"影响整筐苹果的情况。

三、神奇的哈达玛变换

哈达玛变换在QuEST方法中扮演着关键角色，它的工作原理可以用整理混乱仓库的过程来理解。设想你接手了一个杂乱无章的仓库，里面的物品随意堆放，有些角落堆积如山，有些地方却空空如也。这种不均匀的分布让仓库管理变得非常困难，你很难估算库存，也难以制定合理的存取策略。

哈达玛变换就像是一个经验丰富的仓库管理员，他知道如何重新排列这些物品，让整个仓库的物品分布变得更加均匀和规律。经过重新整理后，仓库中的物品按照某种逻辑规律分布，这样你就能更容易地进行盘点、分类和管理。

在数学层面上，哈达玛变换是一个正交变换，这意味着它不会丢失任何信息，就像重新整理仓库并不会让任何物品消失一样。但更重要的是，这种变换能让原本分布不规律的数据变得更接近高斯分布，这就为后续的量化处理创造了理想条件。

研究团队发现，在应用哈达玛变换之后，需要被"信任系统"标记为不可靠的参数数量减少了大约4倍。这就像整理仓库后，问题物品的数量大大减少，整个管理过程变得更加顺畅。这个发现证明了哈达玛变换不仅仅是一个数学技巧，更是整个QuEST系统不可或缺的组成部分。

四、信任梯度估计的智慧

信任梯度估计器的设计思想来源于一个朴素但深刻的观察：在任何系统中，那些误差最大的部分往往也是最容易误导整体判断的部分。这就像班级考试中，如果某个学生因为特殊原因考试成绩极其异常（比如本来是优秀学生却只考了20分），那么在计算班级平均分时，这个异常分数就会严重扭曲整体水平的反映。

传统的直通估计器采用的是"一刀切"的方法，它假设所有的量化误差都是可以接受的，就像认为所有学生的成绩都同样可信一样。但QuEST的信任估计器更加精明，它会仔细评估每个参数的量化误差，然后决定应该给予多少"信任度"。

具体的工作机制可以用一个智能投票系统来理解。在这个系统中，每个参数都像一个投票者，为模型的下一步调整方向投票。但不是所有的投票者都拥有相同的发言权，那些量化误差较小的参数（相当于信息更可靠的投票者）会获得更高的投票权重，而那些量化误差较大的参数则会被部分或完全忽略其投票意见。

这种设计特别适合处理极低精度的情况。在1位量化中，每个参数只能取两个值：-1或+1。这就像每个投票者只能投"赞成"或"反对"票，没有中间选项。在这种极端简化的情况下，量化误差可能会很大，传统方法很容易被这些大误差误导。但信任估计器通过智能的权重分配，确保了即使在如此极端的条件下，模型依然能够找到正确的优化方向。

研究团队通过"梯度对齐度"实验验证了这种方法的有效性。他们发现，使用QuEST方法训练的模型，其梯度与全精度模型的梯度保持了80%以上的相似度，即使在网络的深层部分也是如此。这就像确认了简化版的指南针依然能够指向正确的方向，为模型训练提供了可靠的指引。

五、从理论到实践的飞跃

理论上的突破需要在实际应用中得到验证，就像一个在实验室里表现完美的新药需要经过临床试验才能确认其真实效果。研究团队在多个规模的Llama架构模型上测试了QuEST方法，从3000万参数的小模型一直到16亿参数的大模型，使用了高达1600亿个训练令牌。

实验结果就像一个令人惊喜的发现：在相同的内存占用下，4位精度的QuEST模型居然能够超越传统的16位精度模型。这就好比发现了一辆小排量汽车不仅更省油，跑得还比大排量汽车更快。具体来说，当两种方法使用相同的硬件资源时，QuEST 4位模型在语言理解任务上的表现consistently优于传统16位模型。

更令人瞩目的是1位量化的成功实现。要知道，1位量化意味着每个参数只能是+1或-1，这是理论上可能的最极端的简化。这就像用只有黑白两色的像素来重现一幅彩色画作，在此之前，很少有人相信这是可能的。但QuEST方法证明了，通过巧妙的设计，即使在如此极端的条件下，模型依然能够学习复杂的语言模式。

研究团队还发现了一个有趣的"最优精度"现象。通过建立数学模型来描述不同精度下的性能表现，他们发现在考虑硬件效率的情况下，4位精度确实是当前技术条件下的最优选择。这就像找到了汽车发动机的最优压缩比，既能保证足够的动力输出，又能实现最佳的燃油效率。

六、硬件加速的现实意义

理论突破只有转化为实际的性能提升才有真正的价值，就像一个完美的设计图纸只有建成真实的建筑才能发挥作用。研究团队开发了专门的GPU核心程序来支持QuEST模型的高效执行，这些程序就像为新型汽车设计的专用跑道，能够最大化发挥其性能优势。

在实际测试中，QuEST方法在不同类型的计算任务中都表现出了显著的速度提升。对于16亿参数规模的模型，单个计算层的加速比可以达到1.2倍到2.4倍，这种提升在实际应用中意味着显著的时间和能源节省。更重要的是，当模型规模扩大到70亿参数时，加速效果变得更加明显，达到了2.3倍到3.9倍的提升。

这种性能提升的实际意义可以用日常生活中的例子来理解。如果你平时需要花1个小时来处理某项工作，使用QuEST优化后的系统可能只需要25-30分钟就能完成同样的任务。对于需要大量计算的AI应用来说，这种时间节省意味着更快的响应速度、更低的运营成本和更好的用户体验。

研究团队特别关注了哈达玛变换对性能的影响。虽然这个额外的计算步骤会增加一些开销，但在大多数情况下，这个开销相对于整体性能提升来说是微不足道的。就像为了让汽车跑得更快而安装了涡轮增压器，虽然增加了一些复杂性，但带来的性能提升远超过了额外的成本。

七、突破传统认知的缩放定律

缩放定律是深度学习领域的一个重要概念，它描述了模型性能与模型大小、训练数据量之间的数学关系。传统的缩放定律就像一个经验公式，告诉我们如果想要获得更好的性能，就需要使用更大的模型和更多的训练数据。但QuEST方法的出现打破了这种传统认知，就像发现了一条通往同样目标的更高效路径。

研究团队通过大量实验建立了量化训练的新缩放定律。这个新定律考虑了精度这个之前被忽略的重要因素，就像在原有的地图上新增了一个维度，让我们能够找到之前未曾发现的捷径。数学模型显示，在固定的硬件资源和训练时间约束下，4位精度确实是当前的最优选择。

这个发现的重要性在于它改变了我们对AI模型优化的理解。过去，人们普遍认为提升AI性能的唯一途径是增加模型参数和训练数据，这就像认为建造更高的建筑只能通过增加更多的材料。但QuEST的研究表明，通过更智能的设计和优化，我们可以用更少的资源实现更好的效果。

特别值得注意的是"过训练"场景下的表现。在这种场景中，模型使用了远超传统建议的训练数据量，就像让学生做远超正常数量的练习题。在这种情况下，低精度训练的优势变得更加明显，4位精度模型能够显著超越传统的16位精度模型。这个发现对于那些有充足计算资源的大型AI项目具有重要的指导意义。

八、方法的普适性和扩展能力

QuEST方法的另一个重要特点是其出色的适应性和扩展能力。研究团队证明了这种方法不仅适用于标准的整数量化，还可以扩展到其他数值表示格式，比如浮点数量化和稀疏量化。这种灵活性就像一个多功能工具，可以适应各种不同的应用场景。

在浮点数量化方面，QuEST方法展现出了与整数量化相似的性能优势。浮点数量化就像使用科学计数法来表示数字，它能够在保持相对精度的同时显著减少存储需求。虽然4位浮点数的表现略逊于4位整数，但依然明显优于传统的高精度方法，这为硬件制造商提供了更多的设计选择。

稀疏量化则是另一个有趣的扩展方向。这种方法结合了稀疏性和量化两种压缩技术，就像同时使用压缩算法和文件整理来减少存储空间占用。研究结果显示，50%稀疏度加4位量化的组合能够实现非常好的效果，为那些对存储空间有极严格要求的应用提供了新的解决方案。

在仅权重量化方面，QuEST方法也显示出了独特的优势。在这种模式下，只对模型的权重参数进行量化，而激活值保持高精度。实验结果显示，在仅权重量化的场景中，2位精度居然成为了最优选择，这个发现进一步证明了QuEST方法的灵活性和实用价值。

九、与现有方法的全面比较

为了验证QuEST方法的真实效果，研究团队与多种现有的量化训练方法进行了详细的比较实验。这种比较就像汽车测试中的对比评测，需要在相同条件下测试不同方法的表现，确保比较结果的公平性和可信度。

与直通估计器（STE）的比较显示，QuEST在所有测试的精度级别上都表现更优。直通估计器是目前最常用的量化训练方法，但它在极低精度下容易出现训练不稳定的问题。QuEST方法通过信任估计器的设计有效解决了这个问题，就像用智能刹车系统替代了传统刹车，提供了更好的安全性和可靠性。

与LSQ（Learned Step Size Quantization）方法的比较也很有启发性。LSQ通过学习量化参数来优化性能，这个想法很聪明，但在极低精度下效果有限。QuEST方法的优势在于它不依赖于梯度反传来优化量化参数，而是通过数学分析直接找到最优解，这就像用GPS导航代替了问路，更加直接和可靠。

特别值得一提的是与QuaRot方法的比较。QuaRot也使用了旋转变换来改善量化效果，与QuEST的哈达玛变换有些相似。但实验结果显示，QuEST的整体设计更加完善，特别是在1位量化这种极端情况下，QuEST的表现明显更好。这种差异主要源于QuEST的信任估计器设计，它为极低精度训练提供了更好的稳定性。

十、未来发展的无限可能

QuEST方法的成功为AI模型优化开辟了新的道路，就像发现了一条通往宝藏的新路径。虽然研究团队已经在最大16亿参数的模型上验证了方法的有效性，但对于更大规模模型的表现依然充满期待。这就像一种新药在小规模试验中表现出色，现在需要在更大规模的试验中验证其效果。

研究的另一个重要方向是将QuEST方法扩展到不同的模型架构。目前的实验主要基于解码器类型的Transformer模型，但编码器-解码器架构和其他类型的神经网络也有巨大的应用潜力。这种扩展就像将一个有效的教学方法从数学课堂推广到其他学科，需要根据不同学科的特点进行适当的调整。

从硬件发展的角度来看，QuEST方法的成功也为芯片设计提供了新的思路。传统的AI芯片设计主要考虑如何支持高精度计算，但QuEST的研究表明，专门为低精度计算优化的硬件可能会带来更大的效率提升。这就像为电动汽车设计专门的充电设施，能够最大化发挥新技术的优势。

环保和可持续发展也是一个重要考虑因素。AI模型训练消耗大量电力，对环境造成不小的影响。QuEST方法通过显著降低计算复杂度来减少能源消耗，这不仅有经济价值，也有重要的环保意义。这就像推广节能汽车一样，既能为用户节省成本，也能为社会带来环境效益。

说到底，QuEST方法的出现证明了一个重要观点：在AI发展的道路上，暴力堆砌资源并不是唯一的解决方案。通过更聪明的方法和更精巧的设计，我们可以用更少的资源实现更好的效果。这种思路不仅适用于AI研究，对于整个科技发展都有重要的启示意义。

归根结底，这项研究为普通人带来的最直接好处就是更快、更便宜的AI服务。当AI模型能够在更低成本的硬件上高效运行时，各种AI应用的普及速度就会加快，使用成本也会降低。这就像智能手机的普及一样，技术的进步最终会惠及每一个普通用户。

对于那些想要深入了解这项研究技术细节的读者，强烈建议访问研究团队提供的开源代码库。通过实际的代码实现，你能更好地理解QuEST方法的工作原理，也许还能在此基础上开发出更有趣的应用。毕竟，最好的学习方式就是动手实践，而最好的创新往往来自于对现有方法的深入理解和巧妙改进。

Q&A

Q1：QuEST量化训练方法相比传统方法有什么优势？

A：QuEST最大的优势是能在极低精度下保持稳定训练。传统方法通常需要8位精度才能获得好效果，而QuEST能在4位甚至1位精度下工作。在相同硬件资源下，4位QuEST模型的表现甚至能超过传统16位模型，同时运行速度提升1.2-2.4倍，大大节省了计算成本和能源消耗。

Q2：哈达玛变换在QuEST方法中起什么作用？

A：哈达玛变换就像整理杂乱仓库的管理员，它将原本分布不规律的模型参数重新组织，使其更接近规整的高斯分布。这样做的好处是让后续的量化处理更加精准，减少信息损失。实验显示，使用哈达玛变换后，需要被标记为"不可信"的参数数量减少了约4倍，大大提高了训练稳定性。

Q3：普通用户如何从QuEST技术中受益？

A：QuEST技术的普及将直接降低AI服务的成本和提高响应速度。由于模型可以在更便宜的硬件上高效运行，各种AI应用的使用成本会下降，同时处理速度会显著提升。这意味着未来的AI助手、翻译工具、图像处理等应用会变得更快更便宜，让更多普通用户能够享受到先进AI技术带来的便利。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.