香港科技大学突破：让大模型运行速度翻倍的神奇数据格式|客户端节点

分享至

这项由香港科技大学、Moffett AI以及字节跳动种子团队的研究人员共同完成的突破性研究发表于2025年12月，论文编号为arXiv:2512.05409v1。研究团队包括香港科技大学的黄瑞轩和王帅，Moffett AI的曾浩、石金源和严恩旭，以及字节跳动种子团队的黄涵涛和余明辉。这项研究首次提出了一种名为SQ-format的全新数据格式，能够在几乎不损失准确性的前提下，让大语言模型的运行速度提升近一倍。

想象你正在整理一个巨大的图书馆，里面有数十亿本书籍。传统的整理方法就像是给每本书都分配同样大小的书架空间，不管是字典还是薄薄的小册子。但聪明的图书管理员发现，大部分重要信息其实集中在少数几本关键书籍中，而其余的书籍虽然数量庞大，但相对不那么重要。基于这个观察，研究团队设计出了一种"混合精度"的存储方案——就像是给重要的书籍分配精装书架，而给普通书籍分配简易书架，这样既节省了空间，又保证了重要信息的完整性。

当前大语言模型面临的最大挑战就像是一座城市的交通拥堵问题。这些模型就像超级计算机城市中的居民，每天需要处理海量的信息流量。传统的解决方案是建造更宽的道路（提高计算精度），但这需要消耗大量资源。另一种方案是限制车辆大小（降低计算精度），但这可能影响运输效率和质量。研究团队巧妙地发现了第三条路：建造一个智能交通系统，让重要的货物走快速通道（高精度处理），而普通货物走普通道路（低精度处理），这样既保证了效率，又维持了质量。

一、重新定义数据的存储方式

传统的数据处理方式就像是用同一种尺寸的盒子来装不同大小的物品。无论是装珍珠还是装石头，都使用同样大小的包装盒，这显然是一种资源浪费。SQ-format的核心创新在于提出了"分级包装"的概念——根据内容的重要性选择不同精度的存储方式。

这种新格式的设计理念可以用一个餐厅的比喻来理解。在一家高端餐厅中，厨师会根据食材的珍贵程度采用不同的处理方式：顶级和牛需要精心烹制，而配菜土豆则可以用更简单的方法处理。SQ-format就像是这样的智能厨师，它会自动识别出数据中的"顶级食材"（重要数值）和"普通配菜"（一般数值），然后分别用高精度和低精度的方式进行处理。

具体来说，这种格式将数据分成两个部分：一部分是稀疏分布的高精度数据，另一部分是密集分布的低精度数据。就像一个花园中，少数珍贵的花朵需要特殊照料，而大片的草坪则可以用常规方式维护。这种分层处理的方式让计算资源得到了最优化的配置。

研究团队发现，在大语言模型中，只有很小一部分数值对最终结果起到决定性作用，这些"关键数值"就像交响乐团中的首席小提琴手，虽然人数不多，但对整个演出的质量起到关键作用。而大部分数值则像是合唱团成员，虽然数量庞大，但个体的精确度要求相对较低。基于这个发现，SQ-format能够智能地识别出这些关键数值，并为它们分配更高的精度，同时对其他数值使用较低的精度进行处理。

二、智能识别重要信息的两种策略

为了实现这种分级处理，研究团队开发了两套互补的策略，就像一个智能安保系统同时使用面部识别和指纹识别两种技术来确保安全性。

第一种策略专门针对模型的权重数据，这些数据就像是一个公司的组织架构图，相对固定且重要性分布明确。研究团队结合了两种已有的优化技术：GPTQ和SmoothQuant。这个过程就像是对公司进行重组优化，首先通过SmoothQuant技术对整个权重矩阵进行"平滑处理"，就像是在重组前先整理公司的部门结构。然后使用GPTQ技术的海塞矩阵来计算每个权重的重要性得分，这就像是通过数据分析来评估每个员工对公司业绩的贡献度。

重要性得分的计算公式融合了权重本身的大小和模型对该权重变化的敏感度。就像评估一个齿轮在机器中的重要性时，既要考虑齿轮本身的大小，也要考虑这个齿轮停止工作时对整台机器的影响程度。通过这种综合评估，系统能够准确识别出那些对模型性能起关键作用的权重，并将它们标记为需要高精度处理的对象。

第二种策略则针对激活数据，这些数据就像是流水线上实时变化的产品，需要动态处理。由于激活数据的动态特性，研究团队设计了一种静态预测策略来避免实时计算的开销。这就像是气象预报系统，虽然天气每天都在变化，但通过分析历史数据和模式，可以提前预测出哪些时间段可能出现重要天气变化。

这种静态策略首先在校准数据集上收集每个通道的平均激活值，然后考虑激活值与权重矩阵的乘积贡献来重新定义重要性得分。这就像是分析一个乐队中每个乐器的演奏模式，虽然每首曲子的具体表现会有差异，但通过分析大量曲目，可以识别出哪些乐器在特定类型的音乐中通常起主导作用。这种预测性的方法让系统能够在不增加实时计算负担的情况下，提前确定哪些激活通道需要高精度处理。

三、突破现有硬件限制的设计理念

现有的计算硬件就像是一个只能处理固定尺寸货物的运输系统。比如GPU的张量核心，就像是专门设计用来运输标准集装箱的港口设备，当遇到非标准尺寸的货物时，就需要进行复杂的转换和适配，这个过程不仅低效，还可能影响整体的运输效率。

SQ-format的硬件设计策略就像是重新设计了一个灵活的物流系统。这个系统包含两条并行的处理通道：一条专门处理高精度的稀疏数据，另一条处理低精度的密集数据。就像现代机场有不同的安检通道，VIP乘客走快速通道接受精密检查，普通乘客走标准通道接受常规检查，两个通道并行运行，既保证了安全性，又提高了整体效率。

对于权重数据的处理，硬件设计采用了巧妙的掩码机制。低精度部分保持原有的存储格式，但使用特殊的掩码值来标识需要高精度处理的位置。这就像是在普通的停车场中设置了一些特殊标记，当系统扫描到这些标记时，就知道需要调用特殊的处理流程。这种设计的优势在于，低精度部分可以直接由现有的张量核心处理，而高精度部分则通过专门的收集单元来处理稀疏数据。

研究团队通过硬件仿真验证了这种设计的可行性。他们使用台积电12纳米工艺进行了RTL综合实验，结果显示即使增加了处理动态掩码所需的收集单元，整体硅面积仍然比标准的INT6乘加阵列减少了35.8%。这就像是重新设计了一个工厂布局，虽然增加了一些新的设备，但通过优化整体流程，反而减少了总体的占地面积。

四、实验证明的显著性能提升

研究团队在多个大语言模型上进行了广泛的实验验证，就像是在不同类型的车辆上测试新型燃油系统的效果。实验涵盖了从80亿参数的Llama-3-8B到700亿参数的Llama-3-70B，以及300亿参数的Qwen-3-30B等多种模型规模。

在准确性方面，SQ-format展现出了令人印象深刻的性能保持能力。以Llama-3-8B为例，在非生成任务上，SQ-format达到了与传统W4A8方法几乎相同的准确性，平均准确率差异小于1%。这就像是用新型燃油的汽车不仅保持了原有的动力性能，在某些情况下甚至还有所提升。在生成任务上，SQ-format在GSM8k数学问题求解任务中的表现甚至超过了某些传统方法，显示出其在复杂推理任务中的潜力。

更重要的是吞吐量的显著提升。研究团队测量了端到端的预填充延迟，发现在Llama-3-8B上能够实现最高1.17倍的速度提升，而在更大的Llama-3-70B模型上，速度提升更是达到了1.71倍。这种性能提升就像是通过智能交通管理系统，在不增加道路宽度的情况下，让车流量提升了近一倍。

特别值得注意的是，SQ-format成功地弥合了理论效率和实际部署之间的鸿沟。传统的W4A8量化方法在理论上应该比W8A8更高效，但由于硬件限制，实际运行时往往需要回退到W8A8的执行路径。SQ-format通过将大部分计算转换为W4A4路径，同时保持接近W4A8的准确性，真正实现了理论与实践的统一。

在不同稀疏度设置下的实验结果也很有启发性。从50%稀疏度（2倍稀疏）到93.75%稀疏度（16倍稀疏），随着稀疏度的增加，计算吞吐量稳步提升，就像是逐渐减少快速通道的使用比例，将更多计算任务转移到高效的低精度通道上。这种可调节的设计让用户能够根据具体需求在准确性和性能之间找到最佳平衡点。

五、静态策略解决实际部署挑战

在实际应用中，动态选择重要数据就像是在高速公路上临时决定哪些车辆可以使用快速车道，这种实时决策虽然理论上最优，但会带来额外的管理开销和复杂性。为了解决这个问题，研究团队开发了静态预测策略，这就像是根据历史交通数据预先规划好快速车道的使用规则，避免了实时决策的复杂性。

静态策略的核心思想是通过分析校准数据集来提前确定激活通道的重要性排序。这个过程就像是一个经验丰富的厨师，通过长期观察发现某些调料在大多数菜品中都起关键作用，因此可以提前准备好特殊的存储和处理方式。研究团队发现，仅仅基于激活值大小来判断重要性是不够的，就像判断一个员工的价值不能只看工作时间的长短，还要考虑工作成果的影响力。

因此，他们重新定义了重要性评分公式，将激活值与对应权重的乘积贡献作为评判标准。这就像是评估一个齿轮的重要性时，不仅要看齿轮本身的大小，还要考虑它所连接的整个传动系统的复杂程度。通过这种综合评估，静态策略能够更准确地识别出真正影响模型性能的关键通道。

实验结果显示，静态策略与动态策略在性能上几乎不相上下，平均准确率差异保持在1%以内。这个结果就像是发现预设的交通规则和实时调度在效果上基本相当，但前者的实施成本要低得多。更重要的是，静态策略完全消除了实时TopK操作的开销，让整个系统能够在现有GPU上流畅运行，而不需要等待专门的硬件支持。

静态掩码的存储开销也非常小。以Llama-3-70B模型为例，整个静态掩码只需要5.94MB的存储空间，这相对于模型本身140GB的大小来说几乎可以忽略不计，就像是在一个大型仓库中添加了一个小小的导航牌，成本微不足道但效果显著。

六、硬件算法协同设计的深度探索

研究团队深入探讨了不同参数配置对性能的影响，这就像是调音师为不同类型的音乐会调试音响系统的各种参数。他们发现，银行大小（bank size）和稀疏度之间存在着微妙的平衡关系，这种关系就像是烹饪中火候与时间的配合，需要根据具体情况进行精细调节。

在权重数据的处理中，随着稀疏度的增加，最优银行大小也会相应增大。这就像是随着VIP客户比例的减少，需要增大普通服务区域的容量来保持整体服务效率。具体来说，当稀疏度达到16倍时，银行大小需要至少达到64才能获得最佳性能。这个发现对硬件设计具有重要指导意义，因为它直接影响到多路选择器（MUX）的复杂度和芯片面积。

对于激活数据的处理，静态策略倾向于使用较小的银行大小，这与权重数据的趋势正好相反。这种差异就像是不同类型的生产线需要不同的组织方式，流水线生产适合大批量标准化产品，而定制化生产则需要更灵活的小型工作单元。这种发现让研究团队意识到，针对不同类型数据需要采用不同的优化策略。

在高低精度配置的选择上，研究团队发现了一个重要的平衡点。当低精度位宽降到2位时，即使引入高精度元素也难以补偿信息损失，这就像是用过于简陋的工具来处理精密工作，无论如何补救都难以达到理想效果。而8位/4位的组合则提供了最佳的性能平衡，就像是找到了工具精度和使用效率的最佳平衡点。

稀疏度的计算平衡也是一个关键考虑因素。研究团队指出，稀疏度的选择需要考虑硬件的计算能力差异。比如，如果8位计算的速度是4位计算的四倍，那么稀疏度需要至少达到75%才能让高精度路径的计算时间被低精度路径完全掩盖。这就像是设计一个双车道系统时，需要确保快车道的车流密度足够小，这样即使单车处理时间更长，也不会影响整体通行效率。

七、面向未来的硬件设计指导

SQ-format不仅解决了当前的性能问题，更为未来AI加速器的设计提供了宝贵的指导思路。研究团队通过大量实验总结出了一套设计准则，这些准则就像是建筑师在设计摩天大楼时需要遵循的结构原理，为未来的硬件发展指明了方向。

首先，银行化设计成为了核心原则。就像现代城市规划中的分区管理概念，将大型计算任务划分为多个可管理的银行单元，每个银行内部采用固定的稀疏模式。这种设计避免了不规则稀疏模式带来的负载不平衡问题，就像是通过标准化的城区规划来避免交通拥堵和资源分配不均。

其次，多精度并行处理架构展现出了巨大潜力。这种架构就像是现代工厂中的多条生产线，每条生产线专门处理不同复杂度的产品，通过专业化分工来提高整体效率。高精度路径处理关键但稀疏的数据，低精度路径处理大量的常规数据，两者并行运行，互不干扰。

研究团队还提出了动态掩码处理单元的设计方案。这种单元就像是智能分拣系统，能够在流水线上实时识别和分离不同类型的产品。虽然这个单元会增加一定的硬件复杂度，但RTL综合结果显示，整体面积效率仍然比传统设计提升了35.8%。这证明了通过智能化设计，完全可以在增加功能的同时减少资源消耗。

对于校准数据集大小的研究也提供了实用的指导。实验表明，即使使用相对较小的校准数据集，静态策略的性能也保持稳定。这就像是发现只需要少量样本就能准确预测整体趋势，这大大降低了实际部署时的数据收集成本和时间开销。

八、实际应用中的表现验证

为了验证SQ-format在真实应用场景中的表现，研究团队进行了端到端的延迟测试。这些测试就像是对新型交通系统进行的实路测试，不仅要看理论指标，更要在真实环境中验证实际效果。测试使用了WikiText数据集，模拟了典型的文本生成任务场景。

结果显示，在Llama-3-8B模型上，不同稀疏度配置下的速度提升从1.07倍到1.17倍不等，而在更大的Llama-3-70B模型上，速度提升更是达到了1.32倍到1.71倍。这种规模效应就像是大型货轮比小型渔船更能体现新型推进系统的优势，模型越大，SQ-format的效率提升越明显。

有效内存带宽的提升也很显著。这个指标就像是衡量高速公路实际通行能力的标准，不仅要看道路宽度，还要考虑实际车流密度和平均车速。SQ-format在各种模型上都实现了内存带宽的显著提升，这意味着同样的硬件资源能够处理更多的数据流量。

研究团队还测试了SQ-format在浮点数据类型上的表现。他们在DeepSeek-R1模型上应用了FP8/FP4的量化组合，在稀疏度为87.5%的设置下，获得了等效5位的压缩效果，同时保持了与原始BF16模型几乎相同的性能表现。这就像是验证了新的压缩技术不仅适用于整数数据，在更复杂的浮点数据上同样有效。

九、技术细节的深入解析

SQ-format的数学定义可以用一个精密的分类系统来理解。整个格式包含量化矩阵、稀疏矩阵、掩码向量以及高低精度配置等多个组件，就像是一个完整的档案管理系统，每个文件都有其特定的存储位置和访问方式。

掩码机制的设计尤为巧妙。在权重量化中，系统使用对称量化方式，并将未使用的最大值作为高精度掩码标识。这就像是在标准的产品编码系统中，特意保留某个编号来表示"特殊处理"的含义。比如在INT2格式中，正常值域为{-1, 0, 1}，而值2被专门用来标识该位置需要使用高精度数据。

重要性评分的计算融合了多种因素。对于权重数据，评分公式结合了权重的平方值和海塞矩阵的对角线倒数，这就像是评估一个员工时既考虑其能力大小，也考虑其岗位的关键程度。对于激活数据，评分则基于激活值与权重乘积的贡献，更加注重实际的协同效应。

银行内的精度分配策略也体现了精细化管理的思想。系统不是随机选择高精度元素，而是根据重要性评分在每个银行内选择前(1-s)比例的关键元素。这就像是在每个部门内部都要保留一定比例的核心骨干，确保关键功能不会受到影响。

静态策略中的权重重排序功能为硬件优化提供了额外的便利。通过根据重要性掩码重新排列权重矩阵的列，系统能够改善数据局部性，就像是重新整理仓库货物的摆放位置，让常用物品更容易取用。这种优化虽然看似细微，但对硬件内核的执行效率有显著影响。

说到底，SQ-format代表了AI硬件软件协同设计的一个重要里程碑。它不是简单地追求更高的压缩率或更快的速度，而是在深度理解模型特性的基础上，找到了准确性、效率和硬件友好性之间的最佳平衡点。这种设计哲学就像是优秀的建筑师不仅要考虑建筑的美观和实用，还要兼顾成本控制和施工可行性。

研究团队的工作证明了一个重要观点：面向未来的AI技术发展，单纯的软件优化或硬件升级都是不够的，只有通过深度的软硬件协同设计，才能真正释放AI系统的潜力。SQ-format为这种协同设计提供了一个成功的范例，为后续的研究和产业发展指明了方向。这项技术不仅能够立即改善现有AI系统的性能，更为构建下一代AI计算基础设施提供了重要的技术储备。

随着大语言模型在各个领域的广泛应用，对计算效率的需求将越来越迫切。SQ-format这样的创新技术让我们看到，通过巧妙的设计和深入的优化，完全可以在不牺牲质量的前提下大幅提升AI系统的运行效率。这不仅意味着更低的部署成本和更广泛的应用可能，也为AI技术的民主化奠定了重要基础。当AI系统变得更加高效和易于部署时，更多的组织和个人将能够享受到AI技术带来的便利和价值。

Q&A

Q1：SQ-format是什么样的技术？

A：SQ-format是香港科技大学等机构开发的一种新型数据格式，它能够智能识别大语言模型中的重要信息和普通信息，然后用不同精度进行处理。就像智能分拣系统一样，重要数据用高精度处理，普通数据用低精度处理，这样既保证了准确性又提升了运行速度。

Q2：SQ-format能带来多大的性能提升？

A：在实际测试中，SQ-format能让大语言模型的运行速度提升1.17到1.71倍，具体提升幅度取决于模型大小。更大的模型通常能获得更明显的速度提升。同时，这种技术几乎不会损失模型的准确性，平均准确率差异小于1%。

Q3：普通用户什么时候能用上SQ-format技术？

A：SQ-format目前还是学术研究阶段，需要专门的硬件支持才能发挥最佳效果。不过研究团队也开发了可以在现有GPU上运行的版本，预计随着相关硬件的发展和技术的成熟，未来几年内可能会逐步应用到实际的AI产品中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.