伦敦国王学院团队突破：让大语言模型"瘦身"不掉链|算法|上下文|新论文

分享至

这项由英国伦敦国王学院联合清华大学、英国帝国理工学院以及英国艾伦·图灵研究所共同完成的研究发表于2026年2月，预印本编号为arXiv:2602.03784v1。对这项技术感兴趣的读者可以通过该编号查询完整论文。

大语言模型就像一个博览群书的助手，能回答各种问题，但它们有个让人头疼的毛病：处理长文档时会变得又慢又耗资源。想象一下，如果你给这个助手一本厚厚的百科全书，让它从中找答案，它需要把整本书的每一页都仔细读一遍，这个过程会消耗大量时间和精力。为了解决这个问题，研究人员想出了各种"压缩"方法，就像把厚书压缩成精华版，既保留重要信息，又能快速处理。

然而，现有的压缩方法存在一些根本性缺陷。就像用压缩机压缩一堆衣物，如果操作不当，重要的衣物可能被压坏，而不重要的却占据了宝贵空间。现有方法在处理信息时会出现两个关键问题：一是信息在处理过程中会被逐渐"覆盖"和丢失，二是缺乏统一规划，导致资源分配不合理。

针对这些问题，研究团队开发出了一种全新的压缩框架，名为ComprExIT（通过明确信息传输实现上下文压缩）。这个方法的巧妙之处在于，它不再依赖传统的层层处理方式，而是建立了一个明确的"信息传输系统"，就像在信息高速公路上建立了精确的导航和分配机制。

一、传统方法的困境：信息传输中的两大难题

要理解这项研究的重要性，我们首先需要了解现有压缩方法遇到的难题。现在主流的软压缩方法采用"大语言模型作为压缩器"的策略，这种方法的工作原理类似于接力赛跑。

在接力赛中，每个跑者都要接过前一个人的棒子，然后传递给下一个人。在语言模型的压缩过程中，信息也是这样一层一层地传递下去的。研究人员在模型中插入一些特殊的"压缩令牌"（类似于信息容器），然后让模型的不同层次通过自注意力机制不断更新这些容器中的内容。

但这种方法有个严重问题，就像接力赛中每个跑者不仅要传递棒子，还要在棒子上重新写字。随着传递次数增加，原本的重要信息可能被新信息覆盖，导致信息丢失。具体来说，早期层次收集的重要信息在后续处理中会被逐渐"改写"，而后期的表示往往变得过于抽象，与最终解码器期待的信息格式产生偏差。

第二个问题更像是一群人在没有协调的情况下同时收拾房间。每个人都在独立工作，结果可能是重要的角落被忽视了，而不重要的地方却被重复打扫。在压缩过程中，不同的压缩令牌会独立地关注输入内容的不同部分，但由于缺乏全局协调，它们可能会重复关注同样的信息，而忽略其他重要内容。

研究团队通过数学分析证明了这些问题的严重性。他们发现，层与层之间的信息偏移会累积，就像滚雪球一样越滚越大，最终导致压缩后的信息与解码器期待的格式产生很大差距。这种差距让模型训练变得困难，性能也不够稳定。

二、创新突破：构建明确的信息传输系统

面对这些挑战，研究团队提出了一个完全不同的解决思路。与其让模型自己学习如何压缩，不如直接利用模型已经产生的丰富信息表示，通过构建明确的信息传输机制来实现压缩。

这个想法的灵感来自一个重要观察：当大语言模型处理文本时，它的不同层次会产生不同抽象程度的信息表示。就像一个摄影师从不同角度拍摄同一个景物，每张照片都捕捉了不同的细节和特征。早期层次主要捕捉词汇和语法信息，中间层次理解语义关系，后期层次则形成高级抽象概念。

ComprExIT的核心思想是保持语言模型完全不变（就像保持摄影师的拍摄过程不变），然后在这些已有的"照片"上建立一个智能的信息整合系统。这个系统包含两个关键的传输方向：深度传输和宽度传输。

深度传输解决的是如何从模型的不同层次中选择和整合信息。想象你有一座十六层的图书馆，每一层都存放着同一本书的不同版本解读。有些层次的解读更适合回答某些类型的问题，有些层次则可能包含冗余或不必要的信息。深度传输机制就像一个智能图书管理员，能够根据需要从不同楼层选择最合适的信息片段。

宽度传输则负责将大量的信息点整合成少数几个高质量的"信息包"。这个过程类似于将一个大型超市的商品重新整理成几个精选礼品盒。每个礼品盒都要包含最有价值的商品组合，既不能重复，也不能遗漏重要物品。

三、技术细节：深度传输的智能选择机制

深度传输机制的工作方式颇为巧妙。对于输入文本中的每个位置，系统都会构建一个"令牌锚点"，这个锚点就像一个智能收集器，能够从模型的不同层次中选择性地收集信息。

具体来说，系统首先会对所有层次的信息进行结构化混合，形成一个综合的上下文背景。然后，它会为每个层次计算一个"门控得分"，这个得分反映了该层次的信息对当前位置有多重要。就像一个美食品鉴师品尝不同菜肴时，会根据菜肴的特色和自己的需求给出不同的评分。

门控机制的计算过程融入了层次信息和位置信息，确保系统能够做出精确的判断。研究团队发现，重要的实体词汇往往更偏好中间层次的表示，因为这些层次包含了丰富的上下文和关系信息。而一般性的词汇则更多地依赖早期层次的基础语义表示。

这种选择性整合避免了传统方法中信息被逐层覆盖的问题。每个令牌锚点都直接访问最适合的层次表示，而不需要经过可能造成信息丢失的中间处理步骤。

四、宽度传输：全局协调的信息分配

宽度传输机制解决了如何将众多信息点高效整合成少数压缩槽位的问题。这个过程的核心是构建一个全局优化的"传输计划"，确保每个压缩槽位都能获得最有价值的信息组合。

系统首先构建一个"效用矩阵"，用来量化每个信息传输路径的价值。这就像一个物流公司评估不同运输路线的成本效益比。效用的计算基于发送方（令牌锚点）和接收方（压缩槽位）之间的相似性，使用余弦相似度来衡量它们在语义空间中的匹配程度。

为了保持语义顺序，系统将令牌序列划分成不同的局部区域，每个压缩槽位主要负责一个区域，但仍然保留与其他区域建立连接的能力。这种设计类似于城市规划中的分区管理，既保证了局部的有序性，又允许跨区域的重要连接。

接下来，系统会为每个发送方学习一个"信息容量"，这个容量反映了该位置信息的重要程度。重要位置会被分配更大的传输容量，而次要位置的容量较小。这种差异化处理确保了有限的压缩资源被优先分配给最重要的信息。

最关键的是，整个传输计划通过求解一个最优传输问题来确定。这个优化问题考虑了所有可能的信息流向，在全局层面找到最佳的分配方案。研究团队使用了Sinkhorn算法来高效求解这个问题，该算法在保证优化质量的同时具有良好的计算效率。

五、实验验证：全面超越现有方法的卓越表现

研究团队在六个不同的问答数据集上对ComprExIT进行了全面测试，这些数据集涵盖了抽取式问答、开放域问答和多跳推理等不同任务类型。实验使用了Llama-3.2-1B和Llama-3.2-3B作为基础模型，压缩比设定为4倍，即将原始上下文压缩到四分之一的长度。

实验结果令人印象深刻。ComprExIT在所有测试的数据集上都consistently超越了现有的压缩方法，包括ICAE、500×和Activation Beacon等主流技术。更令人惊讶的是，ComprExIT的性能甚至能够匹敌甚至超过未压缩的基准模型，特别是在TriviaQA和SearchQA等信息检索导向的数据集上。

这种出色表现背后的原因在于ComprExIT的选择机制能够有效过滤干扰信息。在处理包含大量无关内容的长文档时，传统方法往往会被噪音信息影响，而ComprExIT能够精确识别和保留真正重要的信息片段。

在跨域泛化能力测试中，ComprExIT展现出了更强的鲁棒性。当模型在未见过的数据分布上进行测试时，ComprExIT相比其他方法的优势变得更加明显。这表明该方法学习到的压缩策略具有良好的通用性，不会过度依赖特定的训练数据分布。

研究团队还进行了一个更具挑战性的实验：仅使用下一词预测目标进行训练，不进行任何任务特定的微调。在这种设置下，ComprExIT仍然显著优于所有基线方法，证明了该方法能够从通用的语言建模目标中学习到有效的压缩表示。

六、深入分析：协调分配的重要性验证

为了验证协调分配机制的重要性，研究团队进行了详细的消融实验和可视化分析。通过计算不同压缩槽位之间聚合分布的皮尔逊相关系数，他们发现传统方法（如ICAE）的压缩令牌之间存在显著的相关性，表明多个令牌在关注高度重叠的输入内容。

这种重叠现象就像多个摄影师拍摄同一个角度的照片，造成了资源浪费和信息冗余。相比之下，ComprExIT的不同压缩槽位之间保持了低相关性，表明它们各自负责不同的信息区域，实现了真正的协调分配。

通过奇异值分解分析，研究团队发现ICAE的聚合矩阵具有较低的有效秩（27.16），而ComprExIT的有效秩明显更高（38.37）。较低的有效秩意味着聚合模式处于低维子空间中，存在冗余和重复，而较高的有效秩表明ComprExIT能够利用更丰富的信息维度。

层次选择分析揭示了另一个有趣现象：ComprExIT倾向于从早期和中间层次选择信息，而较少使用后期层次的表示。这与研究团队的初步实验观察一致，即后期层次的表示往往过于抽象，包含的可保留信息较少。重要实体词汇更多地选择中间层次的表示，而一般词汇则偏好早期层次，这种差异化选择策略进一步提升了压缩质量。

七、优化行为和计算效率

ComprExIT在训练过程中表现出了优秀的优化特性。与基线方法相比，它能够更快收敛到更低的损失值，并且在训练初期就显示出更好的性能。这种优秀的优化行为归因于该方法产生的表示与解码器输入空间更好的对齐。

由于避免了分布偏移和渐进的表示覆盖，ComprExIT为解码器提供了更清洁、更易于处理的输入。传统方法由于存在压缩器和解码器之间的分布不匹配，需要更多的训练时间来弥补这种差距。

在参数效率方面，ComprExIT仅增加了约1%的额外参数，这些参数主要用于深度传输的门控机制和宽度传输的投影层。相比于需要大幅修改模型架构的方法，ComprExIT提供了一个轻量级的解决方案。

计算复杂度方面，虽然需要求解最优传输问题，但通过使用Sinkhorn算法和固定大小的分段处理（如128个令牌一段），系统能够在保证效率的同时实现全局优化。研究团队选择了相对较大的分段大小来保持广泛的信息分配范围，同时避免过于激进的长距离分配可能造成的语义顺序破坏。

八、局限性和未来展望

尽管ComprExIT在多个方面取得了显著进展，但研究仍存在一些局限性。首先，实验主要集中在相对较小的模型（1B到3B参数）上，在更大规模模型上的表现还需要进一步验证。其次，测试的上下文长度相对有限（512个令牌），对于处理真正的长文档场景，该方法的可扩展性还需要更多探索。

研究团队还指出，当前实验主要使用固定的压缩比（4倍），在实际应用中，不同类型的文档可能需要不同的压缩程度。如何自适应地确定最优压缩比是一个值得进一步研究的问题。

从技术角度看，当前的方法主要针对问答任务进行了优化，其在其他类型任务（如文本生成、摘要等）上的表现还需要更多验证。不同任务可能需要保留不同类型的信息，这可能需要对传输机制进行相应的调整。

然而，这项研究开启了一个新的研究方向，即将上下文压缩视为明确的信息传输问题。这个范式提供了丰富的设计空间，研究人员可以探索更多样的传输策略和优化目标。例如，可以考虑任务特定的效用函数，或者基于注意力模式的动态传输计划。

说到底，ComprExIT代表了上下文压缩技术的一个重要突破。通过将压缩从模型内部的自注意力动态中解耦出来，它为构建更高效、更可控的长上下文处理系统提供了新的思路。这项技术有望在实际应用中显著降低大语言模型处理长文档的计算成本，让更多用户能够享受到先进AI技术的便利。随着技术的进一步发展和完善，我们可以期待看到更多基于明确信息传输原理的创新方法出现，推动整个领域向前发展。

Q&A

Q1：ComprExIT和传统压缩方法有什么根本区别？

A：传统方法像接力赛一样层层传递信息，容易造成信息丢失和覆盖。ComprExIT则像智能图书管理员，直接从语言模型的不同层次中挑选最合适的信息，避免了层层传递过程中的信息损失，同时通过全局规划确保重要信息不被遗漏。

Q2：ComprExIT的压缩效果到底有多好？

A：在六个问答数据集的测试中，ComprExIT全面超越了现有的压缩方法，甚至能匹敌未压缩的原始模型性能。在某些信息检索任务上，它的表现甚至超过了未压缩的基准模型，同时只需要四分之一的计算资源。

Q3：这种技术什么时候能在实际产品中使用？

A：ComprExIT目前还是研究阶段的技术，主要在相对较小的模型上进行了验证。要应用到实际产品中，还需要在更大规模的模型和更长的文档上进行测试。不过，由于它只增加约1%的额外参数，技术成熟后部署成本会相对较低。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.