清华大学开发BEAVER：让大型语言模型瘦身提速的智能压缩新方法|算法|分页|电子表格

分享至

这项由清华大学、青海大学和蚂蚁集团联合进行的研究发表于2026年，有兴趣深入了解的读者可以通过论文编号arXiv:2603.19635v1查询完整论文。

随着人工智能技术的飞速发展，我们的聊天机器人和智能助手变得越来越聪明，能理解越来越长的对话和文档。不过，这种进步也带来了一个实际问题，就像你的手机储存空间不够用了一样，处理这些超长文本需要消耗大量的计算资源和时间。

研究团队注意到，现在的大型语言模型可以处理的文本长度已经从早期的几千个词扩展到了数百万个词，就像从阅读一篇短文扩展到阅读整本百科全书。这种能力让AI可以分析代码库、理解多个长文档，但同时也创造了两个主要挑战。

第一个挑战可以比作交通堵塞问题。当文本变得很长时，处理速度就会急剧下降，就像高峰期的高速公路一样拥堵。这是因为AI模型在处理文本时，每增加一个词，计算量就会成倍增长，导致用户等待时间过长。第二个挑战则像是在巨大的图书馆里找书，即使有更多的书籍可供查阅，但关键信息往往会被埋没在大量无关内容中，出现所谓的"迷失在中间"现象。

为了解决这些问题，研究团队开发了一种叫做BEAVER的全新方法。BEAVER这个名字很形象，就像勤劳的海狸精心修建水坝一样，这种方法能够智能地整理和压缩文本内容，保留最重要的信息，同时大幅提升处理速度。

一、BEAVER的核心创新：从逐字删除到分页整理

传统的文本压缩方法就像用橡皮擦逐个字母地擦除不重要的内容，这种做法容易破坏句子的完整性，让文本变得支离破碎，难以理解。BEAVER采用了一种全新的思路，把这个过程变成了整理图书馆的工作。

BEAVER首先将长文本分解成一个个完整的"页面"，就像把一本厚厚的百科全书整理成不同主题的章节。每个页面都保持内容的完整性，不会出现句子被硬生生切断的情况。然后，BEAVER会像一个经验丰富的图书管理员一样，根据用户的具体需求，智能地选择最相关的页面保留下来。

这种方法的巧妙之处在于，它不需要像传统方法那样进行额外的训练。就像一个天生就懂得整理的人，BEAVER利用文本本身的内在特征来判断重要性，这让它可以适用于各种不同类型的AI模型，而不需要针对每个模型进行专门调整。

BEAVER的工作流程可以分为三个主要步骤，就像一个高效的文档处理系统。首先是分页器，它负责将长文本按照自然的语言边界分割成规整的页面，确保每个页面都有完整的语义。然后是页面编码器，它像一个智能的内容分析师，为每个页面生成一个"指纹"，这个指纹包含了页面的核心信息特征。最后是查询规划器，它根据用户的具体问题或需求，决定哪些页面是最重要的，需要保留下来。

二、智能分页：保持内容完整性的关键技术

BEAVER的分页过程就像一个经验丰富的编辑在整理稿件。它不会随意在句子中间切断内容，而是寻找自然的分割点，比如段落结尾、章节标题或者其他语言标记。这种方法确保了每个页面都有完整的语义，读起来不会有突兀感。

分页器采用了一种称为"贪心分页策略"的方法，这就像在装行李箱时尽可能高效地利用空间。它会尽量将相关的内容放在同一个页面中，只有当内容确实太多时，才会开启新的页面。这种策略既保持了内容的逻辑连贯性，又确保了每个页面的大小适中，便于后续处理。

为了适应不同类型的文档，BEAVER能够识别各种文档结构标记，包括换行符、标题标记等。就像一个多语言的文档处理专家，它可以处理不同格式的文档，从学术论文到代码文件，都能进行合适的分页处理。

三、双路径编码：全面理解页面内容的智能方法

页面编码器是BEAVER的核心智能组件，它采用了一种独特的双路径分析方法。可以把这个过程想象成两个不同视角的观察者同时分析同一份文档。

第一个路径是加权平均池化，就像一个善于总结的读者，它会关注页面的整体语义，理解这个页面主要讲述了什么内容。它不仅仅是简单地计算平均值，还会考虑每个词语的重要性。那些在整个文档中频繁出现的常见词语（比如"的"、"是"、"在"等）会被降低权重，而那些相对罕见但可能很重要的专业术语或关键词会被给予更高的重视。

第二个路径是最大值池化，就像一个敏锐的侦探，它专门寻找页面中最突出、最有特色的信息片段。这些可能是罕见的关键词、重要的数字或者特殊的术语，它们往往承载着关键信息，虽然在整体内容中占比不大，但对理解核心内容至关重要。

为了确保分析的准确性，BEAVER引入了一种叫做"上下文反向词频"的技术。这种技术就像一个有经验的编辑，它知道哪些词语在特定上下文中更有价值。比如在讨论技术的文档中，"算法"这个词可能很常见，但在讨论烹饪的文档中出现"算法"，它就变得非常重要了。

最终，这两个路径的分析结果会被融合在一起，形成每个页面的综合"指纹"。这个指纹既包含了页面的整体语义信息，也保留了其中最重要的细节特征，为后续的智能选择提供了全面的信息基础。

四、混合查询规划：精准定位最相关内容的智能决策系统

查询规划器是BEAVER的决策大脑，它需要根据用户的具体需求，从所有页面中选出最有价值的内容。这个过程就像一个经验丰富的研究助理在帮你从图书馆的众多资料中挑选最相关的参考文献。

查询规划器采用了一种双重匹配策略。语义匹配就像理解文章的深层含义，它会分析用户问题的核心意图，然后寻找那些在概念上最相关的页面。比如，如果用户问的是关于"人工智能的发展趋势"，语义匹配会找到那些讨论AI技术演进、未来前景的页面，即使这些页面没有直接使用"发展趋势"这个词汇。

词汇匹配则更加直接，就像关键词搜索一样，它会寻找那些包含用户问题中具体词汇的页面。这种方法对于需要准确信息的查询特别有效，比如寻找特定的数据、公式或者代码片段。

为了确保选择的合理性，BEAVER还引入了三种结构性的选择策略。锚点页面就像书的目录和前言，通常包含文档的基本信息和概述，这些页面几乎总是会被保留。流页面则像连续剧的上下集，它们是用户问题附近的相关内容，保留这些页面有助于维持内容的连贯性。闪光页面则像精彩的高光时刻，它们是在所有剩余页面中评分最高、与用户问题最相关的内容。

这种混合策略的好处在于既确保了内容的相关性，又保持了逻辑的连贯性。就像一个好的故事既要有精彩的情节高潮，也要有合理的前后铺垫。

五、句子平滑：确保压缩内容的自然流畅

即使通过智能的页面选择得到了最相关的内容，BEAVER还有最后一个重要步骤：句子平滑。这个过程就像一个细心的编辑在最后整理文稿，确保所有内容读起来都自然流畅。

由于页面的边界可能会切断完整的句子，句子平滑技术会自动识别这些不完整的地方，然后向外扩展，直到找到完整的句子边界。这就像在剪裁布料时，不会在图案的中间切断，而是会调整到图案的自然边界。

这个过程还包括合并重叠的内容片段。如果两个被选中的页面在内容上有重复，系统会智能地将它们合并，避免信息的冗余。最终的结果是一段连贯、完整、高度相关的压缩文本，读起来就像原本就是这样写的，而不是后期拼接的结果。

六、实验验证：在多个权威测试中的出色表现

为了验证BEAVER的有效性，研究团队在四个不同类型的权威测试基准上进行了全面评估。这些测试就像给AI系统进行的全方位体检，每个测试都关注不同的能力。

在LongBench测试中，BEAVER表现得像一个全能的学霸。这个测试包括单文档问答、多文档问答、摘要生成、少样本学习等多种任务，就像一场综合性的期末考试。BEAVER在单文档问答任务中取得了40.7分的最高成绩，显著超过了其他方法。这意味着它能够从长文档中准确提取信息，回答用户的问题。

ZeroSCROLLS测试就像一场没有任何复习资料的突击考试，要求AI系统在完全没有针对性训练的情况下处理各种长文本任务。BEAVER在这个挑战中取得了32.0分的成绩，与需要大量训练的其他先进方法表现相当，这证明了它作为"免训练"方法的强大实力。

RULER测试可以说是最严格的考验，就像在一堆干草中寻找针的游戏。这个测试专门评估AI在超长文本中定位特定信息的能力，包括多针检索、变量跟踪等复杂任务。令人惊讶的是，BEAVER在这个测试中表现异常出色，平均得分83.7，几乎是第二名方法47.9分的两倍。在单针检索任务中，BEAVER达到了100%的完美准确率，这意味着它能够在长达128,000个词的文档中准确找到任何一个特定信息。

在处理效率方面，BEAVER的表现更是令人印象深刻。当处理包含128,000个词的超长文档时，BEAVER只需要1.2秒就能完成压缩，而传统的LongLLMLingua方法需要31.7秒，这相当于26.4倍的速度提升。这种效率提升就像从步行改为高速驾驶，对实际应用具有重大意义。

研究团队还进行了详细的组件分析，就像汽车厂商测试每个零部件的性能一样。结果显示，BEAVER的每个组件都发挥着重要作用。双路径编码策略的移除会导致约2.6分的性能下降，混合匹配策略的语义分支移除会导致6分的大幅下降，这些结果证实了设计的合理性。

七、跨模型适应性：一种真正通用的解决方案

BEAVER最令人印象深刻的特点之一是它的通用性。研究团队在不同规模的AI模型上测试了BEAVER，从小型的6亿参数模型到大型的320亿参数模型。结果显示，BEAVER在所有模型规模上都保持了稳定的性能，这就像一套服装能够完美适配不同身材的人。

特别值得注意的是，在最小的6亿参数模型上，BEAVER仍然保持了98%的性能，而其他需要训练的方法在小型模型上的表现急剧下降，只有30%左右的性能保持率。这种现象的原因在于，其他方法在大型模型上训练得到的"经验"无法很好地转移到小型模型上，就像为成年人设计的工具不适合儿童使用。

而BEAVER采用的策略则像一个经验丰富的通用工具，它直接从文本本身的特征中获取信息，不依赖特定模型的特性。这种设计使得BEAVER能够作为一个即插即用的解决方案，无论用户使用什么样的AI模型，都能获得一致的性能提升。

八、实际应用场景的深入分析

为了更好地展示BEAVER的实际价值，研究团队进行了多个真实应用场景的测试。在金融问答任务中，系统需要从包含大量干扰信息的定价文档中提取特定产品的价格信息。传统方法往往会被无关信息干扰，或者在压缩过程中破坏关键的数字信息。而BEAVER通过其智能的页面选择和句子平滑技术，能够准确保留价格表和相关规则，最终得出正确答案。

在政府报告摘要任务中，传统方法经常会因为过度压缩而丢失重要的程序性细节，比如"72小时规则"的具体执行条件和例外情况。BEAVER通过保持句子的完整性和逻辑连贯性，能够生成既简洁又完整的摘要，保留了所有关键的程序信息。

在代码理解任务中，传统压缩方法往往会破坏代码的语法结构，导致程序无法正常解析。BEAVER通过其结构感知的分页策略，能够保持函数定义的完整性和示例代码的可读性，让AI模型能够正确理解和执行代码逻辑。

这些实际应用测试不仅验证了BEAVER的技术优势，也展示了它在解决真实世界问题时的实用价值。无论是企业文档处理、学术研究还是软件开发，BEAVER都能提供可靠的性能改进。

九、技术创新的深层意义

BEAVER代表了文本压缩技术的一个重要转折点，从传统的"删除冗余"思维转向了"智能重组"的新范式。这种转变的意义不仅仅在于技术性能的提升，更在于它为AI系统的实际部署开辟了新的可能性。

传统的压缩方法需要针对每种应用场景进行专门训练，这就像需要为每种菜系培养专门的厨师。而BEAVER的免训练特性使得它像一个万能的烹饪工具，可以适应各种不同的需求，大大降低了应用的门槛和成本。

从计算资源的角度看，BEAVER的效率提升意味着同样的硬件资源可以支持更多的用户请求，或者处理更复杂的任务。这对于AI服务的普及和商业化具有重要意义，就像更高效的发动机让汽车变得更加经济实用。

从用户体验的角度看，显著的速度提升意味着更快的响应时间，这对于实时交互应用特别重要。用户不再需要等待很长时间才能得到AI的回复，这让AI助手变得更像真正的对话伙伴。

十、局限性与未来发展方向

尽管BEAVER表现出色，但研究团队也坦诚地指出了它的一些局限性。首先，页面级的压缩粒度虽然保持了内容的完整性，但在某些情况下可能不如词级压缩那样精确。这就像用大刀切菜虽然效率高，但精细度可能不如小刀。

其次，BEAVER的检索机制主要依赖语义相似性和词汇匹配，这对于需要复杂推理链的任务可能存在挑战。比如需要多步推理才能得出答案的问题，如果支持证据与问题在表面上关联不够明显，BEAVER可能会错过一些重要信息。

另外，作为一个免训练的方法，BEAVER依赖预设的参数配置，这些参数可能需要根据不同的应用场景进行手动调整，而不像端到端训练的方法那样可以自动适应。

展望未来，研究团队认为有几个重要的发展方向。首先是开发更加智能的推理链识别技术，让BEAVER能够更好地处理需要多步推理的复杂问题。其次是引入自适应参数调整机制，让系统能够根据不同的任务类型自动优化参数设置。

此外，随着AI模型向多模态发展，BEAVER也有可能扩展到处理图像、音频等多种类型的内容，成为一个更加通用的信息压缩工具。这些发展将进一步扩大BEAVER的应用范围和实用价值。

说到底，BEAVER的出现为我们解决了一个实际而重要的问题：如何让AI系统既能处理复杂的长文档，又能保持高效的运行速度。这项研究不仅在技术上取得了突破，更为AI技术的实际应用扫清了重要障碍。

对于普通用户而言，BEAVER意味着更快的AI响应速度和更准确的信息处理能力。对于企业和开发者来说，它提供了一个即插即用的解决方案，可以显著提升现有AI系统的性能和效率。对于整个AI行业来说，BEAVER展示了一种全新的技术路径，证明了巧妙的工程设计有时比复杂的算法训练更加有效。

这项研究提醒我们，技术进步不一定总是需要更大的模型或更多的数据，有时候一个聪明的想法和精心的设计就足以带来革命性的改变。正如海狸通过巧妙的工程技能建造坚固的水坝，BEAVER通过智能的文本处理技术为AI系统构建了更加高效的信息处理能力。

Q&A

Q1：BEAVER文本压缩技术具体是如何工作的？

A：BEAVER采用分页整理的方式工作，就像整理图书馆一样。它首先将长文档按自然语言边界分割成完整页面，然后用双路径编码分析每页内容的重要特征，最后根据用户问题智能选择最相关的页面。整个过程保持内容完整性，避免了传统方法逐字删除造成的语义破坏，同时实现了26.4倍的处理速度提升。

Q2：BEAVER与其他文本压缩方法相比有什么优势？

A：BEAVER最大的优势是免训练和结构感知。传统方法需要针对每个AI模型进行专门训练，而BEAVER可以直接应用于不同模型。它采用页面级压缩而非词级删除，保持了内容的语义完整性，在RULER基准测试中达到83.7分，几乎是其他方法的两倍。同时它具有更好的跨模型适应性，在小型模型上仍能保持98%性能。

Q3：BEAVER技术在实际应用中有什么局限性？

A：BEAVER主要有三个局限性。首先，页面级粒度虽然保持完整性但精确度不如词级压缩；其次，对于需要复杂多步推理的任务，如果支持证据与问题表面关联不明显可能会遗漏重要信息；最后，作为免训练方法需要手动调整参数，不能像端到端训练方法那样自动适应不同场景。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.