美团创新LoZA稀疏注意力，解码效率提升90%！|推理|上下文|有效性|loza|知名企业|正式版模型

美团创新LoZA稀疏注意力，解码效率提升90%！

2026-01-09 16:35:52　来源: 我不叫阿哏

广东举报

分享至

智猩猩AI整理

编辑：卜圆

现代大语言模型普遍依赖全注意力机制（Full Attention），其计算复杂度随上下文长度呈平方级增长，难以支撑检索增强生成、工具集成推理等长上下文应用场景。研究者积极探索稀疏注意力（Sparse Attention）作为替代方案，通过仅保留部分键值对显著降低计算开销。近期工作表明，在中期训练阶段将全注意力模块替换为稀疏版本，已成为一种有效且实用的优化路径，为构建高效长上下文模型奠定了基础。

为此，美团提出一种新稀疏注意力机制LongCat ZigZag Attention（LoZA），旨在以极低的计算开销，将任意现有的全注意力模型转换为稀疏版本。在长上下文场景中，LoZA 在预填充密集型任务（如检索增强生成）和解码密集型任务（如工具集成推理）中均能显著加速,可应用于各类全注意力语言模型。

具体而言，通过在中期训练阶段引入 LoZA，研究团队将 LongCat-Flash 升级为 LongCat-Flash-Exp,其能快速处理高达 100 万 tokens 长上下文，显著提升了长期推理与长周期智能体任务的效率。

论文标题：
Efficient Context Scaling with LongCat ZigZag Attention
论文链接：
https://arxiv.org/pdf/2512.23966

方法

（1）LongCat ZigZag Attention机制

图1 LoZA示意图

如图1所示，LoZA 首先识别出在稀疏化后对性能影响较小的层；其次，对这些可进一步训练的层进行稀疏化，以弥合性能差距。理论上，一个经过中期训练（mid-trained）的语言模型会依次经历稀疏化 → 权重回退（rewind）→ 再次中期训练的过程，以最大程度地恢复原始全注意力模型的性能，即校准（calibration）始于中期训练的末尾，而稀疏结构下的训练则始于中期训练的起始阶段。

校准

在 DeepSeek-V3 和 LongCat-Flash 等大语言模型中，已采用了 MLA（Multi-head Latent Attention）机制。LoZA 假设模型中共包含n个 MLA 模块，并为每个模块引入一个独立的可学习权重 αi∈[0,1]，用于调节其注意力输出。具体而言，第 i 个 MLA 的最终输出由下式给出：

其中，和分别表示第个 MLA 使用全注意力和稀疏注意力所产生的输出。此处的稀疏注意力遵循流式稀疏模式，即每个查询 token 仅关注若干个“汇点块”（sink blocks）和局部块（local blocks）。

随后，在校准数据上进行一轮训练，此过程中冻结中期训练语言模型（mid-trained LM）中的所有参数，仅优化所有αi。其大小用于表征对应 MLA 模块的重要性。值得注意的是，对αi值最低的部分 MLA 进行稀疏化后，语言模型的整体性能仍能基本保持。

基于校准阶段的观察，LoZA 将中期训练模型中αi最低的 50% 的 MLA 模块由全注意力替换为流式稀疏注意力（SSA），其输出形式为：

其中， K∗ 和 V∗ 是经过选择并分块的键（keys）与值（values），具体由以下参数定义：汇点块数量s 、局部块数量l，以及块大小 b。

训练

尽管稀疏化后的语言模型已展现出较强的性能，但为弥补稀疏化操作（尤其是在长上下文场景中）可能引入的性能损失，仍需进行额外的训练以充分恢复模型能力。鉴于中期训练仅涉及数千亿量级的 token 消耗，相较于完整的预训练流程，其计算开销在有限资源条件下是相对可控且可接受的，研究者将该训练阶段整合至中期训练（mid-training）过程中。

（2）LongCat‑Flash‑Exp训练过程

该训练过程涵盖中期训练（仅包含长上下文扩展阶段）以及后续的后训练（post-training），最终得到 LongCat-Flash-Exp 模型。

中期训练

中期训练沿用LongCat-Flash的数据分布与训练策略，采用渐进式上下文扩展：依次在 32K、128K 和 256K token 长度上进行训练，并借助YaRN实现对1M token 上下文的外推能力。

后训练

为加速验证并控制计算成本，后训练采用轻量级方案，仅使用 LongCat-Flash 原始后训练数据量的 50%，但经过精心筛选以覆盖指令遵循、数学、代码、智能体任务和通用知识等关键领域。该阶段首先进行监督微调（SFT），随后结合直接偏好优化（DPO）与强化微调（RFT）进行人类偏好对齐。

整个架构集成了 LoZA稀疏注意力机制，其关键配置包括：块大小b=128，汇点块数s=1，局部块数 l=7 ，形成总计 1,024 token的稀疏注意力窗口。这一设计在保障长上下文建模能力的同时，大幅提升了计算效率。

评估

表2 LongCat-Flash-Exp-Base 的有效性

如表2所示，LoZA 并未导致性能下降。具体而言，在引入稀疏性并完成中期训练后，LongCat-Flash-Exp-Base 的性能仍与 LongCat-Flash-Base 相当。

表3 LongCat‑Flash‑Exp‑Chat的有效性

如表3所示，LoZA 并未以牺牲质量为代价换取速度。在相关基准测试中，LongCat-Flash-Exp-Chat 表现出与 LongCat-Flash-Chat 相当的竞争力。具体而言，LongCat-Flash-Exp 在长上下文基准测试中表现甚至优于 LongCat-Flash-Chat，这主要得益于其对更长上下文长度的支持。在对话模式下，LongCat-Flash-Exp-Chat 的表现也与其他主流模型（如 GLM-4.6）处于同一水平。

图2 LoZA 的效率

此外，对 LongCat-Flash-Exp-Chat 与同样支持 1M 上下文的 Qwen-3 进行了不同上下文长度下的细粒度对比评测。如图2所示，LongCat-Flash-Exp-Chat 在部分上下文长度上明显优于 Qwen-3，并且在整体曲线下面积（AUC）指标上超越 Qwen-3。这一结果表明，LoZA 结合 YaRN 能够高效支撑 1M 级别的上下文扩展，在保持甚至提升性能的同时实现高计算效率。

图3 LongCat-Flash-Exp-Chat 在 MRCR 任务上针对不同上下文长度的有效性

如图 3 所示，在 128K 上下文长度下，流式稀疏注意力核在解码阶段的计算开销相比全注意力核最高可降低 90%。此外，在端到端基准测试中，LongCat-Flash-Exp 在 256K 上下文长度下实现了超过 50% 的 prefill 阶段加速，并在解码阶段节省了逾 30% 的计算开销，充分彰显了其在真实推理场景中的高效性与实用性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.