网易首页 > 网易号 > 正文 申请入驻

美团创新LoZA稀疏注意力,解码效率提升90%!

0
分享至

智猩猩AI整理

编辑:卜圆

现代大语言模型普遍依赖全注意力机制(Full Attention),其计算复杂度随上下文长度呈平方级增长,难以支撑检索增强生成、工具集成推理等长上下文应用场景。研究者积极探索稀疏注意力(Sparse Attention)作为替代方案,通过仅保留部分键值对显著降低计算开销。近期工作表明,在中期训练阶段将全注意力模块替换为稀疏版本,已成为一种有效且实用的优化路径,为构建高效长上下文模型奠定了基础。

为此,美团提出一种新稀疏注意力机制LongCat ZigZag Attention(LoZA),旨在以极低的计算开销,将任意现有的全注意力模型转换为稀疏版本。在长上下文场景中,LoZA 在预填充密集型任务(如检索增强生成)和解码密集型任务(如工具集成推理)中均能显著加速,可应用于各类全注意力语言模型。

具体而言,通过在中期训练阶段引入 LoZA,研究团队将 LongCat-Flash 升级为 LongCat-Flash-Exp,其能快速处理高达 100 万 tokens 长上下文,显著提升了长期推理与长周期智能体任务的效率。



  • 论文标题:
    Efficient Context Scaling with LongCat ZigZag Attention

  • 论文链接:

    https://arxiv.org/pdf/2512.23966

01

方法

(1)LongCat ZigZag Attention机制


图1 LoZA示意图

如图1所示,LoZA 首先识别出在稀疏化后对性能影响较小的层;其次,对这些可进一步训练的层进行稀疏化 ,以弥合性能差距。理论上,一个经过中期训练(mid-trained)的语言模型会依次经历稀疏化 → 权重回退(rewind)→ 再次中期训练的过程,以最大程度地恢复原始全注意力模型的性能,即校准(calibration)始于中期训练的末尾,而稀疏结构下的训练则始于中期训练的起始阶段。

  • 校准

在 DeepSeek-V3 和 LongCat-Flash 等大语言模型中,已采用了 MLA(Multi-head Latent Attention)机制。LoZA 假设模型中共包含n个 MLA 模块,并为每个模块引入一个独立的可学习权重 αi∈[0,1],用于调节其注意力输出。具体而言,第 i 个 MLA 的最终输出由下式给出:

其中 ,和 分别表示第个 MLA 使用全注意力和稀疏注意力所产生的输出。此处的稀疏注意力遵循流式稀疏模式,即每个查询 token 仅关注若干个“汇点块”(sink blocks)和局部块(local blocks)。

随后,在校准数据上进行一轮训练,此过程中冻结中期训练语言模型(mid-trained LM)中的所有参数,仅优化所有αi。其大小用于表征对应 MLA 模块的重要性。值得注意的是,对αi值最低的部分 MLA 进行稀疏化后,语言模型的整体性能仍能基本保持。

基于校准阶段的观察,LoZA 将中期训练模型中αi最低的 50% 的 MLA 模块由全注意力替换为流式稀疏注意力(SSA),其输出形式为:

其中, K∗ 和 V∗ 是经过选择并分块的键(keys)与值(values),具体由以下参数定义:汇点块数量s 、局部块数量l,以及块大小 b。

  • 训练

尽管稀疏化后的语言模型已展现出较强的性能,但为弥补稀疏化操作(尤其是在长上下文场景中)可能引入的性能损失,仍需进行额外的训练以充分恢复模型能力。鉴于中期训练仅涉及数千亿量级的 token 消耗,相较于完整的预训练流程,其计算开销在有限资源条件下是相对可控且可接受的,研究者将该训练阶段整合至中期训练(mid-training)过程中。

(2)LongCat‑Flash‑Exp训练过程

该训练过程涵盖中期训练(仅包含长上下文扩展阶段)以及后续的后训练(post-training),最终得到 LongCat-Flash-Exp 模型。

  • 中期训练

中期训练沿用LongCat-Flash的数据分布与训练策略,采用渐进式上下文扩展:依次在 32K、128K 和 256K token 长度上进行训练,并借助YaRN实现对1M token 上下文的外推能力。

  • 后训练

为加速验证并控制计算成本,后训练采用轻量级方案,仅使用 LongCat-Flash 原始后训练数据量的 50%,但经过精心筛选以覆盖指令遵循、数学、代码、智能体任务和通用知识等关键领域。该阶段首先进行监督微调(SFT),随后结合直接偏好优化(DPO)与强化微调(RFT)进行人类偏好对齐。

整个架构集成了 LoZA稀疏注意力机制,其关键配置包括:块大小b=128,汇点块数s=1,局部块数 l=7 ,形成总计 1,024 token的稀疏注意力窗口。这一设计在保障长上下文建模能力的同时,大幅提升了计算效率。

02

评估

表2 LongCat-Flash-Exp-Base 的有效性


如表2所示,LoZA 并未导致性能下降。具体而言,在引入稀疏性并完成中期训练后,LongCat-Flash-Exp-Base 的性能仍与 LongCat-Flash-Base 相当。

表3 LongCat‑Flash‑Exp‑Chat的有效性


如表3所示,LoZA 并未以牺牲质量为代价换取速度。在相关基准测试中,LongCat-Flash-Exp-Chat 表现出与 LongCat-Flash-Chat 相当的竞争力。具体而言,LongCat-Flash-Exp 在长上下文基准测试中表现甚至优于 LongCat-Flash-Chat,这主要得益于其对更长上下文长度的支持。在对话模式下,LongCat-Flash-Exp-Chat 的表现也与其他主流模型(如 GLM-4.6)处于同一水平。


图2 LoZA 的效率

此外,对 LongCat-Flash-Exp-Chat 与同样支持 1M 上下文的 Qwen-3 进行了不同上下文长度下的细粒度对比评测。如图2所示,LongCat-Flash-Exp-Chat 在部分上下文长度上明显优于 Qwen-3,并且在整体曲线下面积(AUC)指标上超越 Qwen-3。这一结果表明,LoZA 结合 YaRN 能够高效支撑 1M 级别的上下文扩展,在保持甚至提升性能的同时实现高计算效率。


图3 LongCat-Flash-Exp-Chat 在 MRCR 任务上针对不同上下文长度的有效性

如图 3 所示,在 128K 上下文长度下,流式稀疏注意力核在解码阶段的计算开销相比全注意力核最高可降低 90%。此外,在端到端基准测试中,LongCat-Flash-Exp 在 256K 上下文长度下实现了 超过 50% 的 prefill 阶段加速,并在解码阶段 节省了逾 30% 的计算开销,充分彰显了其在真实推理场景中的高效性与实用性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《秋雪漫过的冬天》首播,赵又廷张子枫主演,不如原版韩剧好看

《秋雪漫过的冬天》首播,赵又廷张子枫主演,不如原版韩剧好看

马庆云的影音娱
2026-01-10 15:26:57
很多大厂开始辞退组内的印度人!

很多大厂开始辞退组内的印度人!

黯泉
2026-01-10 22:50:19
日本人的祖先究竟是谁?美国教授拿出DNA,日本人懵了

日本人的祖先究竟是谁?美国教授拿出DNA,日本人懵了

马探解说体育
2026-01-09 18:22:53
大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

黄家湖的忧伤
2025-08-12 17:05:12
章泽天回国策划播客节目,她素颜开会很有气质,她换了新发色很美

章泽天回国策划播客节目,她素颜开会很有气质,她换了新发色很美

秋之洁
2026-01-10 09:16:55
第94分钟绝平!法布雷加斯神换人,替补神兵救主,3连胜终结

第94分钟绝平!法布雷加斯神换人,替补神兵救主,3连胜终结

足球狗说
2026-01-11 00:02:45
绝不让高安国和蔡正元含冤,大陆终于出手了,请大家记住这张鬼脸

绝不让高安国和蔡正元含冤,大陆终于出手了,请大家记住这张鬼脸

影孖看世界
2026-01-10 18:50:04
超20万颗!中国新增多个星座计划申请 全球太空资源竞争趋于白热化

超20万颗!中国新增多个星座计划申请 全球太空资源竞争趋于白热化

财联社
2026-01-10 18:06:08
洗碗机大反转!砸家男越看越冤,知情人曝更多,难怪丈夫会崩溃

洗碗机大反转!砸家男越看越冤,知情人曝更多,难怪丈夫会崩溃

八斗小先生
2026-01-10 15:30:07
商业航天+核聚变!5家硬核隐形冠军全解析,抢占双万亿赛道风口

商业航天+核聚变!5家硬核隐形冠军全解析,抢占双万亿赛道风口

Thurman在昆明
2026-01-10 09:35:46
外卖员送餐发现是自己地址,接下单:我倒要看看谁在我家!

外卖员送餐发现是自己地址,接下单:我倒要看看谁在我家!

晓艾故事汇
2025-07-14 17:13:00
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
供电局提醒:7种电器不用就拔插头,不然电费翻倍还危险

供电局提醒:7种电器不用就拔插头,不然电费翻倍还危险

叮当当科技
2026-01-03 11:07:42
柬埔寨至今都不敢相信,一场战争打掉了自己50年的国运

柬埔寨至今都不敢相信,一场战争打掉了自己50年的国运

农夫史记
2026-01-10 21:17:19
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
关晓彤没给鹿晗留一丝体面

关晓彤没给鹿晗留一丝体面

小椰的奶奶
2026-01-11 01:17:06
香港大埔五级火|黄伟纶:原址重建住宅不切实际,拟改建为社区设施

香港大埔五级火|黄伟纶:原址重建住宅不切实际,拟改建为社区设施

星岛记事
2026-01-10 11:32:27
阿娇的瓜又炸了,聊天记录曝光,颠覆想象

阿娇的瓜又炸了,聊天记录曝光,颠覆想象

听风听你
2024-12-25 22:41:20
切尔西血亏!400万甩卖的天才,如今估值超6000万, 枪手曼城疯抢

切尔西血亏!400万甩卖的天才,如今估值超6000万, 枪手曼城疯抢

澜归序
2026-01-11 02:24:33
数学家陶哲轩直言:大语言模型和其他现代AI的数学门槛没那么高,却有个“致命短板”至今无解

数学家陶哲轩直言:大语言模型和其他现代AI的数学门槛没那么高,却有个“致命短板”至今无解

人工智能学家
2026-01-10 18:38:44
2026-01-11 04:16:49
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
241文章数 6238关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

家居
旅游
数码
艺术
军事航空

家居要闻

木色留白 演绎现代自由

旅游要闻

12.7亿元营收、15倍增长背后:谁在操盘万岁山武侠城?顶流景区直面“长红”之困|主题乐园资本论

数码要闻

熊猫主题圈粉老外,长虹AI家电亮相CES,东方元素成顶流

艺术要闻

601米,150亿美元!沙特目前第一高楼是它!

军事要闻

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

无障碍浏览 进入关怀版