网易首页 > 网易号 > 正文 申请入驻

美团龙猫技术升级!新注意力机制速度快10倍,还能处理1M超长文本

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

256K文本预加载提速超50%,还解锁了1M上下文窗口。

美团龙猫LongCat系列新年出招,发布全新稀疏注意力机制LoZA(LongCat ZigZag Attention)

新技术集中火力,重点解决长文本任务的理解、算力难题。



相比于LongCat系列之前的全注意力MLA机制,LoZA只改了一半的核心模块。

但模型长文本能力从256K扩展到1M,解码速度还快了不少。

甚至比同类型的Qwen-3模型表现还要好。

接下来看具体方案。

如何做到 “只算关键部分” ?

全注意力机制的算力瓶颈在于平方级的计算复杂度O (L²),这导致模型在处理长文本任务时对显卡要求高,还会出现推理延迟问题。

LoZA的核心思路是专注于处理重要的内容,不重要的部分少花力气。



作为LongCat系列的核心技术升级,LoZA主要是在原来的MLA机制上做改造。

具体分两步。

首先,给模型里的多头潜在注意力模块MLA做一个全局“筛查”,找出哪些模块可以被改造。

在原来的MLA架构中,每个MLA模块都是处理注意力的核心单元,现在的新方案是给每个模块配一个可学习权重α。

α值越高,说明该模块额全注意力计算越关键,一旦简化就容易丢性能;α值越低就意味着模块的可替代性强,即便换成更轻量的计算方式,对整体的理解能力影响也不大。

在训练过程中,团队冻结模型其他参数,只更新α的梯度,通过这种专门的校准训练让模型自主学习α值,然后按α值从小到大排序,找出那些稀疏化后不影响性能的MLA模块,也就是后续的优化目标。

随后,将找出的50%低性能模块换成更轻巧的流式稀疏注意力SSA

这样就形成了一种交错结构,团队将这种结构称为ZigZag

SSA的计算复杂度是线性的O (L·S)(S为稀疏窗口大小,固定为1024Token),远低于全注意力的O (L²)。

所以这种交错结构让模型既不会因为过度简化而变笨,又能把计算复杂度降到线性级别,省不少算力。



为了让模型在关注局部细节的基础上不忽略整体逻辑,LoZA还设计了一个1024Token稀疏窗口

每个窗口里有1个负责抓整体关联的“全局块”和7个负责盯附近内容的“局部块”,单块大小为128Token。

这样的改造也不需要从头训练,在中期训练阶段就能完成,成本也比较低。

从测试数据来看,LoZA的表现也不错,主要是“更快”的同时“没变笨”

速度上,要是处理128K上下文,解码速度直接比原来快10倍;

256K上下文,模型预加载(读文本过程)速度快了50%,后续解码阶段生成内容时还能省30%的算力,相当于同样的硬件,现在能同时处理两倍多的长文本任务。

这也让LongCat-Flash-Exp解锁了1M上下文窗口。



性能上,LoZA也没因为简化而缩水。

处理回答问题、写代码这类日常任务时,和原版LongCat-Flash持平;处理长文本任务时,表现反而更好。



比如在MRCR测试里,反超了同样能处理1M长文本的Qwen-3模型,还更稳定。



接下来,团队还计划让LoZA支持动态稀疏比例

短文本场景自动多用全注意力保证精度,长文本场景自动增加稀疏模块提升效率,甚至适配多模态模型处理长视频、长图文内容。

好一个新年新气象!

论文地址:https://www.alphaxiv.org/abs/2512.23966

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普京坐不住了?五常仅中国未入场,美媒惊曝:中国正抄底俄罗斯?

普京坐不住了?五常仅中国未入场,美媒惊曝:中国正抄底俄罗斯?

顾史
2026-01-22 20:53:13
武林高手赵金彪:一拳击中杜心五,次日就身亡了,不知何时被点穴

武林高手赵金彪:一拳击中杜心五,次日就身亡了,不知何时被点穴

史之铭
2026-01-22 06:28:42
高盛,摩根哭了,刚买股价2元的龙头,结果4连板跌停,太惨了

高盛,摩根哭了,刚买股价2元的龙头,结果4连板跌停,太惨了

鹏哥投研
2026-01-23 09:58:49
一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

凡知
2026-01-21 17:14:40
2026年1月23日,全国各大银行最新存款利率

2026年1月23日,全国各大银行最新存款利率

星辰宇的不羁
2026-01-23 12:32:17
泽连斯基:欧盟软弱,乌克兰能保护格陵兰岛

泽连斯基:欧盟软弱,乌克兰能保护格陵兰岛

新京报政事儿
2026-01-23 07:20:26
大范围雨雪确定再来,南方又要下雪了!权威:分两波河南还是重点

大范围雨雪确定再来,南方又要下雪了!权威:分两波河南还是重点

中国气象爱好者
2026-01-23 15:47:19
A股:做好心理预期,下周一,股市或将迎来大级别的变化?

A股:做好心理预期,下周一,股市或将迎来大级别的变化?

财经大拿
2026-01-23 11:33:11
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

梦录的西方史话
2025-12-31 13:44:44
迪丽热巴的胆子真大

迪丽热巴的胆子真大

微微热评
2026-01-22 22:05:51
韩媒:若韩国U23输给越南将是“大灾难”,球队需保住最后尊严

韩媒:若韩国U23输给越南将是“大灾难”,球队需保住最后尊严

懂球帝
2026-01-23 11:24:38
23点00分,U23亚洲杯决赛:中国队vs日本队,中国夺冠概率预测!

23点00分,U23亚洲杯决赛:中国队vs日本队,中国夺冠概率预测!

林子说事
2026-01-23 11:19:56
洗米华大女儿硕士毕业,一家人拍毕业照,洗米嫂戴钻戒出镜

洗米华大女儿硕士毕业,一家人拍毕业照,洗米嫂戴钻戒出镜

素素娱乐
2026-01-23 11:07:53
江苏这笔钱将调整!

江苏这笔钱将调整!

句容日报
2026-01-23 08:35:00
17+11+14!背靠背三双,让约基奇打替补的中锋,勇士不考虑一下?

17+11+14!背靠背三双,让约基奇打替补的中锋,勇士不考虑一下?

弄月公子
2026-01-23 13:46:42
天助C罗:1-2,本泽马破门难救主,C罗争冠劲敌2连败,落后胜利队10分

天助C罗:1-2,本泽马破门难救主,C罗争冠劲敌2连败,落后胜利队10分

侧身凌空斩
2026-01-23 03:57:15
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
勇士这群配角是真不稳定!仅梅尔顿能依靠,库明加还受伤,太难了

勇士这群配角是真不稳定!仅梅尔顿能依靠,库明加还受伤,太难了

篮球资讯达人
2026-01-23 16:04:56
CBA积分榜最新排名!前3很稳,北京冲进前4,山东第8,辽宁第10

CBA积分榜最新排名!前3很稳,北京冲进前4,山东第8,辽宁第10

老吴说体育
2026-01-23 00:26:05
怎么看懂一只股票已经见顶可以卖了?4 个信号帮你逃顶

怎么看懂一只股票已经见顶可以卖了?4 个信号帮你逃顶

小白鸽财经
2025-12-13 07:05:03
2026-01-23 16:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12052文章数 176363关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

教育
时尚
健康
亲子
军事航空

教育要闻

多地中小学取消非毕业年级“期末统考”

告别臃肿!这种简约的高级穿法,别拒绝

打工人年终总结!健康通关=赢麻了

亲子要闻

幼儿园孩子该不该提前学习小学知识?小学老师两张表格给出答案!

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版