网易首页 > 网易号 > 正文 申请入驻

仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心发布

为什么大模型厂商给了 128K 的上下文窗口,却在计费上让长文本显著更贵?

为什么 Claude 能 “吞下整本书”,但官方示例往往只展示几千字的文档?

为什么所有大模型厂商都在卷 “更长上下文”,而真正做落地的产品经理却天天琢磨 “怎么把用户输入变短”?

这些看似矛盾的现象,其实答案藏在一个长期被技术光环遮掩的真相里:

长序列,正在成为大模型应用里最昂贵的奢侈品。

在当前主流的 Full Attention 机制下,计算开销会随着输入长度平方增长,序列一长,处理就变得 “又贵又慢”(见图 1)。针对这一核心难题,阿里 RTP-LLM 团队提出了一种全新的后训练压缩方案:RTPurbo。在不损失模型效果的前提下,实现了 Attention 计算 5 倍压缩(见图 2)。


左图 1:长序列 Attention 计算成本瓶颈;右图 2:RTPurbo 极大降低 Attention 计算开销

总的来说, RTPurbo 采用了一种非侵入式的压缩方法:通过分辨 LLM 内部的长程 Attention Head,仅保留关键 Head 的全局信息,对于剩下冗余的 Head 直接丢弃远程 Tokens。这种 Headwise 级别的混合算法以其简洁的方案设计和优越的算子兼容性,极大地降低了大模型在长序列下的推理代价,为新一代 LLM 结构设计提供了一个新的视角和演进方向。

目前,项目模型与推理代码已经发布至 Huggingface、ModelScope 平台,感兴趣的读者可以阅读 RTP-LLM 相应的技术 blog 了解更多细节。

https://huggingface.co/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo

https://modelscope.cn/models/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo


图 3:RTPurbo 采用混合压缩方案,仅有少数 Attention Head 使用全量 Attention)

化繁为简,被低估的 SWA

针对 Attention 压缩,目前业界的主流方案大致可以分为两种:Linear Attention 和 Sparse Attention。其中 Linear Attention 以 Qwen-Next 和 Kimi-K2 为代表,本质上是通过改进后的 Linear Attention 来实现信息压缩,使得存储代价压缩到



;而 Sparse Attention 则主要通过稀疏化来优化计算开销,实践中往往能够达到接近 90% 以上的稀疏度,这也是在 DeepSeek-V3.2 中被正式采用的技术路线。

,计算代价压缩到

但在真实落地中,这两条路线都有较明显的共性代价:一方面,它们通常强依赖大量后训练,工程实现与适配成本也更高;另一方面,Linear Attention 在压缩信息后,长序列下的召回能力显著弱于 Full Attention [1],因此往往需要与 Full Attention 混合使用,带来性能与加速收益的双重上限。此外,Linear / Sparse Attention 的算子与调度设计相对复杂,也进一步影响其在工程生态中的通用性、可维护性与一致性。也正因如此,一些前期工作 [2] 反而把目光投向看似 “简单粗暴” 的 Sliding Window Attention(SWA),例如 gpt-oss 和 MiMo ,这在一定程度上说明 SWA 并非 “权宜之计”,而是一种可规模化复用的工程选择。

在进一步分析现有 LLM 的注意力模式后,团队观察到一个更细粒度的关键现象:绝大多数 Attention Head 天然更偏好局部信息,只有极少数 “长程头” 能在长文本中稳定地定位并召回关键关联信息。基于这一现象,团队提出了一个关键假设:

类似人类的阅读与写作过程,LLM 在处理长文本时,往往会先从长上下文中 “召回” 相关信息,再在相对局部的上下文范围内完成推理并输出答案。

换句话说,模型内部可能只有少量 Attention Head 真正在承担 “信息召回” 的职责:它们通过注意力机制把远距离信息搬运到当前的 Residual Stream(信息通道)中,让后续层可以在更局部、更高信噪比的状态下完成推理。这也直接意味着:对于那些并不承担长程依赖的 Attention Head,其实并不需要使用 Full Attention—— 长序列场景存在可观的压缩空间。

为了验证这一假设,团队设计了一个直观的对比试验:

方案一:只有 15% 的长程头使用 Full Attention,剩余 85% 使用 SWA;

方案二:15% 的长程头使用 SWA,剩余 85% 使用 Full Attention。

如表 1 所示,尽管方案二保留了 85% 的 KV cache,但是其长文能力仍然显著劣于方案一。


表 1:方案一只用 15% 的 Full Attention,长文效果显著优于方案二

进一步地,在不做任何微调的情况下,方案一在长文本指标上也非常有竞争力(表 2),几乎无损:


表 2:方案一不经过训练,在 Ruler 上无损

不过,在某些特定的长文任务上,未经微调的压缩模型仍会出现明显的性能退化(见表 3)。其根源在于:压缩前后注意力模式的直接切换会对模型输出造成一定扰动,需要额外训练来 “消化” 这种变化。


表 3:方案一在特殊 benchmark 上仍然存在显著负向

因此,为实现更接近 “无损” 的压缩,团队进一步提出了一个面向 RL 后模型的压缩训练范式:在不依赖高质量标注数据的前提下,仅通过轻量级微调,就能显著提升压缩后模型在长文任务上的表现。

自蒸馏,从根本上解决数据问题

当前主流 LLM 通常采用 “预训练 + 后训练 + RL” 的训练范式,如果直接使用长文 SFT / 预训练语料进行续训,会带来两方面挑战:

RL 后模型在经过 SFT 会出现过拟合甚至灾难性遗忘,损伤短文本任务上的原有能力(见表 4);

高质量的长文本语料难以获取。


表 4:Qwen3-30B-A3B-Instruct RL 后模型继续 SFT 会过拟合,造成灾难性遗忘

为解决这两点,RTPurbo 使用 “模型自蒸馏” 作为关键训练策略:让压缩后的模型对齐原模型输出,从而同时化解数据与能力保留问题:

仅对模型自身的输出进行对齐,避免依赖特定领域的问答数据,从而确保短文本下游指标基本无损;

只需使用长文本预训练语料即可完成训练,使模型快速适应 headwise 稀疏的工作模式。

实测中,仅使用约 1 万条 32k 长度的预训练语料(训练时间小时级),RTPurbo 就能让长文任务表现与原模型持平。

结果对比

在长文本测试场景下,RTPurbo 仅保留约 15% 的 Attention Heads 使用 Full KV cache,压缩后的 Qwen-Coder-Plus、Qwen3-30B-A3B-Instruct 在多项长文指标上可与未压缩模型齐平,充分验证了压缩后模型的精度保障。


更重要的是,这种压缩并非以牺牲通用能力为代价。在多项短文本(通用)Benchmark 上,采用自蒸馏范式训练后的模型并未出现性能衰减,原有对话、推理和代码理解等能力都得到了良好保留。


这表明,RTPurbo 不仅是一种单一模型的 “特定优化技巧”,而是一套具有良好可迁移性和通用性的长序列加速方案,可为更大规模、更多架构的 LLM 提供高性价比的推理加速路径。

从大模型可解释性到 LLM 压缩

早期可解释性工作 [3] 已指出:模型内部存在很强的 “召回” 机制,一部分特定 Attention Head 能稳定定位前文相关信息。团队成员的前期工作 [2] 也观察到这些 Head 在长文场景仍保持类似行为。

与此同时,在 [4] 中,作者指出 Softmax 本身在长序列存在熵增的问题。更具体的,随着序列变长,每个 Token 的注意力不可避免的变得更加弥散(信噪比降低),如下图所示:


图 4:Attention 在长序列下存在信噪比下降的问题

因此,为了避免远程信息干扰模型本身的推理能力,LLM 内部实现了一种非常巧妙的机制:

  • 多数 Head 只处理局部信息,以获得更高信噪比;

  • 少数 Head 负责从远处 “召回” 关键信息并搬运到当前位置,使后续层能在局部范围内完成推理。

这与 RTPurbo 的 headwise 设计高度一致:把 “全局召回” 能力集中保留给少量关键 Head,其余 Head 则用工程收益更稳定的 SWA 来承载。

RTP-LLM:RTPurbo 在长文上的极致性能优化


图 5:RTPurbo HeadWise Attention 性能加速结果,图上结果仅使用 15% 的 Full Attention

RTPurbo 按固定比例划分 SWA Head 与 Full Head 虽然直观有效,但工程上必须解决一个问题:不同 Head 计算模式与计算量不一致,会导致负载不均衡,影响 GPU 并行效率与端到端吞吐。

为此,RTP-LLM 围绕该不均衡在算子层与框架层做了针对性优化,核心包括:

  • Full Attention Head 的 PTX 级优化:对仍需全量计算的 Full Head 深入 PTX 指令层,利用 gmma::mma_async_shmA 等异步拷贝与矩阵乘指令提升效率;融合 IO warps 与 P/V 计算阶段,优化 Ping-Pong 流水与调度,减少空转等待。

  • 稀疏度感知的负载均衡调度:针对 Tail Latency,采用稀疏度感知动态调度(如反向拓扑排序),优先分配重 tile 给 SM,使各 SM 更同步完成任务,降低尾延迟、提升吞吐。

  • SWA 的高效实现:避免传统 SWA 常见的 “三段式 KV 拼接” 或 “Custom Mask” 做法(访存与调度开销大),通过重塑数据布局与计算路径减少冗余访存与额外算子开销。

  • 用 CP(Context Parallel)替代 TP(Tensor Parallel):在 headwise 稀疏场景下,TP 易导致算力利用率低且不够灵活;采用 CP 让单卡完成全部 head 的 attention 计算,提高 GPU 利用率,并通过计算 - 通信重叠降低通信开销。

综合以上优化,RTP-LLM 能将 Attention 稀疏带来的理论收益稳定、可复现地转化为端到端加速;在 256k 长序列下实现单算子最高 9× 加速(见图 5,图中仅 15% Head 使用 Full Attention)。

团队介绍

RTP-LLM 是阿里巴巴智能引擎团队自研的高性能大模型推理引擎,支持了淘宝、天猫、高德、饿了么等核心业务的大模型推理需求。智能引擎源自阿里巴巴搜索、推荐和广告技术,是阿里 AI 工程领域的先行者和深耕者。团队专注于 AI 工程系统的建设,主导建立了大数据 AI 工程体系 AI・OS,持续为阿里集团各业务提供高质量的 AI 工程服务。

RTP-LLM 项目已开源,欢迎交流共建: https://github.com/alibaba/rtp-llm

参考文献:

[1]: Repeat After Me:Transformers are Better than State Space Models at Copying.

[2]: RazorAttention: Efficient KV Cache Compression Through Retrieval Heads

[3]: In-context Learning and Induction Heads

[4]: 苏建林,“注意力机制真的可以集中注意力吗?”,https://www.spaces.ac.cn/archives/9889

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罗马仕,正“启动重生计划”!曾陷“自燃”风波、停工停产半年…

罗马仕,正“启动重生计划”!曾陷“自燃”风波、停工停产半年…

中国品牌
2026-01-04 18:27:09
让欧美集体破防!空无一人的洋山港能创下世界纪录,到底有啥秘密

让欧美集体破防!空无一人的洋山港能创下世界纪录,到底有啥秘密

史智文道
2026-01-04 14:30:41
男子中1000万彩票后失踪6年,母亲去女儿家探亲,打开地窖崩溃

男子中1000万彩票后失踪6年,母亲去女儿家探亲,打开地窖崩溃

罪案洞察者
2025-07-10 09:30:11
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
特朗普威胁古巴、哥伦比亚

特朗普威胁古巴、哥伦比亚

界面新闻
2026-01-04 07:16:33
一度被认为灭绝!2025年云南一山洞中发现6条,已消失近半个世纪

一度被认为灭绝!2025年云南一山洞中发现6条,已消失近半个世纪

万象硬核本尊
2026-01-03 19:30:50
被四家医院判定为肺癌并要求手求,最后的检查结果救了我一命!

被四家医院判定为肺癌并要求手求,最后的检查结果救了我一命!

坠入二次元的海洋
2026-01-01 11:10:01
库里31+5勇士战胜爵士,巴特勒15+7马尔卡宁35分追梦被驱逐

库里31+5勇士战胜爵士,巴特勒15+7马尔卡宁35分追梦被驱逐

湖人崛起
2026-01-04 13:28:12
U23比赛闹出国际笑话!两黄变一红却换个人上场 球迷:脸都不要了

U23比赛闹出国际笑话!两黄变一红却换个人上场 球迷:脸都不要了

刀锋体育
2026-01-04 13:29:36
司晓迪再曝新料!洗脚、视频通话还有唱K,网友曝会议细节最搞笑

司晓迪再曝新料!洗脚、视频通话还有唱K,网友曝会议细节最搞笑

除夕烟火灿烂
2026-01-04 09:51:08
雷军直播,冲上热搜!网友:是真敢啊

雷军直播,冲上热搜!网友:是真敢啊

中国基金报
2026-01-04 00:01:01
美军恐怖如斯!马杜罗被活捉,特朗普表态,告诉了全世界一个现实

美军恐怖如斯!马杜罗被活捉,特朗普表态,告诉了全世界一个现实

千里持剑
2026-01-03 18:21:46
最后48小时,特朗普政府终于批准;王毅告诉全球,给中美交情定调

最后48小时,特朗普政府终于批准;王毅告诉全球,给中美交情定调

吃货的分享
2026-01-04 10:53:29
美军曾复刻马杜罗住宅进行破门演练,动手的第一步是断电,此后机群超低空飞行突防

美军曾复刻马杜罗住宅进行破门演练,动手的第一步是断电,此后机群超低空飞行突防

红星新闻
2026-01-04 19:32:51
利空,大跳水!

利空,大跳水!

魏家东
2026-01-03 14:45:42
38岁方媛抱三胎女儿出镜满脸宠溺,夸宝宝比自己美,回应给三个孩子都100分的爱

38岁方媛抱三胎女儿出镜满脸宠溺,夸宝宝比自己美,回应给三个孩子都100分的爱

鲁中晨报
2026-01-03 19:45:10
大瓜!成都一女生蜜雪上班迟到,怒骂HR殴打店长,注销收银系统

大瓜!成都一女生蜜雪上班迟到,怒骂HR殴打店长,注销收银系统

火山詩话
2026-01-04 07:12:23
美国、德国、法国、韩国、英国等国媒体纷纷把目光转向了中国武汉

美国、德国、法国、韩国、英国等国媒体纷纷把目光转向了中国武汉

扶苏聊历史
2025-12-16 18:18:18
年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

奇思妙想草叶君
2026-01-04 15:13:33
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
2026-01-04 22:23:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1901647文章数 5159关注度
往期回顾 全部

科技要闻

独家|宇树科技上市绿色通道被叫停

头条要闻

中企在拉美花22个月建成的铜矿无法投产:总统换人了

头条要闻

中企在拉美花22个月建成的铜矿无法投产:总统换人了

体育要闻

球队陷入危难,一名44岁教练选择复出打球

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

时尚
艺术
游戏
教育
军事航空

如果可以,希望鲁豫老师再工作30年!

艺术要闻

故宫一级文物:和珅送给乾隆的80大寿贺礼

《崩铁》硬件性能要求提高!低于要求稳定性将变差

教育要闻

“不是智力缺陷,就是被霸凌了”,女孩晚会献舞,满地打滚太心疼

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版