前两天,面壁智能发了 MiniCPM-SALA,一个 9B 参数的模型,用的是全新的「稀疏+线性」混合注意力架构。同一天,他们联合 SGLang 和 NVIDIA 发起了一场比赛:SOAR 2026 稀疏算子加速大奖赛
总奖金超过 70 万人民币,单支队伍最高可得62万
先说比赛,再聊技术
![]()
这场比赛在比什么
一句话:在消费级 GPU 上,把 MiniCPM-SALA 的推理速度榨到极限
参赛者拿到的是面壁提供的 MiniCPM-SALA 模型(可以用官方量化版本),在 NVIDIA RTX PRO GPU 上做推理优化。算子融合、Kernel 优化、KV 读写优化、Prefill/Decode 路径优化、图编译,都可以搞。评测指标就一个:跑完所有请求的总墙钟时间,越短越好
硬件方面,需采用 NVIDIA 高端 RTX GPU,与 SALA「端侧跑百万上下文」的定位是对齐的
2月25日比赛测速平台即将开放,下面这个是赛程安排,每周都会评选出周冠军并发奖(3月4日将产生第一个周冠军)
![]()
SOAR 2026 赛程时间线: https://soar.openbmb.cn/competition 奖金结构
总决赛冠军21万,亚军7万,季军3.5万
![]()
同时,半决赛冠军7万。每周还有周冠军拿7000块(一共 9 个周冠军,3月4日将产生第一个周冠军)
![]()
但最值得看的是「特别悬赏奖」:28 万
![]()
特别悬赏奖比冠军奖金还高
拿这个奖的条件是:总榜第一 + 推理性能超越官方设定的「极速挑战线」 + 代码合入 SGLang 主线仓库。如果冠军同时满足条件,单支队伍最高可以拿走 62 万+
获奖还有一个前提:周冠军、半决赛冠军、总决赛冠军都需要提交技术博客,冠军代码要审核通过并合入 SGLang 主仓。所有参赛代码按 Apache 2.0 开源
也就是说,比赛产出的每一份优化最终都会进入 SGLang 开源仓库,所有人都能用
怎么参加
3 人以内组队,免费报名,5 月 27 日前都能报。2 月 25 日正式开始提交,3 月 4 日榜单开启。每个团队每天最多提交 3 次
比赛周期从 2 月 11 日到 5 月 29 日,中间 4 月 9 日到 15 日有休赛期。半决赛节点是 4 月 8 日,总决赛 5 月 29 日
官方不提供 GPU 算力,选手自行准备或租用 RTX PRO(或等效)资源。有困难的可以联系大赛合作伙伴 FCloud
沟通渠道是 GitHub Issues(技术问题)、contact@openbmb.cn(赛务)、飞书和 Discord 社区。每月有一次线上 AMA,SGLang 核心开发者和 NVIDIA 技术专家参与
![]()
技术背景:SALA 到底解决什么问题
作为背景,Transformer 处理长文本有两堵墙
第一堵是计算墙。标准注意力的计算量随序列长度平方级增长,百万 token 的 prefill 阶段延迟会爆炸
第二堵是显存墙。自回归生成时要存所有历史 token 的 KV Cache,一个 8B 模型处理百万 token,KV Cache 就能占几十到上百 GB 显存
目前两条主流路线,各解决了一半问题
稀疏注意力(DeepSeek 的 NSA、面壁自己的 InfLLM-V2 都属于这条线):每个 token 只看一部分关键的 KV,计算量下来了。但 KV Cache 还是全量存着,显存问题没动
线性注意力(MiniMax 的 Lightning Attention、月暗面的 KDA 属于这条线):把复杂度从 O(N²) 降到 O(N),KV Cache 也压缩了。但这是有损压缩,长距离信息的召回精度会掉
SALA 的做法是把两条线混在一起用
75% 的层用 Lightning Attention(线性),25% 的层用 InfLLM-V2(稀疏)
![]()
MiniCPM-SALA 模型架构 两篇论文支撑这个架构
SALA 背后是清华 NLP 组和 OpenBMB 的两篇论文,分别解决稀疏和线性两个模块的问题
InfLLM-V2:稀疏注意力怎么做
先说行业里已有的方案。DeepSeek 的 NSA 引入了 3 套 KV 投影参数、3 个注意力模块(压缩注意力、选择注意力、滑窗注意力)、外加一个门控 MLP 来融合三路输出。能用,但问题也明显:参数多、计算重、跟标准的「短文本预训练 → 长文本微调」流程不兼容
InfLLM-V2 的思路是零额外参数。直接复用 dense attention 的 KV 投影权重,把选择注意力和滑窗注意力合并成一个统一的稀疏模块,去掉压缩注意力的输出(只保留它的 score 用来做块选择)
实际效果:训练时从 dense 切到 sparse 几乎没有 loss 跳变(NSA 切换时 loss 会飙),短文本直接用 dense 模式不掉速,长文本切 sparse 模式在 A100 上最高比 FlashAttention 快 7.4 倍,4090 上最高 9.3 倍
这些加速数据是在 kernel 层面的对比。在端到端推理上,128K 序列长度下 prefill 加速 2.13 倍,decode 加速 2.32 倍(4090,W4A16 量化)
对参赛选手来说,这里面的块选择机制(Block Selection)和 LSE Approximation 是关键优化点。论文里也写了,max-pooling 和 top-k 操作还没有 fuse 进 kernel,留给了「future work」
HypeNet + HALO:线性注意力怎么接进来
从头训练一个混合架构模型成本很高。HALO 是一个蒸馏流程,把已经训练好的 Transformer 模型转换成 RNN-Attention 混合模型
之前的转换方法(Mamba-in-the-Llama、SMART、RAD、Jet-Nemotron)需要 7B 到 400B tokens 的训练数据
HALO 只要 2.3B tokens,不到预训练数据的 0.01%
流程分三步:先做隐状态对齐(让 RNN 层的输出逼近对应的 attention 层),然后做注意力层选择(决定哪些层保留为 attention、哪些转成 RNN),最后做知识蒸馏和微调
注意力层选择的策略也值得一看。HALO 的判断标准是:替换某一层后,召回能力(NIAH 类任务)掉得多、通用能力(常识推理)掉得少的层,优先保留为 attention 层。最终 25% 的层保持 attention,75% 转成 RNN
RNN mixer 用的是 Lightning Attention。论文里比了 GLA、Mamba2、GDN、RWKV-7 等几种选择,Lightning Attention 的长度泛化能力最好。一个可能的原因是它用的是数据无关的遗忘门(data-independent forget gate),反而比数据依赖的遗忘门泛化更稳
HyPE 位置编码:一个巧妙的细节
HyPE 的做法是:RNN 层用 RoPE,Attention 层用 NoPE(不加位置编码)
直觉上会觉得 attention 不加位置编码信息会丢失。但逻辑是这样的:RNN 层天然有位置感知(通过状态转移),但感受野有限,主要处理局部依赖。Attention 层负责长距离依赖。去掉 attention 层的 RoPE 之后,历史 KV Cache 不再绑定位置信息,避免了 RoPE 在超长序列上的数值衰减问题
再加一个位置相关的 attention logits scaling(推理时根据位置动态调整注意力分数),长度泛化能力就上来了。不用 YaRN 之类的额外技术,MiniCPM-SALA 可以外推到 2048K
![]()
长度泛化测试结果 性能数据
短文本能力(知识问答、数学、代码)跟 Qwen3-8B 等同尺寸 full attention 模型持平
长文本是优势所在。256K 序列长度下,NVIDIA A6000D 上 MiniCPM-SALA 的 TTFT(首 token 生成时间)从 Qwen3-8B 的 180.8 秒降到 51.6 秒,3.5 倍加速
Qwen3-8B 在 512K 和 1M 长度下 OOM。MiniCPM-SALA 在 A6000D(96GB)和 RTX 5090(32GB)上都能跑通百万 token
![]()
A6000D 上的推理延迟对比
RTX 5090 上的推理延迟对比 训练成本
MiniCPM-SALA 的训练路径是先用 HALO 做架构转换(1.3B tokens,序列长度 512),然后在 MiniCPM-4.0 的预训练数据上做持续训练(314.6B tokens,4K 长度),接 Short-Decay(1T tokens,4K),再 Long-Decay(逐步扩到 520K),最后 SFT
![]()
面壁在技术报告里提到,这个路径的总训练量是从零训练同水平模型的 25%
几个提示
从论文和赛制里能看到几个明确的优化方向:
InfLLM-V2 论文里写了,块选择阶段的 max-pooling 和 top-k 操作还没做 kernel fusion,留在了 future work。这是一个确定的优化入口
稀疏注意力只加速了 attention 层,FFN 层没动。论文原话:「a higher speedup ratio can be achieved by incorporating FFN-specific acceleration techniques」
比赛评测关了 prefix cache,所以 prefill 路径的优化权重很大(单请求场景占 40% 权重),这个场景下稀疏注意力的块选择效率直接影响总延迟
允许用官方提供的量化模型,量化策略本身也是优化维度
比赛从 2 月 25 日开始提交,5 月 27 日前都能报名,免费参赛,欢迎来玩
![]()
以及,有兴趣的可以先看看 InfLLM-V2 论文里那几个留给 future work 的优化点,块选择的 kernel fusion 和 FFN 层加速,都是实打实的性能空间。写出来的代码最终会合进 SGLang 主线,这活儿值得干
比赛官网https://soar.openbmb.cn/competition
HuggingFace:https://huggingface.co/openbmb/MiniCPM-SALA
技术报告:https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf
InfLLM-V2 论文:https://arxiv.org/pdf/2509.24663
HypeNet / HALO 论文:https://arxiv.org/pdf/2601.22156
SOAR 2026 比赛报名:contact@openbmb.cn
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.