70万奖金，邀你写算法：代码将合入 SGLang 主线|序列|推理|rnn|新论文|sglang

70万奖金，邀你写算法：代码将合入 SGLang 主线

2026-02-14 22:22:51　来源: 赛博禅心

北京举报

分享至

前两天，面壁智能发了 MiniCPM-SALA，一个 9B 参数的模型，用的是全新的「稀疏+线性」混合注意力架构。同一天，他们联合 SGLang 和 NVIDIA 发起了一场比赛：SOAR 2026 稀疏算子加速大奖赛

总奖金超过 70 万人民币，单支队伍最高可得62万
先说比赛，再聊技术

这场比赛在比什么

一句话：在消费级 GPU 上，把 MiniCPM-SALA 的推理速度榨到极限

参赛者拿到的是面壁提供的 MiniCPM-SALA 模型（可以用官方量化版本），在 NVIDIA RTX PRO GPU 上做推理优化。算子融合、Kernel 优化、KV 读写优化、Prefill/Decode 路径优化、图编译，都可以搞。评测指标就一个：跑完所有请求的总墙钟时间，越短越好

硬件方面，需采用 NVIDIA 高端 RTX GPU，与 SALA「端侧跑百万上下文」的定位是对齐的

2月25日比赛测速平台即将开放，下面这个是赛程安排，每周都会评选出周冠军并发奖（3月4日将产生第一个周冠军）

SOAR 2026 赛程时间线： https://soar.openbmb.cn/competition 奖金结构

总决赛冠军21万，亚军7万，季军3.5万

同时，半决赛冠军7万。每周还有周冠军拿7000块（一共 9 个周冠军，3月4日将产生第一个周冠军）

但最值得看的是「特别悬赏奖」：28 万

特别悬赏奖比冠军奖金还高

拿这个奖的条件是：总榜第一 + 推理性能超越官方设定的「极速挑战线」 + 代码合入 SGLang 主线仓库。如果冠军同时满足条件，单支队伍最高可以拿走 62 万+

获奖还有一个前提：周冠军、半决赛冠军、总决赛冠军都需要提交技术博客，冠军代码要审核通过并合入 SGLang 主仓。所有参赛代码按 Apache 2.0 开源

也就是说，比赛产出的每一份优化最终都会进入 SGLang 开源仓库，所有人都能用

怎么参加

3 人以内组队，免费报名，5 月 27 日前都能报。2 月 25 日正式开始提交，3 月 4 日榜单开启。每个团队每天最多提交 3 次

比赛周期从 2 月 11 日到 5 月 29 日，中间 4 月 9 日到 15 日有休赛期。半决赛节点是 4 月 8 日，总决赛 5 月 29 日

官方不提供 GPU 算力，选手自行准备或租用 RTX PRO（或等效）资源。有困难的可以联系大赛合作伙伴 FCloud

沟通渠道是 GitHub Issues（技术问题）、contact@openbmb.cn（赛务）、飞书和 Discord 社区。每月有一次线上 AMA，SGLang 核心开发者和 NVIDIA 技术专家参与

技术背景：SALA 到底解决什么问题

作为背景，Transformer 处理长文本有两堵墙

第一堵是计算墙。标准注意力的计算量随序列长度平方级增长，百万 token 的 prefill 阶段延迟会爆炸

第二堵是显存墙。自回归生成时要存所有历史 token 的 KV Cache，一个 8B 模型处理百万 token，KV Cache 就能占几十到上百 GB 显存

目前两条主流路线，各解决了一半问题

稀疏注意力（DeepSeek 的 NSA、面壁自己的 InfLLM-V2 都属于这条线）：每个 token 只看一部分关键的 KV，计算量下来了。但 KV Cache 还是全量存着，显存问题没动

线性注意力（MiniMax 的 Lightning Attention、月暗面的 KDA 属于这条线）：把复杂度从 O(N²) 降到 O(N)，KV Cache 也压缩了。但这是有损压缩，长距离信息的召回精度会掉

SALA 的做法是把两条线混在一起用
75% 的层用 Lightning Attention（线性），25% 的层用 InfLLM-V2（稀疏）

MiniCPM-SALA 模型架构两篇论文支撑这个架构

SALA 背后是清华 NLP 组和 OpenBMB 的两篇论文，分别解决稀疏和线性两个模块的问题

InfLLM-V2：稀疏注意力怎么做

先说行业里已有的方案。DeepSeek 的 NSA 引入了 3 套 KV 投影参数、3 个注意力模块（压缩注意力、选择注意力、滑窗注意力）、外加一个门控 MLP 来融合三路输出。能用，但问题也明显：参数多、计算重、跟标准的「短文本预训练 → 长文本微调」流程不兼容

InfLLM-V2 的思路是零额外参数。直接复用 dense attention 的 KV 投影权重，把选择注意力和滑窗注意力合并成一个统一的稀疏模块，去掉压缩注意力的输出（只保留它的 score 用来做块选择）

实际效果：训练时从 dense 切到 sparse 几乎没有 loss 跳变（NSA 切换时 loss 会飙），短文本直接用 dense 模式不掉速，长文本切 sparse 模式在 A100 上最高比 FlashAttention 快 7.4 倍，4090 上最高 9.3 倍

这些加速数据是在 kernel 层面的对比。在端到端推理上，128K 序列长度下 prefill 加速 2.13 倍，decode 加速 2.32 倍（4090，W4A16 量化）

对参赛选手来说，这里面的块选择机制（Block Selection）和 LSE Approximation 是关键优化点。论文里也写了，max-pooling 和 top-k 操作还没有 fuse 进 kernel，留给了「future work」

HypeNet + HALO：线性注意力怎么接进来

从头训练一个混合架构模型成本很高。HALO 是一个蒸馏流程，把已经训练好的 Transformer 模型转换成 RNN-Attention 混合模型

之前的转换方法（Mamba-in-the-Llama、SMART、RAD、Jet-Nemotron）需要 7B 到 400B tokens 的训练数据

HALO 只要 2.3B tokens，不到预训练数据的 0.01%

流程分三步：先做隐状态对齐（让 RNN 层的输出逼近对应的 attention 层），然后做注意力层选择（决定哪些层保留为 attention、哪些转成 RNN），最后做知识蒸馏和微调

注意力层选择的策略也值得一看。HALO 的判断标准是：替换某一层后，召回能力（NIAH 类任务）掉得多、通用能力（常识推理）掉得少的层，优先保留为 attention 层。最终 25% 的层保持 attention，75% 转成 RNN

RNN mixer 用的是 Lightning Attention。论文里比了 GLA、Mamba2、GDN、RWKV-7 等几种选择，Lightning Attention 的长度泛化能力最好。一个可能的原因是它用的是数据无关的遗忘门（data-independent forget gate），反而比数据依赖的遗忘门泛化更稳

HyPE 位置编码：一个巧妙的细节

HyPE 的做法是：RNN 层用 RoPE，Attention 层用 NoPE（不加位置编码）

直觉上会觉得 attention 不加位置编码信息会丢失。但逻辑是这样的：RNN 层天然有位置感知（通过状态转移），但感受野有限，主要处理局部依赖。Attention 层负责长距离依赖。去掉 attention 层的 RoPE 之后，历史 KV Cache 不再绑定位置信息，避免了 RoPE 在超长序列上的数值衰减问题

再加一个位置相关的 attention logits scaling（推理时根据位置动态调整注意力分数），长度泛化能力就上来了。不用 YaRN 之类的额外技术，MiniCPM-SALA 可以外推到 2048K

长度泛化测试结果性能数据

短文本能力（知识问答、数学、代码）跟 Qwen3-8B 等同尺寸 full attention 模型持平

长文本是优势所在。256K 序列长度下，NVIDIA A6000D 上 MiniCPM-SALA 的 TTFT（首 token 生成时间）从 Qwen3-8B 的 180.8 秒降到 51.6 秒，3.5 倍加速

Qwen3-8B 在 512K 和 1M 长度下 OOM。MiniCPM-SALA 在 A6000D（96GB）和 RTX 5090（32GB）上都能跑通百万 token

A6000D 上的推理延迟对比RTX 5090 上的推理延迟对比训练成本

MiniCPM-SALA 的训练路径是先用 HALO 做架构转换（1.3B tokens，序列长度 512），然后在 MiniCPM-4.0 的预训练数据上做持续训练（314.6B tokens，4K 长度），接 Short-Decay（1T tokens，4K），再 Long-Decay（逐步扩到 520K），最后 SFT

面壁在技术报告里提到，这个路径的总训练量是从零训练同水平模型的 25%

几个提示

从论文和赛制里能看到几个明确的优化方向：

InfLLM-V2 论文里写了，块选择阶段的 max-pooling 和 top-k 操作还没做 kernel fusion，留在了 future work。这是一个确定的优化入口

稀疏注意力只加速了 attention 层，FFN 层没动。论文原话：「a higher speedup ratio can be achieved by incorporating FFN-specific acceleration techniques」

比赛评测关了 prefix cache，所以 prefill 路径的优化权重很大（单请求场景占 40% 权重），这个场景下稀疏注意力的块选择效率直接影响总延迟

允许用官方提供的量化模型，量化策略本身也是优化维度

比赛从 2 月 25 日开始提交，5 月 27 日前都能报名，免费参赛，欢迎来玩

以及，有兴趣的可以先看看 InfLLM-V2 论文里那几个留给 future work 的优化点，块选择的 kernel fusion 和 FFN 层加速，都是实打实的性能空间。写出来的代码最终会合进 SGLang 主线，这活儿值得干

比赛官网
https://soar.openbmb.cn/competition

HuggingFace：
https://huggingface.co/openbmb/MiniCPM-SALA

技术报告：
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

InfLLM-V2 论文：
https://arxiv.org/pdf/2509.24663

HypeNet / HALO 论文：
https://arxiv.org/pdf/2601.22156

SOAR 2026 比赛报名：
contact@openbmb.cn

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.