网易首页 > 网易号 > 正文 申请入驻

70万奖金,邀你写算法:代码将合入 SGLang 主线

0
分享至

前两天,面壁智能发了 MiniCPM-SALA,一个 9B 参数的模型,用的是全新的「稀疏+线性」混合注意力架构。同一天,他们联合 SGLang 和 NVIDIA 发起了一场比赛:SOAR 2026 稀疏算子加速大奖赛

总奖金超过 70 万人民币,单支队伍最高可得62万
先说比赛,再聊技术


这场比赛在比什么

一句话:在消费级 GPU 上,把 MiniCPM-SALA 的推理速度榨到极限

参赛者拿到的是面壁提供的 MiniCPM-SALA 模型(可以用官方量化版本),在 NVIDIA RTX PRO GPU 上做推理优化。算子融合、Kernel 优化、KV 读写优化、Prefill/Decode 路径优化、图编译,都可以搞。评测指标就一个:跑完所有请求的总墙钟时间,越短越好

硬件方面,需采用 NVIDIA 高端 RTX GPU,与 SALA「端侧跑百万上下文」的定位是对齐的

2月25日比赛测速平台即将开放,下面这个是赛程安排,每周都会评选出周冠军并发奖(3月4日将产生第一个周冠军)


SOAR 2026 赛程时间线: https://soar.openbmb.cn/competition 奖金结构

总决赛冠军21万,亚军7万,季军3.5


同时,半决赛冠军7万。每周还有周冠军拿7000块(一共 9 个周冠军,3月4日将产生第一个周冠军)


但最值得看的是「特别悬赏奖」:28 万


特别悬赏奖比冠军奖金还高

拿这个奖的条件是:总榜第一 + 推理性能超越官方设定的「极速挑战线」 + 代码合入 SGLang 主线仓库。如果冠军同时满足条件,单支队伍最高可以拿走 62 万+

获奖还有一个前提:周冠军、半决赛冠军、总决赛冠军都需要提交技术博客,冠军代码要审核通过并合入 SGLang 主仓。所有参赛代码按 Apache 2.0 开源

也就是说,比赛产出的每一份优化最终都会进入 SGLang 开源仓库,所有人都能用

怎么参加

3 人以内组队,免费报名,5 月 27 日前都能报。2 月 25 日正式开始提交,3 月 4 日榜单开启。每个团队每天最多提交 3 次

比赛周期从 2 月 11 日到 5 月 29 日,中间 4 月 9 日到 15 日有休赛期。半决赛节点是 4 月 8 日,总决赛 5 月 29 日

官方不提供 GPU 算力,选手自行准备或租用 RTX PRO(或等效)资源。有困难的可以联系大赛合作伙伴 FCloud

沟通渠道是 GitHub Issues(技术问题)、contact@openbmb.cn(赛务)、飞书和 Discord 社区。每月有一次线上 AMA,SGLang 核心开发者和 NVIDIA 技术专家参与


技术背景:SALA 到底解决什么问题

作为背景,Transformer 处理长文本有两堵墙

第一堵是计算墙。标准注意力的计算量随序列长度平方级增长,百万 token 的 prefill 阶段延迟会爆炸

第二堵是显存墙。自回归生成时要存所有历史 token 的 KV Cache,一个 8B 模型处理百万 token,KV Cache 就能占几十到上百 GB 显存

目前两条主流路线,各解决了一半问题

稀疏注意力(DeepSeek 的 NSA、面壁自己的 InfLLM-V2 都属于这条线):每个 token 只看一部分关键的 KV,计算量下来了。但 KV Cache 还是全量存着,显存问题没动

线性注意力(MiniMax 的 Lightning Attention、月暗面的 KDA 属于这条线):把复杂度从 O(N²) 降到 O(N),KV Cache 也压缩了。但这是有损压缩,长距离信息的召回精度会掉

SALA 的做法是把两条线混在一起用
75% 的层用 Lightning Attention(线性),25% 的层用 InfLLM-V2(稀疏)


MiniCPM-SALA 模型架构 两篇论文支撑这个架构

SALA 背后是清华 NLP 组和 OpenBMB 的两篇论文,分别解决稀疏和线性两个模块的问题

InfLLM-V2:稀疏注意力怎么做

先说行业里已有的方案。DeepSeek 的 NSA 引入了 3 套 KV 投影参数、3 个注意力模块(压缩注意力、选择注意力、滑窗注意力)、外加一个门控 MLP 来融合三路输出。能用,但问题也明显:参数多、计算重、跟标准的「短文本预训练 → 长文本微调」流程不兼容

InfLLM-V2 的思路是零额外参数。直接复用 dense attention 的 KV 投影权重,把选择注意力和滑窗注意力合并成一个统一的稀疏模块,去掉压缩注意力的输出(只保留它的 score 用来做块选择)

实际效果:训练时从 dense 切到 sparse 几乎没有 loss 跳变(NSA 切换时 loss 会飙),短文本直接用 dense 模式不掉速,长文本切 sparse 模式在 A100 上最高比 FlashAttention 快 7.4 倍,4090 上最高 9.3 倍

这些加速数据是在 kernel 层面的对比。在端到端推理上,128K 序列长度下 prefill 加速 2.13 倍,decode 加速 2.32 倍(4090,W4A16 量化)

对参赛选手来说,这里面的块选择机制(Block Selection)和 LSE Approximation 是关键优化点。论文里也写了,max-pooling 和 top-k 操作还没有 fuse 进 kernel,留给了「future work」

HypeNet + HALO:线性注意力怎么接进来

从头训练一个混合架构模型成本很高。HALO 是一个蒸馏流程,把已经训练好的 Transformer 模型转换成 RNN-Attention 混合模型

之前的转换方法(Mamba-in-the-Llama、SMART、RAD、Jet-Nemotron)需要 7B 到 400B tokens 的训练数据

HALO 只要 2.3B tokens,不到预训练数据的 0.01%

流程分三步:先做隐状态对齐(让 RNN 层的输出逼近对应的 attention 层),然后做注意力层选择(决定哪些层保留为 attention、哪些转成 RNN),最后做知识蒸馏和微调

注意力层选择的策略也值得一看。HALO 的判断标准是:替换某一层后,召回能力(NIAH 类任务)掉得多、通用能力(常识推理)掉得少的层,优先保留为 attention 层。最终 25% 的层保持 attention,75% 转成 RNN

RNN mixer 用的是 Lightning Attention。论文里比了 GLA、Mamba2、GDN、RWKV-7 等几种选择,Lightning Attention 的长度泛化能力最好。一个可能的原因是它用的是数据无关的遗忘门(data-independent forget gate),反而比数据依赖的遗忘门泛化更稳

HyPE 位置编码:一个巧妙的细节

HyPE 的做法是:RNN 层用 RoPE,Attention 层用 NoPE(不加位置编码)

直觉上会觉得 attention 不加位置编码信息会丢失。但逻辑是这样的:RNN 层天然有位置感知(通过状态转移),但感受野有限,主要处理局部依赖。Attention 层负责长距离依赖。去掉 attention 层的 RoPE 之后,历史 KV Cache 不再绑定位置信息,避免了 RoPE 在超长序列上的数值衰减问题

再加一个位置相关的 attention logits scaling(推理时根据位置动态调整注意力分数),长度泛化能力就上来了。不用 YaRN 之类的额外技术,MiniCPM-SALA 可以外推到 2048K


长度泛化测试结果 性能数据

短文本能力(知识问答、数学、代码)跟 Qwen3-8B 等同尺寸 full attention 模型持平

长文本是优势所在。256K 序列长度下,NVIDIA A6000D 上 MiniCPM-SALA 的 TTFT(首 token 生成时间)从 Qwen3-8B 的 180.8 秒降到 51.6 秒,3.5 倍加速

Qwen3-8B 在 512K 和 1M 长度下 OOM。MiniCPM-SALA 在 A6000D(96GB)和 RTX 5090(32GB)上都能跑通百万 token


A6000D 上的推理延迟对比RTX 5090 上的推理延迟对比 训练成本

MiniCPM-SALA 的训练路径是先用 HALO 做架构转换(1.3B tokens,序列长度 512),然后在 MiniCPM-4.0 的预训练数据上做持续训练(314.6B tokens,4K 长度),接 Short-Decay(1T tokens,4K),再 Long-Decay(逐步扩到 520K),最后 SFT


面壁在技术报告里提到,这个路径的总训练量是从零训练同水平模型的 25%

几个提示

从论文和赛制里能看到几个明确的优化方向:

InfLLM-V2 论文里写了,块选择阶段的 max-pooling 和 top-k 操作还没做 kernel fusion,留在了 future work。这是一个确定的优化入口

稀疏注意力只加速了 attention 层,FFN 层没动。论文原话:「a higher speedup ratio can be achieved by incorporating FFN-specific acceleration techniques」

比赛评测关了 prefix cache,所以 prefill 路径的优化权重很大(单请求场景占 40% 权重),这个场景下稀疏注意力的块选择效率直接影响总延迟

允许用官方提供的量化模型,量化策略本身也是优化维度

比赛从 2 月 25 日开始提交,5 月 27 日前都能报名,免费参赛,欢迎来玩


以及,有兴趣的可以先看看 InfLLM-V2 论文里那几个留给 future work 的优化点,块选择的 kernel fusion 和 FFN 层加速,都是实打实的性能空间。写出来的代码最终会合进 SGLang 主线,这活儿值得干

比赛官网
https://soar.openbmb.cn/competition

HuggingFace:
https://huggingface.co/openbmb/MiniCPM-SALA

技术报告:
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

InfLLM-V2 论文:
https://arxiv.org/pdf/2509.24663

HypeNet / HALO 论文:
https://arxiv.org/pdf/2601.22156

SOAR 2026 比赛报名:
contact@openbmb.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全美州长集体抵制特朗普峰会

全美州长集体抵制特朗普峰会

黑鹰观军事
2026-02-14 14:34:31
戏子误国!离春节不到7天,4位明星接连塌房,一个比一个荒唐

戏子误国!离春节不到7天,4位明星接连塌房,一个比一个荒唐

林轻吟
2026-02-13 07:16:40
科学解释不了的事情就交给玄学!网友:坟长大对后辈好

科学解释不了的事情就交给玄学!网友:坟长大对后辈好

另子维爱读史
2026-02-14 20:45:38
古人成年后,特别是文人和官员,为何都要留胡子

古人成年后,特别是文人和官员,为何都要留胡子

历史大学堂
2026-02-12 22:49:32
演员龚玥菲分享订婚视频,和庞麦郎各种秀恩爱

演员龚玥菲分享订婚视频,和庞麦郎各种秀恩爱

锋哥与八卦哥
2026-01-19 16:29:26
李兆基去世10个月,“千亿儿媳”徐子淇真实处境曝光,一点不意外

李兆基去世10个月,“千亿儿媳”徐子淇真实处境曝光,一点不意外

手工制作阿歼
2026-02-13 20:07:43
樊振东2-3输国乒19岁小将,两连败后他却笑了!得知原因他并没输

樊振东2-3输国乒19岁小将,两连败后他却笑了!得知原因他并没输

十点街球体育
2026-02-14 09:49:23
巴黎与王嘉尔联名推“马年”特别球衣,下轮法甲将有望上身

巴黎与王嘉尔联名推“马年”特别球衣,下轮法甲将有望上身

懂球帝
2026-02-15 01:09:53
中国持续抛售美债后,美财长喊话要管中国经济,背后藏三重阴谋

中国持续抛售美债后,美财长喊话要管中国经济,背后藏三重阴谋

书纪文谭
2026-02-14 19:18:51
爱泼斯坦幸存者14岁就被盯上,有人多次怀孕流产,高中生被召按摩

爱泼斯坦幸存者14岁就被盯上,有人多次怀孕流产,高中生被召按摩

译言
2026-02-15 06:17:19
棺材铺有个怪规矩,卖棺材从不收全款,为何总要让孝子欠上三分?

棺材铺有个怪规矩,卖棺材从不收全款,为何总要让孝子欠上三分?

千秋文化
2026-02-11 21:38:01
花小钱办大事,本赛季NBA最被低估的5大交易,直接改善球队体系

花小钱办大事,本赛季NBA最被低估的5大交易,直接改善球队体系

毒舌NBA
2026-02-14 09:42:32
高市没想到,日本刚扣押中国渔船,抓走船长,中方就迅速出手了

高市没想到,日本刚扣押中国渔船,抓走船长,中方就迅速出手了

老表是个手艺人
2026-02-15 08:16:43
汕头多人贩卖烟花爆竹,被拘留!

汕头多人贩卖烟花爆竹,被拘留!

ilove汕头
2026-02-14 19:27:51
机关事业单位退休人员,养老金8037元,职业年金871元,正常吗?

机关事业单位退休人员,养老金8037元,职业年金871元,正常吗?

史行途
2025-12-19 09:40:38
华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

老杉说历史
2026-02-03 00:39:20
换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

乡野小珥
2026-02-05 15:03:34
发工资时我调侃财务:嫁我工资归你管!董事长:那当我女婿吧!

发工资时我调侃财务:嫁我工资归你管!董事长:那当我女婿吧!

千秋文化
2026-02-13 19:08:05
给人养了7年闲人,广汽终于要关闭洛杉矶的研发中心

给人养了7年闲人,广汽终于要关闭洛杉矶的研发中心

与车同乐
2025-12-04 10:05:02
终于知道为什么邮箱在中国流行不起来了?网友:让人有边界感

终于知道为什么邮箱在中国流行不起来了?网友:让人有边界感

夜深爱杂谈
2026-02-09 18:30:14
2026-02-15 09:32:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
292文章数 36关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

被美军用于绑架委内瑞拉总统马杜罗 美国AI公司很不满

头条要闻

被美军用于绑架委内瑞拉总统马杜罗 美国AI公司很不满

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

旅游
数码
本地
游戏
公开课

旅游要闻

不玩虚的,真免费!西安这个5A景区春节敞开逛,附攻略

数码要闻

AirTag太贵?小米Tag来了:更薄更强,还支持苹果查找

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

逆水寒新春版本、延期一个月的年度大更,谁才是春节档赢家

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版