网易首页 > 网易号 > 正文 申请入驻

大模型又出新架构,面壁这次把Transformer上下文能力拉满了

0
分享至

我有点好奇一个问题,

让现阶段一个百万上下文的大模型读一本百万字的小说,需要推理吗?

可能大部分时候不需要,它需要的只是记住,记住第一章的主角在最后一章说了什么。

现在传统的Transformer架构只有一种处理方式,全靠硬算。它像一个过于认真的前排学霸,为了记住最后一章的内容,把前面九十九万字的内容跟每一个新生成的字都做一次对比计算。


这样会占大量的显存,计算量也会平方级增长。

这一周新的大模型也是不停刷新,MiniMax M2.5,GLM5,Gemini 3.1 Pro Preview,DeepSeek新版本(疑似V4),我都希望他们可以接入我的OpenClaw里面,做一个长对话长记忆的模型。

昨天,面壁还发了一篇新论文,提出了一个叫SALA(Sparse Attention-Linear Attention)的混合注意力架构。它给出了一个新观点,

该快的地方就得快,该准的地方必须准。


https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

在他们的SALA架构里,

一部分模块专门负责快,

另一部分模块专门负责准。

结果就是,基于SALA架构的模型,在端侧显卡上,第一次把百万的长文本推理,稳稳跑通了。


我们来看一个具体的例子,

模型在处理百万字小说时,内部发生了什么。

每生成一个新词,模型都要把它和前面所有词语的键值对,也就是KV Cache,全部计算一遍。计算复杂度是随着文本长度平方级增长的,

同时,这个KV Cache会像滚雪球一样,迅速吃掉你所有的显存。把上下文从一万字拉到一百万字,计算量不是涨一百倍,是飙升一万倍。

这就是为什么传统架构在长上下文任务面前,会同时撞上计算墙和显存墙。


这几十万字的上下文,大部分可能只是背景描述,真正关键的信息也许就那么几句。

但模型为了找到这几句关键信息,付出的代价是把所有内容都用最高精度过了一遍。

来看看SALA的几个关键的设计,

首先是两种模块的分工。

线性注意力,我们这里可以理解为负责准的模块,面壁选用的是Lightning Attention,挑出那些最关键的局部信息进行精细计算。稀疏注意力,则是负责快的模块,面壁选用的是InfLLM v2,会高效计算所有信息。

SALA就是把这两者结合了起来。整个模型里,75%的层是负责准的线性注意力,剩下的25%,是负责快的稀疏注意力。这个比例经过大量实验找出的效率与精度之间的平衡点。


在不使用任何额外技术(如YaRN)的前提下,MiniCPM-SALA 可以将上下文长度拓展至2048K。

怎么保证它们能好好合作,不是互相干扰呢?

SALA用了一个叫HyPE的混合位置编码策略。在线性层,它保留了RoPE,保证短文本能力不受影响。在稀疏层,它去掉了位置编码,避免了信息在长距离传递时的衰减问题。

模型在检索几万甚至几十万token之前的内容时,依然能保持高精度。


最后是模型怎么来的。

这里有一个核心问题,要训练一个全新的混合架构模型,成本超级高。

面壁没有从零开始,反而是提出了一个叫HALO的训练范式。简单来说,就是拿一个已经训练好的全注意力模型,比如MiniCPM-4.0,通过架构转换,把它的一部分层变成线性注意力,另一部分变成稀疏注意力,然后进行持续训练。


这种方式,就像是给一辆性能不错的汽车做改装升级,而不是重新设计一辆新车。它继承了原模型已经学到的所有知识和能力,只是让它学会了用一种更高效的方式去工作。相比从头训练,这个方法的成本直接降低了大约75%。

这个训练过程也很有讲究,分为架构转换,稳定训练,短衰减,长衰减和微调五个阶段。特别是在长衰减阶段,模型逐步把上下文长度从4K扩展到520K,让模型充分学习两种注意力机制协同。

我们来看效果数据。

这次面壁并没有用一堆榜单来证明自己,是出了真实场景下的性能数据,对比的是同等规模的全注意力模型Qwen3-8B,我挑几个关键数据,

在推理速度上,当上下文长度达到256K时,MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

这个提升完全来自架构本身的优势。


在显存占用上,在RTX 5090这样的消费级显卡上,Qwen3-8B在上下文长度达到128K时,就会因为显存不足而崩溃。而MiniCPM-SALA可以稳稳地跑到1M,也就是一百万token的长度。


但我是个挑剔的人,

用了会丢信息的注意力,模型是不是没脑子了?

这也是这篇工作最有价值的部分。实验数据显示,MiniCPM-SALA在数学,代码,知识问答这些常规能力上,和同规模的全注意力模型基本持平,没有出现明显的性能折损。


传统的全注意力模型,在处理长文本时,它的注意力容量被大量消耗在维持局部依赖上,比如识别一个多词组成的人名。而SALA架构,把这些任务交给了更高效的模块,从而释放了稀疏注意力层的容量,让它们可以更专注于建立全局的,跨越超长距离的上下文联系。

为了推动这个架构落地,面壁联合了SGLang和NVIDIA,发起了一个稀疏算子加速大奖赛SOAR。


SALA虽然在架构上做好了,

但底层的计算算子,相比已经被优化到极致的FlashAttention,还有很大提升空间。

这个比赛就是邀请全球的开发者,一起来把SALA这台新引擎的性能,压榨到极限。

平时测评模型测多了,

都是Coding,Coding,Coding,

我很高兴看到还不断能有新的架构,

新的算法出现,

就算是DeepSeek这一年,

更新模型的同时也没停过公开自己的算法,

面壁过去这一年也是不停发端侧模型的工作,

我觉得就这速度都不需要五年十年,

可能过个两三年,

在小天才手表上也能跑个大大大模型。

@ 作者 / 卡尔

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

如果你有更有趣的玩法,欢迎在评论区和我聊聊

更多的内容正在不断填坑中……


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李在明当众宣告尹锡悦最终结局,手段狠辣引韩国民众广泛关注

李在明当众宣告尹锡悦最终结局,手段狠辣引韩国民众广泛关注

至死不渝的爱情
2026-02-13 18:56:52
春晚第四次联排刚结束,热搜第一和骂声一片同时上了微博。

春晚第四次联排刚结束,热搜第一和骂声一片同时上了微博。

手工制作阿歼
2026-02-14 04:54:17
赖清德率五大军头发出通牒,收到大陆信号的郑丽文,直接反将一军

赖清德率五大军头发出通牒,收到大陆信号的郑丽文,直接反将一军

东极妙严
2026-02-13 18:58:56
春节还剩3天,社会上却出现这个“反常现象”,今年过年大变样?

春节还剩3天,社会上却出现这个“反常现象”,今年过年大变样?

墨兰史书
2026-02-13 21:45:04
生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

39健康网
2026-02-11 09:11:33
“香港第一深情”实锤?椰树新包装让人笑疯了,哈哈哈!

“香港第一深情”实锤?椰树新包装让人笑疯了,哈哈哈!

老张聊设计
2026-02-14 09:43:06
决战今夜!2月14日晚21:00!中央5套CCTV5、CCTV5+直播节目表

决战今夜!2月14日晚21:00!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-02-14 08:23:20
杨瀚森的赛季新高,是对位克林根

杨瀚森的赛季新高,是对位克林根

只关于篮球
2026-02-14 12:47:53
事实证明,吃完贾玲“红利”的张小斐,如今又回到了她的“怪圈”

事实证明,吃完贾玲“红利”的张小斐,如今又回到了她的“怪圈”

小熊侃史
2026-02-11 12:56:17
1995年,在北京蜗居13年的吴德病逝,留下三行遗嘱令人落泪

1995年,在北京蜗居13年的吴德病逝,留下三行遗嘱令人落泪

浔阳咸鱼
2026-02-06 07:45:08
王鹤棣染一头红发亮相NBA名人赛,多次冲击篮下得手,全场9投5中,得到10分4篮板

王鹤棣染一头红发亮相NBA名人赛,多次冲击篮下得手,全场9投5中,得到10分4篮板

扬子晚报
2026-02-14 10:54:25
距离除夕仅剩2天,社会上却冒出6大“反常”现象,今年春节不寻常

距离除夕仅剩2天,社会上却冒出6大“反常”现象,今年春节不寻常

小陆搞笑日常
2026-02-14 09:15:46
骑士队再迎3利好!再签1名神射手,美媒力挺哈登,老詹重返骑士?

骑士队再迎3利好!再签1名神射手,美媒力挺哈登,老詹重返骑士?

生活新鲜市
2026-02-14 12:28:58
科研经费总量已超实际需求,为何科研人员争项目时依旧压力巨大?

科研经费总量已超实际需求,为何科研人员争项目时依旧压力巨大?

文忆天下
2026-02-11 19:43:17
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
他本是国民党杀手,却放走了19个共产党人,建国后是如何处置他的

他本是国民党杀手,却放走了19个共产党人,建国后是如何处置他的

比利
2026-02-14 12:47:19
阿尔卡拉斯已经是一个传奇了,何谈什么伤仲永?

阿尔卡拉斯已经是一个传奇了,何谈什么伤仲永?

网球之家
2026-02-14 13:01:25
广东单亲妈妈远嫁澳洲老头:以为嫁进天堂,6年后只剩10颗烤瓷牙

广东单亲妈妈远嫁澳洲老头:以为嫁进天堂,6年后只剩10颗烤瓷牙

记录生活日常阿蜴
2026-02-14 08:50:08
高亮遗孀再发动态!84岁高明在云南老家安享晚年,儿媳和孙女陪伴

高亮遗孀再发动态!84岁高明在云南老家安享晚年,儿媳和孙女陪伴

离离言几许
2026-02-13 19:52:07
除夕吃饺子,牢记:1不说,2要放,3馅不上桌,4事不能做,要重视

除夕吃饺子,牢记:1不说,2要放,3馅不上桌,4事不能做,要重视

小茉莉美食记
2026-02-14 13:20:03
2026-02-14 14:31:00
卡尔的AI沃茨 incentive-icons
卡尔的AI沃茨
前大厂算法工程师,3家科技公司技术总监|致力打造最系统的Al学习体系,让1万人通过Al提高生产力
214文章数 94关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

爱泼斯坦丑闻风暴席卷英国 首相斯塔默被公开"逼宫"

头条要闻

爱泼斯坦丑闻风暴席卷英国 首相斯塔默被公开"逼宫"

体育要闻

一年怒亏2个亿,库里和安德玛的“孽缘”

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

本地
教育
数码
房产
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

教育要闻

过年不想让孩子成为餐桌上的“围猎”对象,这4句话一定要提前说

数码要闻

实战什么水平?天选Air 2026锐龙AI Max版8060S核显游戏对比测试

房产要闻

三亚新机场,又传出新消息!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版