网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

华人学生立大功！新王Mamba-3直击Transformer死穴，推理效率碾压7倍

2026-03-19 10:24:26　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：好困桃子

【新智元导读】Transformer不保？今天，CMU普林斯顿原班人马杀回，新一代开源架构Mamba-3震撼降临。15亿参数战力爆表，性能比Transformer飙升4%。

Transformer「杀手」架构迎重磅升级！

就在今天，Mamba架构的「原班人马」正式发布了最新一代开源架构——Mamba-3。

论文地址：https://arxiv.org/pdf/2603.15569

与Mamba-2相比，Mamba-3对核心SSM做了三大改动：

改进了离散化过程，使其能够模拟卷积；
将状态转移引入复数域，以优化状态追踪；
采用MIMO架构提升推理利用率，在保持解码速度的同时增强模型表现。

结果证明，仅用一半的内部状态大小，Mamba-3实力便与Mamba-2相当。

在15亿参数规模下，Mamba-3 MIMO版本的平均准确率达到57.6%，比Transformer高出4%。

在长序列任务上，Mamba-3的端到端延迟仅为Transformer的七分之一。

剑指Transformer死穴

Mamba-3逆天改命

2017年，Transformer架构横空出世，成为当今LLM的基石。

然而，它是一个不折不扣的「算力黑洞」，随着对话长度增加，计算需求呈平方级增长，内存占用线性飙升，导致大规模推理成本极高。

为打破这一僵局，2023年，首个Mamba架构应运而生。

2024年中，Mamba-2发布，进一步打通了SSM与注意力机制之间的数学等价关系，训练速度提升2-8倍。

如今，由Albert Gu和Tri Dao联合指导、四位学生研究员主力操刀的Mamba-3，带着全新设计哲学登场。

Mamba-3代表着一种范式转移：从追求训练效率，转向「推理优先」的设计。

正如Albert Gu所说，Mamba-2的重点是打破预训练的瓶颈，Mamba-3则是为了解决「冷GPU」问题——

即在解码过程中，现代硬件往往是在干等着数据传输（内存移动），而不是在真正进行计算。

高效秘籍：摘要机器

作为一种状态空间模型（SSM），Mamba-3就像一个高效的「摘要机器」。

其核心逻辑与Transformer有本质区别。

Transformer每生成一个词，都要回顾全部历史token来理解上下文，历史越长负担越重。

而Mamba-3将历史信息实时压缩成一个固定大小的「内部状态」，你可以理解为数据历史的「快照」。

每当新信息进入，架构只需更新快照而无需重读全文。这就是SSM能做到固定内存、线性计算的根本原因。

对SSM来说，这个「快照」的大小（即状态大小）是决定性能的核心旋钮：

状态越大，能压缩的信息越丰富，模型越聪明，但推理时搬运数据的开销也越大，速度就越慢。

反过来，状态缩小一半，速度能快一倍，但模型可能会变笨。

Mamba-3的突破就在这里。它用仅为Mamba-2一半的状态大小，达到了与Mamba-2相当的语言建模性能。

聪明程度不变，速度翻倍——等于把SSM的性能-效率曲线整体往下推了一档。

推理优先，祭出三大核心杀招

Mamba-3是怎么做到的？这背后是一套全新的设计哲学：重新思考AI的「智能」与运行它的硬件速度之间的关系。

如果说Mamba-2是为了刷训练速度的记录，那么Mamba-3就是一种「推理优先」的架构。

所谓推理，就是用户在ChatGPT、Gemini或通过API使用AI的过程。

Mamba-3的核心目标是榨干GPU活跃的每一秒钟，确保模型在不让用户等待的情况下，进行最密集的「思考」。

围绕这个目标，Mamba-3祭出了三招——

数学上，更精准的离散化公式让模型的「记忆」更精确；
能力上，引入复数值状态，就像给模型装了个「内部指南针」，补上了逻辑推理的短板；
硬件上，MIMO机制让芯片不再「带薪休假」，把闲置算力全部榨干，让模型在生成每个词时进行更多「深度思考」，而用户等待的时间一点没变。

接下来逐一拆解。

三大核心技术

指数梯形离散化：从一阶到二阶的精度跃迁

Mamba-1和Mamba-2使用的离散化方法，本质上是一阶近似，类似于用一个端点的高度来估算一段曲线下的面积。

Mamba-3升级为「指数梯形法则」，同时参考两个端点进行加权平均，精度从一阶跃升到二阶。

这看似只是数学层面的微调，效果却出乎意料。

它在SSM的状态输入上隐式引入了一个宽度为2的数据依赖卷积，直接让Mamba-2中必不可少的短因果卷积模块变成了可选项。

消融实验显示，指数梯形离散化与B、C偏置项的组合，能够完全替代过去几乎所有线性模型都依赖的外部短卷积——这是架构简化的重要一步。

复数值SSM：给模型装上「内部指南针」

长期以来，Transformer的替代方案都有一个「逻辑短板」——在简单的状态追踪任务（比如判断二进制序列的奇偶性）中经常翻车。

根本原因在于，Mamba-2将状态转移矩阵限制为实数标量，无法表达「旋转」动态。

举一个直观的例子，奇偶校验本质上是一个翻转操作——每读入一个1，状态就翻转一次。这种翻转在数学上对应旋转，而实数域天然不支持旋转。

Mamba-3通过引入复数值状态空间解决了这个问题。

结果证明，离散化后的复数SSM，等价于在B、C投影上施加一种数据依赖的旋转位置嵌入（RoPE）。

这意味着可以用高效的「RoPE技巧」来实现复数运算，计算开销几乎可以忽略。

数据显示，在奇偶校验任务上，Mamba-3达到100%准确率，而Mamba-2只有0.9%，和随机猜测无异。

在模算术任务上，Mamba-3同样达到98.51%，Mamba-2仅47.81%。线性模型的推理能力终于能和最先进的系统平起平坐。

MIMO：榨干每一分闲置算力

现在的AI模型大多受限于「内存带宽」。

一组数据足以说明问题：Mamba标准SISO解码的算术强度仅约2.5 ops/byte，而NVIDIA H100的bf16张量核心能力是295 ops/byte。

换算下来，GPU在解码时有超过99%的计算能力在空转。

Mamba-3引入多输入多输出（MIMO）公式，将状态更新从外积运算变成矩阵乘法。

当MIMO秩为4时，每一步的计算量增加到原来的4倍，但由于这些计算恰好填满了空闲的张量核心，解码延迟几乎没有增加。

kernel延迟测试验证了这一点。在bf16、状态维度128的常用配置下，Mamba-3 SISO解码延迟仅0.156毫秒，比Mamba-2（0.203毫秒）还快；MIMO版本为0.179毫秒，依然快于Mamba-2。

用一句话总结MIMO的哲学：不是让GPU跑得更快，而是不让它闲着。

全面碾压：从180M到1.5B

研究团队在4个参数规模（180M、440M、880M、1.5B）上进行了系统对比，对手包括Transformer、Mamba-2和Gated DeltaNet（GDN）三大基线。

所有模型使用相同的训练流程、100B FineWeb-Edu数据、Llama-3.1分词器。

在1.5B规模下，Mamba-3 MIMO以57.6%的平均准确率排名第一，领先Transformer 4%、Mamba-2 3.4%、GDN 3.2%。

即使是不使用MIMO的标准版Mamba-3 SISO，也以56.4%超越了所有非Mamba-3基线。

在端到端推理延迟上，16384个token的prefill+decode场景中，Mamba-3 SISO耗时140.61秒，而vLLM跑Llama-3.2-1B需要976.50秒，快了近7倍。

随着序列长度增长，线性模型的优势只会越来越大。

更值得关注的是上下文长度外推能力。所有模型仅在2K长度上训练，然后直接扔到更长的序列上测试。

结果显示，Mamba-3的语言建模表现一路稳步提升直到32K，而Mamba-2在超过训练长度后迅速崩坏。

这说明Mamba-3不仅在训练分布内更强，面对从未见过的长序列时也更加稳健。

混合架构才是终局

不过，Mamba-3团队对一个现实问题并不回避：纯SSM模型在检索任务上仍不如Transformer。

这很好理解。固定大小的状态就像一个容量有限的笔记本，而Transformer的KV缓存是一个可以无限扩展的档案柜。需要精确回忆「第三段第二句话说了什么」时，档案柜天然更占优。

他们的解法是混合架构：将Mamba-3层与无位置编码的自注意力层按5:1比例交替堆叠。

实验显示，这种混合模型在检索任务上超过了纯Transformer基线，同时保持了线性模型的高效推理能力。

这也印证了行业趋势，Nemotron-H、Kimi Linear、HunyuanTurboS都在走混合路线，把Mamba层和注意力层穿插组合。

未来最有竞争力的模型架构，大概率不是「非此即彼」，而是「各取所长」。

华人学生立大功

这次Mamba-3的一个突出特点是「学生主导」。

正如Gu在发布推文中写道：「这是第一个由学生主导的Mamba，所有功劳归于他们。」

Kevin Li

Kevin Li是卡内基梅隆大学机器学习系的博三在读生。

在此之前，他在佐治亚理工学院完成了计算机科学和生物医学工程的本科课程，导师是Polo Chau教授。

个人研究兴趣主要集中在开发高效的深度学习架构与方法，以及通过扩展推理端算力来提升模型的逻辑推理能力和通用性能。

Berlin Chen

Berlin Chen目前是普林斯顿大学计算机科学博士生，也是Together AI实习生。

此前，他曾获得了剑桥大学数学硕士学位，斯沃斯莫尔学院（Swarthmore College）的数学与计算机科学学士学位。

Caitlin Wang

Caitlin Wang目前是普林斯顿大学计算机科学专业的大学生。

共同指导者之一的Tri Dao，越南裔美国人，斯坦福博士毕业后加入普林斯顿担任助理教授，同时也是Together AI的联合创始人兼首席科学家。

他更广为人知的身份是FlashAttention的发明者——这个几乎被所有主流AI框架集成的算法，直接改变了Transformer模型的训练和推理方式。2025年，他获得了Schmidt Sciences颁发的AI2050 Fellowship。

另一位指导者Albert Gu，华裔，CMU机器学习系助理教授，同时也是语音AI公司Cartesia的联合创始人兼首席科学家。

2024年，他被TIME杂志评选为「AI领域100位最具影响力人物」。

在X上，他的个人简介写着「leading the SSM revolution」（引领SSM革命），两年多内监督了Mamba三代架构的诞生。

可以说，整个SSM革命的理论根基，就是由这位华人学者一手奠定的。

参考资料：

https://venturebeat.com/technology/open-source-mamba-3-arrives-to-surpass-transformer-architecture-with-nearly

https://x.com/_albertgu/status/2033948415139451045?s=20

https://arxiv.org/pdf/2603.15569

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

光计算芯片，走到量产门口了吗？

钛媒体APP 2026-07-29 09:04:05
0 跟贴 0
两小时复现顶会网络系统！厦大团队让论文自动变成可运行代码｜SIGCOMM 2026

机器之心Pro 2026-07-28 22:49:45
0 跟贴 0

Ilya获黄仁勋重金押注！10倍算力供给，50亿美金投资在路上了？

智东西 2026-07-28 09:39:23
26 跟贴 26

领先于Transformer！

机器之心Pro 2026-05-06 17:01:48
0 跟贴 0
GaussianDWM：用3D高斯表示统一自动驾驶场景理解与多模态生成

机器之心Pro 2026-06-14 19:24:09
0 跟贴 0

数字推理，2，3，6，18，109，（）

公考客栈店小二 2026-07-27 18:00:00
1 跟贴 1

视频生成模型会「推理」吗？303道题全面揭示世界模型的推理短板

机器之心Pro 2026-06-28 18:29:07
0 跟贴 0
东野圭吾死讯传来仅1天，人民日报、央视接连发声，态度出奇一致

林轻吟 2026-07-29 09:35:55
1 跟贴 1

给世界模型加上因果，她要让机器人真正理解“为什么”

DeepTech深科技 2026-06-20 11:32:15
0 跟贴 0
Transformer解决计算问题？人大团队指出上限取决于上下文管理

机器之心Pro 2026-06-12 12:58:06
0 跟贴 0
我把昨晚的梦输入AI，它居然直接把我拉进去玩儿了一把？！

量子位 2026-06-19 16:40:27
0 跟贴 0
曾因东野圭吾入行的编辑午夜落泪：参与过其作品出版，“可以无所顾忌地流泪了”

新浪财经 2026-07-29 07:23:41
2 跟贴 2
美反华机构：以后我们每年都要去中国

澎湃新闻 2026-07-28 14:48:08
12259 跟贴 12259
不同价位的遥控模型车，马力没对比就没伤害，压轴的都是王者！

欢乐搞笑站 2026-07-25 11:02:04
4 跟贴 4
东野圭吾：为什么市面上永远找不到他的代餐

思考不息 2026-07-29 10:25:39
0 跟贴 0
名师高徒硬核教学！邓亚萍严苛把控颗粒度邓亚萍深度剖析训练逻辑乒乓球

咪咕体育 2026-07-27 10:57:22
0 跟贴 0
有的时候看得更明白一些，事情也会更顺#强者思维逻辑 #认知提升

叫我金主编 2026-07-29 07:26:07
0 跟贴 0
中国无人战“底牌”：中兵集团全自主作战，颠覆战争逻辑

爱歌唱的叮当猫 2026-07-27 13:15:08
1 跟贴 1
初中数学解方程平方差立方和公式

天天数理学习分享 2026-07-26 16:55:52
5 跟贴 5
五次方程为什么没有根式解？真正高中生也能看懂的群论科普（一）

北欧模式 2026-07-25 15:06:45
0 跟贴 0
逻辑有问题，他就是见不得别人比他好！

梦喋说影视 2026-07-28 12:18:47
1 跟贴 1
好莱坞幕后制作团队，通过模型拍摄海啸侵袭城市场景

车马点兵V 2026-07-28 14:27:25
8 跟贴 8
上半年税务部门累计征收税费收入16.7万亿元！得益于经济运行总体平稳向好，国家财力保障不断夯实

每日经济新闻 2026-07-28 17:09:08
9220 跟贴 9220
东野圭吾病逝！从《放学后》到《祈念守护人》，留下106册推理经典

趣娱情报站 2026-07-27 16:26:47
3 跟贴 3
郑大一附院药学部原主任帮助药品进医院，销售金额10.45亿，分成2433万，为躲审查由药商代持

大风新闻 2026-07-28 18:31:41
2187 跟贴 2187
给Transformer变个形，LLM竟能变得更聪明

机器之心Pro 2026-06-29 18:39:15
1 跟贴 1
男子遇到挑山工师傅休息，帮忙挑一程尝试下他们的工作

无限鹤壁 2026-07-28 17:27:25
290 跟贴 290
广东一医生工作群里发布极端请假言论引热议医院：高度重视，正在核实调查

封面新闻 2026-07-29 10:58:03
2304 跟贴 2304
柳智宇谈邓煜、王虹获奖：羡慕他们的纯粹，但从未后悔自己的选择

新京报 2026-07-28 19:05:29
586 跟贴 586
Kimi K3竟是GPT-2的22580倍，博主「肝」48小时发现：七年进化大模型不只是参数暴涨

机器之心Pro 2026-07-29 10:36:01
0 跟贴 0
行李箱忘高铁上不给转运女子找朋友开6个小时车取回

大风新闻 2026-07-28 19:56:33
497 跟贴 497
三年级竞赛，求红色面积？和差公式

大力小学数学 2026-07-29 06:39:00
1 跟贴 1
按剩余价值公式，民营老板们到底剥削了多少？

生命可以承受之轻 2026-07-29 06:03:15
52 跟贴 52
40℃的高温，可乐和冰红茶却“没人要”

蓝鲸新闻 2026-07-28 20:28:17
987 跟贴 987
C919高原型首架机完成首飞

新京报 2026-07-29 10:07:24
1588 跟贴 1588
光计算来到商业化拐点，中国企业开始创造自己的“硬件彩票”

智东西 2026-07-27 13:40:47
0 跟贴 0
吴起县联合调查组：大家无需恐慌

新京报政事儿 2026-07-29 06:53:00
880 跟贴 880
创意模型广告来袭，肖战化身AI太单纯！#肖战

娱乐在一起668 2026-07-27 12:17:08
0 跟贴 0
ECCV 2026｜当RGB变成不可靠变量：InfraNet用非对称学习重构RGB-IR检测

机器之心Pro 2026-07-19 19:57:47
0 跟贴 0
加强版“动力心脏”全球爆单，订单已排到2027年

齐鲁壹点 2026-07-29 07:12:30
76 跟贴 76

三伏天开空调，只按“制冷”是大错！难怪费电又伤身

三伏天开空调，只按“制冷”是大错！难怪费电又伤身

小柱解说游戏

2026-07-27 02:00:59

1500平豪华墓主威胁曝光者删文：让公安来抓你，带人来砍死你！

1500平豪华墓主威胁曝光者删文：让公安来抓你，带人来砍死你！

兵叔评说

2026-07-28 11:26:51

卧槽！詹姆斯心心念的节奏之王，可算回来了

卧槽！詹姆斯心心念的节奏之王，可算回来了

体育新角度

2026-07-29 09:31:12

老黄「开源协议」就剩一家没签，是谁啊好难猜啊

老黄「开源协议」就剩一家没签，是谁啊好难猜啊

量子位

2026-07-27 15:55:00

马季徒弟常佩业昨去世 8个多月前搭档离世时或许就有某种不祥预感

马季徒弟常佩业昨去世 8个多月前搭档离世时或许就有某种不祥预感

小椰的奶奶

2026-07-29 10:21:04

民国最狠婆婆：不吵不闹只用一招断绝小三念想，把风流薄情的才子拿捏得死死的

民国最狠婆婆：不吵不闹只用一招断绝小三念想，把风流薄情的才子拿捏得死死的

磊子讲史

2026-07-27 11:39:06

方舟子：象棋是印度发明，因为中国从来就没有过大象，河南人笑了

方舟子：象棋是印度发明，因为中国从来就没有过大象，河南人笑了

蜉蝣说

2026-07-29 09:12:43

库里下家概率马刺升第二！热火黄蜂也加入争夺美记称夏洛特筹码最佳

库里下家概率马刺升第二！热火黄蜂也加入争夺美记称夏洛特筹码最佳

颜小白的篮球梦

2026-07-29 12:38:46

网传王虹在北大数院遭“冷遇” 原院长澄清

网传王虹在北大数院遭“冷遇” 原院长澄清

看看新闻Knews

2026-07-28 23:07:25

广州一青旅发布通告：本店不会再接待印度站点的任何订单，原因曝光

广州一青旅发布通告：本店不会再接待印度站点的任何订单，原因曝光

小徐讲八卦

2026-07-29 08:11:30

55年授衔时，志愿军军长回村种地不予授衔，朱老总大怒：不能没他

55年授衔时，志愿军军长回村种地不予授衔，朱老总大怒：不能没他

兴趣知识

2026-07-02 03:37:55

闹大了！知名男星坐高铁霸座，1743元票价不掏，官方怒批后果发酵

闹大了！知名男星坐高铁霸座，1743元票价不掏，官方怒批后果发酵

寒士之言本尊

2026-07-27 15:14:31

处罚太轻了！4辆越野车高速并排行驶被通报引争议，涉事车来自上海和苏州

处罚太轻了！4辆越野车高速并排行驶被通报引争议，涉事车来自上海和苏州

火山詩话

2026-07-29 08:19:40

“多走多动”是错的？医生告诫：过了70岁，走路尽量要做到这6点

“多走多动”是错的？医生告诫：过了70岁，走路尽量要做到这6点

坠入二次元的海洋

2026-07-23 17:56:09

降本降出了召回：小鹏X9的1.8万元“学费”着实有点贵

降本降出了召回：小鹏X9的1.8万元“学费”着实有点贵

博望商业

2026-07-28 16:46:48

1-2！郑钦文沦为鱼腩！比输菲律宾小将可怕的是，赛前发言引争议

1-2！郑钦文沦为鱼腩！比输菲律宾小将可怕的是，赛前发言引争议

大秦壁虎白话体育

2026-07-29 08:27:24

三星旗舰PCIe 5.0固态2TB版跌至434澳元不到一天截止

三星旗舰PCIe 5.0固态2TB版跌至434澳元不到一天截止

闪存猎手

2026-07-28 12:24:15

比亚迪董秘：六年前比亚迪以 198亿投前估值参与了长鑫科技首轮融资

比亚迪董秘：六年前比亚迪以 198亿投前估值参与了长鑫科技首轮融资

每日经济新闻

2026-07-28 15:54:37

欧盟炸锅了：当初谁提议制裁中国的？德国猛拍桌子，法国低头不语

欧盟炸锅了：当初谁提议制裁中国的？德国猛拍桌子，法国低头不语

菁菁子衿

2026-07-27 15:17:01

“白海豚”1天内爆发式增强至超强台风级，24小时后还将有所加强，未来5天对我国无影响

“白海豚”1天内爆发式增强至超强台风级，24小时后还将有所加强，未来5天对我国无影响

鲁中晨报

2026-07-29 09:12:04

AI产业主平台领航智能+时代

15813文章数 66976关注度

往期回顾全部

科技要闻

千名AI员工联署：别让AI快到人类跟不上

头条要闻

泽连斯基称与伊朗处于战争中学者：释放极度危险信号

头条要闻

泽连斯基称与伊朗处于战争中学者：释放极度危险信号

体育要闻

毫无存在感的NBA状元，最先谢谢惠顾？

娱乐要闻

吴镇宇儿子自曝小学时遭同学霸凌

财经要闻

“轻AI”策略重塑科技股叙事？

汽车要闻

24K金LOGO，纯手工打磨腰线，第二代腾势D9暗夜鎏金高定色，一天只能造3台？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

教育

时尚

旅游

本地

艺术要闻

造价20亿美元！印度首富的家，舆论上两极分化

教育要闻

劝退：为什么被捧上天的新加坡留学是个坑？

拿来吧你，“二手知识”就是力量！

旅游要闻

开屏新闻带你实地探访昆明新晋网红打卡点——巫家坝中央公园

本地新闻

跟着影视去旅行：八仙篇

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版