网易首页 > 网易号 > 正文 申请入驻

腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗

0
分享至


机器之心报道

编辑:Panda、张倩

在过去的一两年中,Transformer 架构不断面临来自新兴架构的挑战。

在众多非 Transformer 架构中,Mamba 无疑是声量较大且后续发展较好的一个。然而,与最初发布时那种仿佛「水火不容」的局面不同,最近一段时间,这两种架构似乎正在走向融合。

上周五,腾讯宣布推出自研深度思考模型「混元 T1」正式版,这是一个能秒回、吐字快、擅长超长文处理的强推理模型。而之所以具备这些优势,很大程度上是因为腾讯采用了 Hybrid-Mamba-Transformer 融合架构。这一架构有效降低了传统 Transformer 架构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 实现首字秒出,吐字速度最快可达 80 token/s。

与此同时,英伟达也推出了一个采用 Mamba-Transformer 混合架构的模型家族 ——Nemotron-H,其速度是同体量竞品模型的三倍。

速度的提升与成本的降低,是 AI 大模型迈向更广泛应用与普及的必经之路。如今,腾讯、英伟达等科技巨头对 Mamba-Transformer 混合架构的高度关注与投入,释放出一个极为重要的信号:此类架构所蕴含的巨大价值,值得我们深入挖掘与探索。

恰好,滑铁卢大学计算机科学助理教授陈文虎(Wenhu Chen)最近发帖,盘点了一下最近的几款 Mamba-Transformer 模型。我们对他的盘点进行了整理,希望能带给大家一些启发。

Mamba-Transformer 简介

Mamba-Transformer 混合架构,顾名思义,就是将 Mamba 与 Transformer 架构组合到一起。

Transformer 想必大家已经非常熟悉了,简单来说:Transformer 架构是一种以自注意力机制为核心的深度学习模型,自 2017 年由 Ashish Vaswani 等人提出以来,便革新了传统序列模型的设计理念。其关键在于多头自注意力机制能够在全局范围内捕捉输入序列中各元素之间的复杂依赖关系,同时通过位置编码保留序列位置信息,加上残差连接和层归一化等技术确保了高效的并行计算和稳定的训练过程。这种架构不仅显著提升了机器翻译、文本生成等自然语言处理任务的性能,也为后续 BERT、GPT 等预训练模型的快速发展奠定了坚实基础。

经典 Transformer 架构

而 Mamba 则是一种状态空间模型(SSM)—— 该架构的一大显著优势是能高效地捕获序列数据中的复杂依赖关系,并由此成为 Transformer 的一大强劲对手。

经典的状态空间模型可被视为循环神经网络(RNN)和卷积神经网络的(CNN 融合模型。它们可使用循环或卷积运算进行高效地计算,从而让计算开销随序列长度而线性或近线性地变化,由此大幅降低计算成本。

作为 SSM 最成功的变体架构之一,Mamba 的建模能力已经可以比肩 Transformer,同时还能维持随序列长度的线性可扩展性。

Mamba 首先引入了一个简单却有效的选择机制,可根据输入对 SSM 进行重新参数化,从而可让模型在滤除不相关信息的同时无限期地保留必要和相关的数据。然后,Mamba 还包含一种硬件感知型算法,可使用扫描(scan)而非卷积来循环地计算模型,这在 A100 GPU 上能让计算速度提升 3 倍。

凭借强大的建模复杂长序列数据的能力和近乎线性的可扩展性,Mamba 已经崛起成为一种重要的基础模型架构。关于 Mamba 架构的更详细介绍可参阅机器之心文章《一文看懂 Mamba,Transformer 最强竞争者》以及《再战 Transformer!原作者带队的 Mamba 2 来了,新架构训练效率大幅提升》。

而要将 Mamba 与 Transformer 混合到一起,常见的方式有两种:层级混合与序列级混合。如下图所示,当前的 Mamba-Transformer 混合架构模型会根据自身需要选择不同的混合策略。

Nemotron-H

3 月 21 日,英伟达推出了 Nemotron-H 系列的 Mamba-Transformer 混合架构模型,其中包含多种规模的多种模型,比如 Nemotron-H-8B-Base、Nemotron-H-8B-Instruct、Nemotron-H-8B-VLM、Nemotron-H-47B-Base、 Nemotron-H-56B-Base、Nemotron-H-56B-VLM。其中 47B 版本可以在单台商品级 NVIDIA RTX 5090 GPU 上以 FP4 精度支持 100 万 token 长度上下文的推理。

实际上,Nemotron-H 就是英伟达近期发布的用于物理 AI 的强大 VLM 模型 Cosmos-Reason 1 背后的骨干网络。

据介绍,通过采用 Mamba-Transformer 混合架构,相比于 SOTA 的开源纯 Transformer 模型,Nemotron-H 在保证了相当乃至更好的准确度的同时,可以提供远远更快的推理速度(高达 3 倍)。下面两图展示了在 MMLU-Pro 基准上,Nemotron-H 与同等数量级参数的开源 Transformer 模型的准确度与吞吐量对比。可以看到,Nemotron-H 具有非常明显的效率优势。

此外,英伟达也公布了 Nemotron-H 的其它一些细节,包括 Nemotron-H-56B-Base 的训练使用了 6144 台 H100 GPU 和 20 万亿 token,训练精度为 FP8(是 FP8 预训练的一次大规模展示);Nemotron-H-47B-Base 是 Nemotron-H-56B-Base 的蒸馏版 —— 蒸馏精度为 FP8 并使用了 630 亿训练 token。

Hunyuan-Turbo-S 和 Hunyuan-T1

3 月 21 日同一天,腾讯也宣布推出了深度思考模型混元 T1 正式版,并同步在腾讯云官网上线。而在此之前,他们已于 3 月初发布了混元 Turbo S 基础模型以及之后的混元 T1-preview 模型。

这些模型都采用了 Mamba-Transformer 混合架构,其中 T1 更是一款使用了大规模强化学习的强推理模型,在数学、逻辑推理、科学和代码等理科难题具有非常明显的优势。当然,Mamba-Transformer 高效率的优势也在这里有非常明显的体现。

比如在大语言模型评估增强数据集 MMLU-PRO 上,混元 T1 取得了 87.2 分,仅次于 o1。在 CEval、AIME、Zebra Logic 等中英文知识及竞赛级数学、逻辑推理的公开基准测试中,混元 T1 的成绩也达到业界领先推理模型的水平。

据介绍,混元 T1 正式版沿用了混元 Turbo S 的创新架构,采用 Hybrid-Mamba-Transformer 融合模式。这是工业界首次将混合 Mamba 架构无损应用于超大型推理模型。

这一架构有效降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 实现首字秒出,吐字速度达到最快 80 token/s。

混元 T1 与 DeepSeek-R1 的吐字速度对比

混元 T1 在超长文本推理领域也展现出独特优势。基于出色的长文捕捉能力,混元 T1 能有效解决长文推理中常见的上下文丢失和长距离信息依赖问题。同时,混合 Mamba 架构针对长序列处理进行了专项优化,通过高效的计算方式,在确保长文本信息捕捉能力的同时大幅降低资源消耗,在相近的激活参数量下,实现了解码速度提升 2 倍。

在体现推理模型基础能力的常见 benchmark 上,如大语言模型评估增强数据集 MMLU-PRO 中,混元 T1 取得 87.2 分,仅次于 o1。在 CEval、AIME、Zebra Logic 等中英文知识及竞赛级数学、逻辑推理的公开基准测试中,混元 T1 的成绩也达到业界领先推理模型的水平。

STORM

STORM 同样来自英伟达,是一款基于视频的多模态大型语言模型(Video-LLM)。相关研究论文已于本月初发布。

  • 论文标题:Token-Efficient Long Video Understanding for Multimodal LLMs
  • 论文地址:https://arxiv.org/pdf/2503.04130

具体技术上,STORM 在图像编码器和 LLM 之间引入了一种新的时间编码器,从而将视觉和语言表征整合到了一起。该架构在工作流程早期引入了时间动态,从而可以显著提升 Video-LLM 的时间推理能力,同时还能大幅提升的下游计算效率。该团队表示:「通过将时间信息直接注入视觉 token,可以减轻 LLM 的时间推理负担,使其能够专注于更高级的语言任务。」

架构上,他们采用了 Mamba 状态空间模型作为时间层的核心,这既能高效处理长视频,同时也可增强对经过扩展的时间上下文的泛化。这个时间层对图像和视频输入的处理方式不同 —— 对于图像,它的作用是空间扫描器,通过结合全局空间上下文来增强 token;对于视频,它同时执行空间和时间扫描,以捕获全面的时空信息。

Mamba 层的主要优势在于它能够将历史信息压缩为状态表征。由于视频输入中的连续帧通常包含冗余信息,因此时间编码器可以有效地处理和传播整个视频序列的时间信息。这样一来,生成的视觉 token 本身就封装了时间历史,并有效地总结了视频的时间动态。

有了这一特性,LLM 处理所需的视觉 token 就更少了,同时还能保留关键信息。

他们的实验表明,新提出的方法效果很好,并且可以成功扩展到长上下文视频理解模型,而不会影响训练效率。

Vamba

Vamba 则是一个用于长视频理解的 Mamba-Transformer 混合模型,来自前文中提到的陈文虎团队。

我们知道,由于因果自注意力运算的二次复杂度(会导致训练和推理的计算成本很高),当前领先的 Transformer LMM 其实很难处理长视频,尤其是当视频长度长达 1 个小时以上时。现在虽有一些 token 压缩方法可以减少视频 token 的数量,但往往会丢失一些信息,并且处理极长序列的效率很低。

于是 Vamba 团队探索了另一个方向:不对视频 token 进行压缩,而是使用另一种模型架构来提高在训练和推理预填充阶段处理视频 token 的效率。

VAMBA 由此诞生!这款混合 Mamba-Transformer 模型可以对长达 1 个小时的视频实现高效的理解。该团队说明了设计这一架构的关键见解:可以设计高效的模块来近似基于 Transformer 的 LMM 中文本和视频 token 的因果自注意力运算。

  • 论文标题:VAMBA: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
  • 论文地址:https://arxiv.org/pdf/2503.11579
  • 项目地址:https://tiger-ai-lab.github.io/Vamba/

具体来说,他们提出:

1、利用交叉注意力机制根据视频 token 更新文本 token,由于文本 token 的长度较短,这种方法成本较低;

2、采用 Mamba-2 以线性复杂度处理大量视频 token。

假设输入序列为 M + N 个 token,其中 M 是视频 token 的数量,N 是文本 token 的数量,该团队发现在许多长视频任务(M ≫ N)上,M 至少是 N 的 100 倍。

而该团队提出的新模型可以将训练 / 预填充计算复杂度从 O (d (M + N)²) 降低到 O (dMN + d²M),其中 d 是隐藏维度。不过该团队也指出,在实践中,由于目前 Mamba 的硬件优化不足,这种理论上的改进可能无法完全实现。

尽管如此,他们仍然观察到,在长视频输入的训练和推理过程中,GPU 内存使用量和 FLOP / 运行时间减少了 50% 以上。

VAMBA 可以使用 8 台 A100 GPU 进行有效训练,而 LongVU 和 LongLLaVA 分别需要 64 和 24 台 GPU 进行训练。通过进行两阶段训练,新提出的 VAMBA 在高难度的小时级视频理解基准 LVBench 上比之前最高效的视频 LMM 提高了 4.3%。在其他长视频理解数据集上,如 Video-MME、MLVU 和 LongVideoBench ,VAMBA 也表现出色。

看起来,Mamba-Transformer 混合架构已经开始在推理以及多模态任务中展露头角。通过合理的设计,Transformer 强大的性能可以与 Mamba 在长上下文和效率上的优势整合到一起,为大型语言模型(LLM)和大型多模态模型(LMM)带来新的可能性。

机器之心也曾报道过其它一些 Mamba-Transformer 混合架构模型,详情访问以下链接:

《首个 Mamba+Transformer 混合架构多模态大模型来了,实现单卡千图推理》

《Attention isn’t all you need!Mamba 混合大模型开源:三倍 Transformer 吞吐量》

参考内容

https://x.com/WenhuChen/status/1903656455036715311

https://research.nvidia.com/labs/adlr/nemotronh/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破案!陈家政表现神勇杜锋却全程黑脸原因找到,现场球迷说出实情

破案!陈家政表现神勇杜锋却全程黑脸原因找到,现场球迷说出实情

后仰大风车
2026-03-26 08:15:08
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

白露文娱志
2026-03-26 16:41:18
电影《挽救计划》高口碑热映 以跨文明协作诠释守望相助温暖内核

电影《挽救计划》高口碑热映 以跨文明协作诠释守望相助温暖内核

封面新闻
2026-03-26 18:56:02
定了!全票通过!杜兰特又要换队……

定了!全票通过!杜兰特又要换队……

贵圈真乱
2026-03-26 11:35:13
伊朗计划向通过霍尔木兹海峡的船只收取安全通行费

伊朗计划向通过霍尔木兹海峡的船只收取安全通行费

新浪财经
2026-03-26 20:28:52
独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

新浪财经
2026-03-24 22:43:29
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
国金证券:长期来看黄金有望开启新一轮大牛市

国金证券:长期来看黄金有望开启新一轮大牛市

财联社
2026-03-26 08:08:04
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
波兰磨刀:谁将是压垮俄罗斯的最后一根稻草

波兰磨刀:谁将是压垮俄罗斯的最后一根稻草

民间胡扯老哥
2026-03-23 18:56:09
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
3月26日下午中国女排!传来朱婷、李盈莹、袁心玥最新消息

3月26日下午中国女排!传来朱婷、李盈莹、袁心玥最新消息

民哥台球解说
2026-03-26 16:17:49
崩了,知名光伏公司大规模停产,大面积待岗!

崩了,知名光伏公司大规模停产,大面积待岗!

黯泉
2026-03-25 21:36:39
随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

侧身凌空斩
2026-03-25 21:41:35
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈

不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈

哎呀哎呀看电影
2026-03-26 19:41:54
站在c位的是谁?张怡宁和郭晶晶两位同框,她在中间看着气场不小

站在c位的是谁?张怡宁和郭晶晶两位同框,她在中间看着气场不小

陈意小可爱
2026-03-26 07:59:48
逐玉爆火后最大的受益者,51岁翻红,涨粉百万!

逐玉爆火后最大的受益者,51岁翻红,涨粉百万!

娱人细品
2026-03-25 20:39:14
2026-03-26 21:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
艺术
旅游
家居
数码

手机要闻

OPPO K15 Pro系列突然官宣:天玑9500s+主动散热,4月1日发布

艺术要闻

哪一座桥不是风景?

旅游要闻

20元人民币背景观景台乱收费?景区通报:不存在封闭管控、强制收费等

家居要闻

傍海而居 静观蝴蝶海

数码要闻

小米Book Pro 14超薄设计引爆市场!这家国产厂商立功了

无障碍浏览 进入关怀版