网易首页 > 网易号 > 正文 申请入驻

Bengio团队找到了一种超越Transformer的硬件对齐方案

0
分享至

编辑|Panda

Transformer 已经改变了世界,但也并非完美,依然还是有竞争者,比如线性递归(Linear Recurrences)或状态空间模型(SSM)。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。

然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往并不如人意,会受限于内存带宽和全局同步带来的高昂通信成本。

近日,Radical Numerics 与蒙特利尔大学 Yoshua Bengio 团队找了一个新思路,为 LLM 的效率进化提供了一个极具启发性的工程视角。该团队通过将线性递归重新定义为硬件对齐的矩阵运算,提出了一套能够相当完美契合 GPU 内存层级的算法框架。



  • 论文标题:Sliding Window Recurrences for Sequence Models
  • 论文地址:https://arxiv.org/abs/2512.13921

该研究有三位共一作者:Dragos Secrieru、Garyk Brixi 和 Stefano Massaroli。他们都是 Radical Numerics 的成员,这家旨在打造科学超级智能的创业公司已经取得了一些亮眼的突破性进展,包括首批使用百万级上下文窗口训练的模型以及 Evo 和 Evo 2 这两个生成式基因组学模型。

核心挑战:打破线性递归的「内存墙」

该团队首先指出,尽管并行扫描(Parallel Scan)算法在逻辑上能以 O(log n)的深度并行化处理递归,但它们在现代分级内存硬件上表现得并不理想。

传统的并行扫描算法,如 Kogge-Stone,具有极低的算法深度,但其数据访问模式往往跨越全局地址空间,导致频繁的全局内存同步和洗牌操作。



在 GPU 这种具有多级缓存(寄存器、共享内存、显存)的架构中,这种「扁平化」的算法策略不仅无法有效利用数据局部性,更无法发挥 Tensor Core 等专用矩阵乘法硬件的计算峰值。

这种由于数据移动而非计算本身导致的瓶颈,正是长文本大模型训练和推理中亟待解决的「内存墙」问题。

为了从数学层面拆解这一问题,论文引入了转移算子(Transfer Operator)的矩阵理论。





这一分解揭示了一个关键点:跨块通信的本质是秩 - 1(Rank-one)的低秩更新。这为消除全局同步提供了理论上的切入点。

解决方案:滑动窗口循环与 B2P 算法

该论文最核心的贡献是提出了滑动窗口循环(SWR),这是一种通过策略性截断计算视界来换取极高吞吐量的原语。





为了将这一理论落地,作者开发了块两步(Block Two-Pass, B2P)算法及其对应的 CUDA 内核。



该算法将计算过程分为两个阶段:

在第一阶段,每个线程束(Warp)并行处理一个大小为 16 的本地块(与 Warp 大小对齐),利用 Tensor Core 通过 GEMM 方式完成高效的本地递归求解。

在第二阶段,算法通过 GPU 片上的共享内存(SMEM)或分布式共享内存(DSMEM)在相邻块之间传递状态载体,并进行即时的秩-1 补偿。

这种设计确保了输入数据只需从显存读取一次,所有中间通信均发生在芯片内部,实现了接近恒定的 O (1) 算法深度和极佳的硬件利用率。





Phalanx 层设计与层级架构集成

基于 B2P 算法,作者设计了名为Phalanx的新型计算层,它可以作为滑动窗口注意力或线性递归层的无缝替代品。在层参数化方面,Phalanx 遵循极简原则,通过 Sigmoid 激活函数将递归系数 a_i 限制在 (0, 1) 的稳定区间内,从而保证了长序列处理时的数值稳定性。



同时,该层采用了基于头(Head)的参数共享模式,每个头共享一套递归系数,这与 Tensor Core 处理 16×16 矩阵瓦片的计算模型完美契合。

Phalanx 被定位为混合架构中的「局部专家」,专门负责高效捕获短程令牌互动,而将长程路由任务交给全局注意力层。这种职能分工使得模型能够在不损失精度的前提下,大幅减少跨内存层级的数据移动。

更多细节请访问原论文。

实验结果:速度与质量的双重突破

在针对 1.3B 参数规模模型的系统性测试中,Phalanx 展现出了显著的性能优势。在 FineWeb-Edu 数据集上,Phalanx+Attention 混合模型在多个维度上超越了优化的 Transformer 和滑动窗口注意力(SWA)基准。



在训练吞吐量方面,当上下文长度在 4K 到 32K 之间时,Phalanx 混合模型实现了 10% 到 40% 的端到端提速。



在 8K 上下文的训练任务中,Phalanx 混合模型的训练速度比传统的 SWA/Attention 混合架构快 28%,甚至在短序列长度下也表现卓越,在 Hopper GPU 上比纯注意力模型提升了 10% 的训练吞吐量。

在模型精度方面,实验数据显示 Phalanx 在匹配 Transformer++ 基准性能的同时,甚至在特定比例下取得了更低的困惑度。

例如,在 1:1 的混合比下,Phalanx 达到了 10.85 的困惑度,优于 Transformer++ 的 10.95。



此外,通过对衰减系数和门控机制的消融实验,作者证明了其精心设计的参数化方案对于维持模型表现的关键作用。更多详情请参阅原论文。

总结与行业意义

《Sliding Window Recurrences for Sequence Models》为下一代长文本模型架构指明了一个方向:真正的效率并非仅仅来自算法复杂度的降低,更来自于对底层计算硬件物理特性的深刻理解与对齐。

通过将数学上的线性递归转化为硬件友好的块级矩阵运算,Phalanx 层成功在训练速度与模型质量之间找到了一个更优的平衡点。

随着 2025 年之后 LLM 继续向超大规模上下文和实时具身智能演进,这种硬件感知的算子设计将成为构建更绿色、更强大 AI 系统的核心基石。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法国冠军车手锐评张雪机车夺冠,7字一针见血,字字直戳国人心窝

法国冠军车手锐评张雪机车夺冠,7字一针见血,字字直戳国人心窝

以茶带书
2026-04-06 14:11:13
万科的清算才刚刚开始!谁都逃不了!

万科的清算才刚刚开始!谁都逃不了!

伊历史
2026-04-06 14:41:46
胡金秋27+9爆发!卫冕冠军广厦灭广州止连败 袁照耀20+5三分

胡金秋27+9爆发!卫冕冠军广厦灭广州止连败 袁照耀20+5三分

醉卧浮生
2026-04-06 21:27:12
伊朗发动第98波行动,袭击美“的黎波里”号军舰!以空袭伊最大石化设施,打死“圣城旅”特种部队指挥官!美媒:停火“依然渺茫”

伊朗发动第98波行动,袭击美“的黎波里”号军舰!以空袭伊最大石化设施,打死“圣城旅”特种部队指挥官!美媒:停火“依然渺茫”

每日经济新闻
2026-04-06 21:04:04
无油可加!澳大利亚144家加油站燃料耗尽,能源部长:全国目前汽油储备约39天,柴油和航空燃料储备均约29天

无油可加!澳大利亚144家加油站燃料耗尽,能源部长:全国目前汽油储备约39天,柴油和航空燃料储备均约29天

都市快报橙柿互动
2026-04-06 12:34:39
和稀泥终于引起公愤了!

和稀泥终于引起公愤了!

胖胖说他不胖
2026-04-06 09:00:47
上海三甲医院专家凌晨发文:1小时来了6个心梗,这一波很密集!42岁男子打球时突然胸痛,还好队友反应快

上海三甲医院专家凌晨发文:1小时来了6个心梗,这一波很密集!42岁男子打球时突然胸痛,还好队友反应快

新民晚报
2026-04-06 15:15:31
民主刚果体育部长:我们要在世界杯首战让C罗哭泣,并全取三分

民主刚果体育部长:我们要在世界杯首战让C罗哭泣,并全取三分

懂球帝
2026-04-06 21:56:20
郑丽文访陆在即,连战家族突然充当监军,公开反对郑丽文做一事

郑丽文访陆在即,连战家族突然充当监军,公开反对郑丽文做一事

沧海旅行家
2026-04-06 14:55:09
“祖先给的特权”,河南网友称祖坟在景区祭祖免票,景区回应:没过检票口,一般是附近住户的祖坟

“祖先给的特权”,河南网友称祖坟在景区祭祖免票,景区回应:没过检票口,一般是附近住户的祖坟

大风新闻
2026-04-06 15:06:12
陈光标称已向嫣然医院捐赠1000万元,张雪评论“标哥真男人”,二手车商:车没收成,但心里很暖

陈光标称已向嫣然医院捐赠1000万元,张雪评论“标哥真男人”,二手车商:车没收成,但心里很暖

极目新闻
2026-04-06 21:04:20
快讯!这次中国政府必须得给英国送锦旗!

快讯!这次中国政府必须得给英国送锦旗!

达文西看世界
2026-04-06 14:02:47
张雪峰的猝死,与一个预制菜厂老板的自白

张雪峰的猝死,与一个预制菜厂老板的自白

掌趣新观
2026-03-31 22:33:12
尊重历史,青海马家军在陕西山西河南跟日军血战八年,是真的吗?

尊重历史,青海马家军在陕西山西河南跟日军血战八年,是真的吗?

史之铭
2026-04-06 17:12:29
美国坠毁的运输机,到底是伊朗打下来的,还是美国人自己炸毁的?

美国坠毁的运输机,到底是伊朗打下来的,还是美国人自己炸毁的?

小萝卜丝
2026-04-06 17:14:42
“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

妍妍教育日记
2026-04-06 09:15:12
伊朗发布美军士兵遗体照:在一架坠毁运输机残骸中发现,这是特朗普“可耻失败的又一证据”

伊朗发布美军士兵遗体照:在一架坠毁运输机残骸中发现,这是特朗普“可耻失败的又一证据”

都市快报橙柿互动
2026-04-06 14:32:22
刚刚,伊朗杀疯了,创造了史诗级战果!

刚刚,伊朗杀疯了,创造了史诗级战果!

一个坏土豆
2026-04-06 19:11:24
朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

共工之锚
2026-04-05 00:18:42
刚刚,伊朗直接摊牌,美国再敢动手,全球两条生命线一起断

刚刚,伊朗直接摊牌,美国再敢动手,全球两条生命线一起断

Ck的蜜糖
2026-04-06 14:01:19
2026-04-06 23:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12681文章数 142615关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

家居
时尚
手机
亲子
军事航空

家居要闻

温馨多元 爱的具象化

伊姐清明热推:电视剧《冰湖重生》;电视剧《月鳞绮纪》......

手机要闻

谷歌 Pixel 11 Pro XL渲染图曝光,多款新机待发布

亲子要闻

哪款儿童祛疤膏好用又不刺激?2026温和修护祛疤好物分析:舒缓疤痕不适

军事要闻

伊朗:在C-130运输机残骸中发现一具美军士兵遗体

无障碍浏览 进入关怀版