网易首页 > 网易号 > 正文 申请入驻

MIT英伟达团队革新注意力机制,破解LLM性能难题

0
分享至

对于大语言模型来说,长文本处理一直是难以突破的性能短板。随着序列变长,自注意力机制的计算量会以平方速度膨胀,使得模型的成本快速上升、扩展困难。

早在今年 2 月,月之暗面(Moonshot AI)就提出了全新的“块注意力混合”(Mixture of Block Attention, MoBA) 架构,试图突破这一难题。

MoBA 借鉴了混合专家系统(MoE)的思路,将长文本切分为多个数据块,并训练一个“路由器”来动态、稀疏地只关注最相关的部分。通过这种方式,MoBA 将大量无效的注意力计算剔除,从而把整体复杂度从二次方压缩到近似线性,为长上下文处理带来了真正可扩展的架构方案。

然而,尽管这一架构在理论上极为完美,但其实际应用与优化却面临两大难题:一是其成功背后的设计原理尚不明确,二是它缺少一个为现代硬件深度优化的 GPU 实现。尤其是在处理理论上更优的小尺寸数据块时,其朴素实现所带来的额外开销(Overhead)甚至会抵消稀疏化带来的计算优势,这使得其理论上的高效性难以完全转化为实际生产力。

面对这一挑战,来自麻省理工学院(MIT)韩松教授的 H.A.N. 实验室与芯片巨头英伟达(NVIDIA)的研究人员联手,推出了名为 FlashMoBA 的优化方案。


图 | 项目论文(来源:arXiv)

这项研究不仅揭示了 MoBA 成功的关键,更通过一个硬件感知的定制 CUDA(Compute Unified Device Architecture)内核,释放了其潜能。实验结果显示:FlashMoBA 在处理小数据块时,相较于当前业界领先的 FlashAttention-2,实现了高达 14.7 倍的速度提升,并且能够处理长达 512K 的超长序列而不会出现内存溢出(Out of Memory, OOM),为长上下文处理提供了解决方案。

要理解这个方案,需要明白 MoBA 的核心挑战在于其路由机制,好比让它在一个巨大的草垛中寻找一根针。模型需要从成千上万个文本块中,为每个查询精确地挑出少数几个最相关的部分。原始 MoBA 通过计算每个文本块内所有信息的“平均值”(即质心)来做决策,但这很容易让关键的信号被海量的噪声淹没。

为此,MIT 与英伟达的联合团队通过建立一个统计模型,首次将这个问题量化为一个清晰的“信噪比”(SNR)公式。该公式揭示了一个核心洞见:路由的准确性取决于注意力机制的“丰富度”(头维度 d)与文本块“粒度”(块大小 B)的比值。简而言之,要想让路由器看得更准,最直接的办法就是在模型容量不变的情况下,将文本块切分得更小。此外,研究还发现通过短卷积操作鼓励相关信息在块内“抱团”(聚类),可以作为性能倍增器,进一步放大关键信号。

然而,在 GPU 上处理大量小数据块,就像让一艘货轮去递送成千上万封单独的信件,效率极其低下。这会导致三次性能“灾难”:海量、不连续的内存读取;因需要给海量小块排序评分而产生的巨大管理开销;以及因每个任务太小而导致的 GPU 大部分时间处于闲置状态。

为了解决这些问题,FlashMoBA应运而生。它不是对 MoBA 做几处代码优化,而是一套 针对现代 GPU 从零设计的 CUDA 内核。这个优化的目的很明确:让小块 MoBA也能在 GPU 上跑得又快又省。其设计原则是尽可能把运算融合到同一内核中,并尽量减少与 HBM 之间来回搬运数据的成本。

FlashMoBA 有着两个主要核心创新点:

1.FlashTopK

这是一个全流程整合的高效流水线,能够同时完成质心计算和 top-k 选择,并且完全不需要在显存中生成巨大评分矩阵。换句话说,它从源头上避免了显存爆炸,也消除了传统 top-k 的主要性能瓶颈。

2.收集-致密化(Gather-and-Densify)

这是一个非常聪明的两阶段策略。可以把它想象成一位熟练的图书管理员:先把读者需要的、分散在各个书架的书一次性推到手推车上(相当于放进 GPU 的高速缓存),然后再统一处理。这样做不仅避免了频繁、缓慢的 HBM 访问,还能把原本稀疏、零散的计算重新整理成 GPU 最擅长的密集矩阵操作,大幅提升效率。

这一系列软硬件协同优化带来的成果十分显著。在端到端性能测试中,当序列长度为 64K 时,FlashMoBA 的速度是原始 MoBA 实现的 7.4 倍,内存使用量则减少了 6.1 倍。更关键的是,原始 MoBA 在处理 128K 序列时便会耗尽内存,而 FlashMoBA 则能轻松扩展至 512K。在与业界公认的高效注意力实现 FlashAttention-2 的直接对比中,FlashMoBA 在长序列场景下实现了高达 14.7 倍的加速。


(来源:论文)

效率的提升并未以牺牲模型质量为代价。研究团队从头训练了多个模型进行验证,结果有力地证明,理论上的改进完全转化为了一致的质量提升。实验证实,采用更小的块尺寸,能够显著提升模型在语言建模和长上下文检索任务上的准确率。

经过优化的 MoBA 模型,在多个基准测试中其性能与更耗费资源的密集注意力模型相当,甚至在长上下文场景中实现了超越。这是因为它有效减轻了“注意力稀释”问题——即在长文本中,标准注意力会因关注点过于分散而“失焦”,而 MoBA 通过稀疏路由,能始终将计算资源集中在最关键的信息上。

(来源:论文)



1.论文地址:https://arxiv.org/pdf/2511.11571

2.项目地址: https://github.com/mit-han-lab/flash-moba

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
每次感冒都从喉咙痛开始,有啥办法一疼就把病压下去?

每次感冒都从喉咙痛开始,有啥办法一疼就把病压下去?

果壳
2025-11-12 21:01:31
快报!日本火了彻底火了,170多栋建筑被烧了!

快报!日本火了彻底火了,170多栋建筑被烧了!

荆楚寰宇文枢
2025-11-19 22:32:44
日本通告全球:中方再次暂停进口日本水产,中国外交部强硬表态

日本通告全球:中方再次暂停进口日本水产,中国外交部强硬表态

一个有灵魂的作者
2025-11-19 19:12:02
意大利哭晕 世界杯附加赛死亡签表浮现 首轮或遇2苦主+决赛碰波兰

意大利哭晕 世界杯附加赛死亡签表浮现 首轮或遇2苦主+决赛碰波兰

我爱英超
2025-11-19 07:14:36
越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

火山诗话
2025-11-18 06:39:29
超50万张赴日机票被退订,赴日旅客量连续三天大幅下滑

超50万张赴日机票被退订,赴日旅客量连续三天大幅下滑

第一财经资讯
2025-11-19 16:54:50
66年傅连暲被毁清白,致信主席:当年曾救过你,希望你现在救救我

66年傅连暲被毁清白,致信主席:当年曾救过你,希望你现在救救我

老范谈史
2025-11-19 04:49:11
广东一夜3消息!萨林杰正式到队,杜锋徐昕和好,新双外首次合训

广东一夜3消息!萨林杰正式到队,杜锋徐昕和好,新双外首次合训

多特体育说
2025-11-19 22:40:09
厚嘴唇性感女星被迫养老公私生子的瓜

厚嘴唇性感女星被迫养老公私生子的瓜

热闹吃瓜大姐
2025-11-18 19:53:11
不费力逆转!湖人140-125爵士,看数据:他是头号功臣!

不费力逆转!湖人140-125爵士,看数据:他是头号功臣!

篮坛篮谈
2025-11-19 12:50:01
中方拒见高市早苗,美海军部长访日又添了一把火,不许日本退缩?

中方拒见高市早苗,美海军部长访日又添了一把火,不许日本退缩?

现代小青青慕慕
2025-11-19 08:36:48
朱婷接受采访竟被骂,完整内容曝光,事关回归国家队

朱婷接受采访竟被骂,完整内容曝光,事关回归国家队

跑者排球视角
2025-11-19 23:40:41
日本为什么不怕中国?俄罗斯专家一席话点醒国人​

日本为什么不怕中国?俄罗斯专家一席话点醒国人​

近史谈
2025-11-06 21:16:03
可以开香槟了!海地队赛后焦急看直播等赛果,确定晋级后才欢庆

可以开香槟了!海地队赛后焦急看直播等赛果,确定晋级后才欢庆

懂球帝
2025-11-19 11:30:15
同为人口大国,印度1000人中34人有车,中国1000人中多少人有车?

同为人口大国,印度1000人中34人有车,中国1000人中多少人有车?

来科点谱
2025-11-15 09:05:19
广东34分大胜上海!徐昕12分钟砍11+5,实力打脸杜锋,黄明依12分

广东34分大胜上海!徐昕12分钟砍11+5,实力打脸杜锋,黄明依12分

多特体育说
2025-11-19 22:11:35
里子面子都丢了?官媒锐评俞敏洪小作文,言辞犀利,句句直戳心窝

里子面子都丢了?官媒锐评俞敏洪小作文,言辞犀利,句句直戳心窝

禾寒叙
2025-11-18 22:29:15
以色列议会初读通过法案:切断联合国近东救济工程处水电

以色列议会初读通过法案:切断联合国近东救济工程处水电

桂系007
2025-11-20 00:00:57
陪玩陪睡已过时,拳头塞嘴、集体开嫖、戚薇遭殃,阴暗面彻底曝光

陪玩陪睡已过时,拳头塞嘴、集体开嫖、戚薇遭殃,阴暗面彻底曝光

冷紫葉
2025-11-19 14:56:46
专戳人肺管子!何赛飞上综艺“治”刘嘉玲,宁静靠边站不敢说话

专戳人肺管子!何赛飞上综艺“治”刘嘉玲,宁静靠边站不敢说话

查尔菲的笔记
2025-10-25 19:43:14
2025-11-20 01:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15877文章数 514312关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

游戏
旅游
房产
亲子
教育

我的小众XP,在“玩法正确”面前一无是处?

旅游要闻

上关镇位于洱海的一侧,没什么网红景点,堪称大理最安逸的角落

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

亲子要闻

3岁女娃坑爹日常,吸粉超500w:东北人的家庭氛围,究竟有多搞笑?

教育要闻

晓星国际高等学校宿舍什么样子

无障碍浏览 进入关怀版