网易首页 > 网易号 > 正文 申请入驻

MIT英伟达团队革新注意力机制,破解LLM性能难题

0
分享至

对于大语言模型来说,长文本处理一直是难以突破的性能短板。随着序列变长,自注意力机制的计算量会以平方速度膨胀,使得模型的成本快速上升、扩展困难。

早在今年 2 月,月之暗面(Moonshot AI)就提出了全新的“块注意力混合”(Mixture of Block Attention, MoBA) 架构,试图突破这一难题。

MoBA 借鉴了混合专家系统(MoE)的思路,将长文本切分为多个数据块,并训练一个“路由器”来动态、稀疏地只关注最相关的部分。通过这种方式,MoBA 将大量无效的注意力计算剔除,从而把整体复杂度从二次方压缩到近似线性,为长上下文处理带来了真正可扩展的架构方案。

然而,尽管这一架构在理论上极为完美,但其实际应用与优化却面临两大难题:一是其成功背后的设计原理尚不明确,二是它缺少一个为现代硬件深度优化的 GPU 实现。尤其是在处理理论上更优的小尺寸数据块时,其朴素实现所带来的额外开销(Overhead)甚至会抵消稀疏化带来的计算优势,这使得其理论上的高效性难以完全转化为实际生产力。

面对这一挑战,来自麻省理工学院(MIT)韩松教授的 H.A.N. 实验室与芯片巨头英伟达(NVIDIA)的研究人员联手,推出了名为 FlashMoBA 的优化方案。


图 | 项目论文(来源:arXiv)

这项研究不仅揭示了 MoBA 成功的关键,更通过一个硬件感知的定制 CUDA(Compute Unified Device Architecture)内核,释放了其潜能。实验结果显示:FlashMoBA 在处理小数据块时,相较于当前业界领先的 FlashAttention-2,实现了高达 14.7 倍的速度提升,并且能够处理长达 512K 的超长序列而不会出现内存溢出(Out of Memory, OOM),为长上下文处理提供了解决方案。

要理解这个方案,需要明白 MoBA 的核心挑战在于其路由机制,好比让它在一个巨大的草垛中寻找一根针。模型需要从成千上万个文本块中,为每个查询精确地挑出少数几个最相关的部分。原始 MoBA 通过计算每个文本块内所有信息的“平均值”(即质心)来做决策,但这很容易让关键的信号被海量的噪声淹没。

为此,MIT 与英伟达的联合团队通过建立一个统计模型,首次将这个问题量化为一个清晰的“信噪比”(SNR)公式。该公式揭示了一个核心洞见:路由的准确性取决于注意力机制的“丰富度”(头维度 d)与文本块“粒度”(块大小 B)的比值。简而言之,要想让路由器看得更准,最直接的办法就是在模型容量不变的情况下,将文本块切分得更小。此外,研究还发现通过短卷积操作鼓励相关信息在块内“抱团”(聚类),可以作为性能倍增器,进一步放大关键信号。

然而,在 GPU 上处理大量小数据块,就像让一艘货轮去递送成千上万封单独的信件,效率极其低下。这会导致三次性能“灾难”:海量、不连续的内存读取;因需要给海量小块排序评分而产生的巨大管理开销;以及因每个任务太小而导致的 GPU 大部分时间处于闲置状态。

为了解决这些问题,FlashMoBA应运而生。它不是对 MoBA 做几处代码优化,而是一套 针对现代 GPU 从零设计的 CUDA 内核。这个优化的目的很明确:让小块 MoBA也能在 GPU 上跑得又快又省。其设计原则是尽可能把运算融合到同一内核中,并尽量减少与 HBM 之间来回搬运数据的成本。

FlashMoBA 有着两个主要核心创新点:

1.FlashTopK

这是一个全流程整合的高效流水线,能够同时完成质心计算和 top-k 选择,并且完全不需要在显存中生成巨大评分矩阵。换句话说,它从源头上避免了显存爆炸,也消除了传统 top-k 的主要性能瓶颈。

2.收集-致密化(Gather-and-Densify)

这是一个非常聪明的两阶段策略。可以把它想象成一位熟练的图书管理员:先把读者需要的、分散在各个书架的书一次性推到手推车上(相当于放进 GPU 的高速缓存),然后再统一处理。这样做不仅避免了频繁、缓慢的 HBM 访问,还能把原本稀疏、零散的计算重新整理成 GPU 最擅长的密集矩阵操作,大幅提升效率。

这一系列软硬件协同优化带来的成果十分显著。在端到端性能测试中,当序列长度为 64K 时,FlashMoBA 的速度是原始 MoBA 实现的 7.4 倍,内存使用量则减少了 6.1 倍。更关键的是,原始 MoBA 在处理 128K 序列时便会耗尽内存,而 FlashMoBA 则能轻松扩展至 512K。在与业界公认的高效注意力实现 FlashAttention-2 的直接对比中,FlashMoBA 在长序列场景下实现了高达 14.7 倍的加速。


(来源:论文)

效率的提升并未以牺牲模型质量为代价。研究团队从头训练了多个模型进行验证,结果有力地证明,理论上的改进完全转化为了一致的质量提升。实验证实,采用更小的块尺寸,能够显著提升模型在语言建模和长上下文检索任务上的准确率。

经过优化的 MoBA 模型,在多个基准测试中其性能与更耗费资源的密集注意力模型相当,甚至在长上下文场景中实现了超越。这是因为它有效减轻了“注意力稀释”问题——即在长文本中,标准注意力会因关注点过于分散而“失焦”,而 MoBA 通过稀疏路由,能始终将计算资源集中在最关键的信息上。

(来源:论文)



1.论文地址:https://arxiv.org/pdf/2511.11571

2.项目地址: https://github.com/mit-han-lab/flash-moba

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
特朗普赢了,公平赢了:国际奥委会终于向常识低头

特朗普赢了,公平赢了:国际奥委会终于向常识低头

民间胡扯老哥
2026-03-30 05:06:21
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
一百二十年没人敢动它,中国这次不喊冤了,直接甩出一沓证据

一百二十年没人敢动它,中国这次不喊冤了,直接甩出一沓证据

潋滟晴方DAY
2026-03-30 08:06:51
一路走好!张雪峰去世,讣告信息量大,原来他和周海媚处境一样

一路走好!张雪峰去世,讣告信息量大,原来他和周海媚处境一样

叨唠
2026-03-26 00:54:42
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

长安一孤客
2026-03-25 16:22:18
美媒:美国已沦为流氓国家,想要破解,最好的办法就是向中国学习

美媒:美国已沦为流氓国家,想要破解,最好的办法就是向中国学习

菲儿爱追电影
2026-03-30 11:50:26
内存条崩了,囤货大户疯狂抛售,把内存条当理财的人,全砸手里了

内存条崩了,囤货大户疯狂抛售,把内存条当理财的人,全砸手里了

离离言几许
2026-03-29 18:46:33
总台现场直击丨全美爆发大规模抗议活动 数百万民众参加

总台现场直击丨全美爆发大规模抗议活动 数百万民众参加

北青网-北京青年报
2026-03-29 20:18:48
深圳又一公园火了,不输西湖,地铁直达能从早待到晚

深圳又一公园火了,不输西湖,地铁直达能从早待到晚

小怪吃美食
2026-03-30 11:40:32
恐怖如斯!背靠背成为阳光大赢家 萨巴伦卡和辛纳稳定发挥令人敬畏

恐怖如斯!背靠背成为阳光大赢家 萨巴伦卡和辛纳稳定发挥令人敬畏

好动网球
2026-03-30 15:44:15
杭州一女子“断碳水”2个月暴瘦30斤,每天只吃少量蔬菜和鸡胸肉,出现头晕心慌,确诊糖尿病前期

杭州一女子“断碳水”2个月暴瘦30斤,每天只吃少量蔬菜和鸡胸肉,出现头晕心慌,确诊糖尿病前期

大象新闻
2026-03-28 19:45:02
雀巢一辆载有12吨巧克力的卡车被盗,车上载有超41万根巧克力棒,从意大利中部出发,计划向欧洲各地配送

雀巢一辆载有12吨巧克力的卡车被盗,车上载有超41万根巧克力棒,从意大利中部出发,计划向欧洲各地配送

潇湘晨报
2026-03-29 11:31:16
陈宝国现状:发福显老像80岁,仍坚持拍戏,43岁未婚儿子是心病

陈宝国现状:发福显老像80岁,仍坚持拍戏,43岁未婚儿子是心病

揽星河的笔记
2026-03-30 15:30:53
打!倾家荡产也要打!以色列最新民调:75%民众要求和伊死磕到底

打!倾家荡产也要打!以色列最新民调:75%民众要求和伊死磕到底

闻识
2026-03-30 10:56:22
《三体》作者刘慈欣再开“脑洞”:人类文明只是AI掌管地球的“开机程序 ”

《三体》作者刘慈欣再开“脑洞”:人类文明只是AI掌管地球的“开机程序 ”

中国经营报
2026-03-29 16:39:28
川普首次明说最想要伊朗石油、或控枢纽哈尔克岛,继续打打再看

川普首次明说最想要伊朗石油、或控枢纽哈尔克岛,继续打打再看

邵旭峰域
2026-03-30 14:50:03
人不会无故得阴道癌!医生直言:有阴道癌的女性,多半有3个习惯

人不会无故得阴道癌!医生直言:有阴道癌的女性,多半有3个习惯

健康之光
2026-02-11 14:14:41
世界上最有用的数学思维之一——贝叶斯定理大白话讲解

世界上最有用的数学思维之一——贝叶斯定理大白话讲解

新浪财经
2026-03-29 12:33:29
2026-03-30 16:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16505文章数 514815关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

健康
教育
旅游
时尚
军事航空

干细胞抗衰4大误区,90%的人都中招

教育要闻

“这妈是唐僧转世吧?”福建妈妈皈依式教育火了,儿子再无叛逆期

旅游要闻

安徽合肥:不负好春光 踏青赏花忙

来到1980的周也,好毛利兰

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版