网易首页 > 网易号 > 正文 申请入驻

中国大模型“卷技术”!DeepSeek前脚发布NSA,Kimi立刻跟进MoBA

0
分享至

周二,当全球目光聚焦于马斯克Grok-3的庞大GPU集群时,中国大模型公司正在技术创新的道路上默默加速。

先是DeepSeek提出了原生稀疏注意力(Native Sparse Attention, NSA)机制。这项梁文锋亲自参与的研究成果,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。

NSA不仅能将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现了对传统全注意力模型的性能反超。这一突破表明,通过算法和硬件层面的协同创新,可以在不牺牲模型性能的前提下,显著提升长文本处理效率。

紧随DeepSeek的步伐,Kimi也迅速推出了自家的稀疏注意力技术——MoBA(Mixture of Block Attention)。

据这份由月之暗面、清华大学和浙江大学的研究人员共同发布的技术报告《MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》,MoBA的设计理念是将全上下文划分为多个块,每个查询令牌(query token)学习关注最相关的键值(KV)块,从而实现对长序列的高效处理。

与DeepSeek创始人梁文锋参与著作一样,月之暗面创始人杨植麟的名字也出现这篇论文的作者栏里。

据论文介绍,在各种长文本处理任务中,采用MoBA技术的模型可以在保持相近性能的同时,将注意力计算的时间和内存消耗显著降低。在1M token的测试中,MoBA比全注意力快了6.5倍,在处理超长文本(如1000万token)时,MoBA的优势更加明显,可以实现16倍以上的加速。

MoBA已经部署于支持Kimi的长上下文请求处理,并在大语言模型的高效注意力计算方面取得了显著进展。更值得一提的是,MoBA可以轻松地集成到现有的 LLMs 中,而无需进行大量的训练。

MoBA:基于块的稀疏注意力

为了实现人工通用智能(AGI),LLMs需要能够处理长文本序列,这对于历史数据分析、复杂推理和决策等任务至关重要。

而传统的自注意力机制计算复杂度呈二次增长,限制了LLMs处理长文本的能力。现有的解决方案要么引入了强偏见的结构(如滑动窗口注意力),要么对注意力机制进行了线性近似,这些方法在复杂推理任务中的表现尚未得到充分验证。

MOBA技术的核心思想是将传统Transformer模型中的全局注意力机制改造为基于块的稀疏注意力。具体来说,MOBA将输入序列划分为多个块,然后对每个查询token动态选择最相关的几个块进行注意力计算,而不是像传统方法那样对所有token都进行计算。

这种方法既保留了原始Transformer的强大表达能力,又显著降低了计算复杂度,特别适合处理超长文本输入。

MoBA的核心创新点包括:

可训练的块稀疏注意力: 全上下文被划分为多个块,每个查询令牌学习关注最相关的KV块,实现长序列的高效处理。
无参数门控机制: 引入了一种新颖的无参数top-k门控机制,为每个查询令牌选择最相关的块,确保模型只关注信息量最大的部分。
全注意力和稀疏注意力之间的无缝切换: MoBA被设计为全注意力的灵活替代品,允许在全注意力和稀疏注意力模式之间无缝切换。
在处理超长文本时,MoBA可以实现16倍以上的加速

在各种长文本处理任务中,采用MoBA技术的模型可以在保持相近性能的同时,将注意力计算的时间和内存消耗显著降低。在1M token的测试中,MoBA比全注意力快了6.5倍,在处理超长文本(如1000万token)时,MoBA的优势更加明显,可以实现16倍以上的加速。

Kimi 团队在多个方面对 MoBA 进行了实验验证:

缩放定律实验(Scaling Law Experiments): 实验表明,尽管 MoBA 的注意力模式稀疏度高达 81.25%,但其在语言模型损失方面的表现与全注意力相当。
长文本缩放能力(Long Context Scalability): 通过增加序列长度到 32K,MoBA 的稀疏度进一步提高到 95.31%。实验表明,MoBA 在处理长文本时,其性能与全注意力之间的差距逐渐缩小。
细粒度块分割消融研究(Ablation Study on Fine-Grained Block Segmentation): 实验表明,更细粒度的块分割可以进一步提高 MoBA 的性能。

MoBA 与全注意力的混合训练(Hybrid of MoBA and Full Attention): 实验表明,通过混合使用 MoBA 和全注意力进行训练,可以在训练效率和模型性能之间取得平衡。

大型语言模型评估(Large Language Modeling Evaluation): 在多个真实世界的下游任务中,MoBA 的表现与全注意力模型相当,甚至在某些任务上略有优势。

效率和可扩展性(Efficiency and Scalability): 实验表明,MoBA 在处理长序列时比全注意力更高效,计算复杂度为亚平方级。在1M token的测试中,MoBA比全注意力快了6.5倍,在处理 1000 万 token 的序列时,MoBA 的注意力计算时间减少了 16 倍。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

沧海旅行家
2026-03-26 13:46:41
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
日本自卫官持刀闯入中国大使馆,日本网络舆论呼吁政府立即道歉

日本自卫官持刀闯入中国大使馆,日本网络舆论呼吁政府立即道歉

徐静波静说日本
2026-03-25 08:10:07
成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

封面新闻
2026-03-25 21:28:05
日本内阁官房长官就“强闯使馆”事件表态

日本内阁官房长官就“强闯使馆”事件表态

新浪财经
2026-03-25 18:48:42
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
第六险来了!一文读懂“长护险”

第六险来了!一文读懂“长护险”

极目新闻
2026-03-26 07:21:00
连场三双,约基奇成为NBA历史首位背靠背场均15+15+15的球员

连场三双,约基奇成为NBA历史首位背靠背场均15+15+15的球员

懂球帝
2026-03-26 14:02:09
出了一身臭汗,洗澡睡觉……

出了一身臭汗,洗澡睡觉……

乡野小珥
2026-03-26 12:26:29
科学家在月球背面,发现了2200万亿吨金属,它们究竟从何而来?

科学家在月球背面,发现了2200万亿吨金属,它们究竟从何而来?

观察宇宙
2026-03-25 20:24:45
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
美国最大的失误就是一上来就把宋江给干掉了

美国最大的失误就是一上来就把宋江给干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

小月故事
2026-03-19 17:08:37
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

每日经济新闻
2026-03-25 16:15:05
CIA前局长称相比特朗普更相信伊朗方面的表述

CIA前局长称相比特朗普更相信伊朗方面的表述

极目新闻
2026-03-25 14:10:05
40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

近史博览
2026-03-26 09:52:59
2026-03-26 14:16:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143548文章数 2653021关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
本地
手机
公开课
军事航空

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

本地新闻

春日吃花第三站——广东

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版