网易首页 > 网易号 > 正文 申请入驻

在马斯克和奥特曼比谁喊的响的时候,DeepSeek低调发论文,梁文锋亲自参与

0
分享至

当马斯克高调推出基于20万块GPU集群的Grok-3、Sam Altman在开源策略上反复权衡之际,DeepSeek悄然发布了一项可能改变游戏规则的技术。

18日,DeepSeek CEO公布了一项由梁文锋亲自参与的研究论文成果——原生稀疏注意力(Native Sparse Attention, NSA)机制。这是DeepSeek团队在稀疏注意力领域的创新性工作,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。

DeepSeek论文显示,NSA不仅将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现性能反超传统全注意力模型。在全球AI竞赛转向"硬核创新"的当口,这家低调的中国公司展示了技术破局的新范式。

值得注意的是,NSA尚未应用于DeepSeek V3的训练中。这意味着,如果后续DeepSeek将NSA整合到模型训练中,其基座模型的能力有望实现显著提升。论文中明确指出:“使用NSA预训练的模型超过了全注意力模型”。

与DeepSeek形成鲜明对比的是,xAI选择了另一条道路:对工程规模的极致追求。今日马斯克发布的Grok3使用了20万块GPU集群,而未来的Grok4更是计划使用百万块GPU、1.2GW的集群。这种“财大气粗”的做法,体现了北美在AI领域一贯的“大力出奇迹”风格。

稀疏注意力:DeepSeek NSA的创新之道

“AI革命”狂飙突进,长文本建模在AI领域的重要性日益凸显。OpenAI的o-series模型、DeepSeek-R1以及Google Gemini 1.5 Pro等,都展示了处理超长文本的强大潜力。

然而,传统Attention机制的计算复杂度随序列长度呈平方级增长,成为制约大语言模型(LLM)发展的关键瓶颈。

稀疏注意力机制被认为是解决这一难题的希望所在。DeepSeek今日提出的NSA机制,正对去年5月MLA(Multi-Layer Attention)工作的补充。NSA的核心在于将算法创新与硬件优化相结合,实现了高效的长文本建模。

科技媒体AI寒武纪表示,NSA的三大关键创新包括:

  • 动态分层稀疏策略:结合粗粒度Token压缩和细粒度Token选择,兼顾全局上下文感知和局部信息精确性。
  • 算术强度平衡的设计:针对现代硬件进行优化,显著提升计算速度。
  • 端到端可训练:支持端到端训练,减少预训练计算量,同时保持模型性能。

NSA的核心组件:三位一体,逐层优化

科技自媒体zartbot分析,NSA架构采用了分层Token建模,通过三个并行的注意力分支处理输入序列:

  1. 压缩注意力(Compressed Attention): 通过压缩Token块来捕获全局信息,处理粗粒度的模式。
  2. 选择注意力(Selected Attention): 处理重要的Token块,选择性地保留细粒度的信息。
  3. 滑动窗口注意力(Sliding Window Attention): 处理局部上下文信息。

这三个分支的输出通过一个门控机制进行聚合。为了最大化效率,NSA还专门设计了硬件优化的Kernel。

具体而言,NSA在Token Compression部分,基于block粒度进行压缩计算,并插入位置信息编码。在Token Selection部分,则巧妙地借用Compression的注意力分数作为block的重要性分数,进行top-N选择,以保留关键的细粒度信息。Sliding Window部分则负责处理局部上下文。最后,通过Gating函数综合三种注意力的输出。

实验结果:性能与效率的双重飞跃

根据DeepSeek发布的实验数据,NSA技术在多个方面展现出卓越表现。

在通用基准测试、长文本任务和指令推理方面,使用NSA预训练的模型性能不仅没有下降,反而超越了Full Attention模型。更重要的是,在处理64k长度的序列时,NSA在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达11.6倍,证明了NSA在模型生命周期各个阶段的效率优势。

AI寒武纪表示:

“DeepSeek 的 NSA 技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的 Full Attention 模型,更在效率方面实现了显著的提升,尤其是在长序列场景下。NSA 的 硬件友好设计训推一体化特性,使其在实际应用中更具优势,有望加速下一代 LLM 在长文本处理领域的应用落地。”

科技媒体信息平权表示,NSA论文中隐藏了一个“彩蛋”:

“DeepSeek此次使用了Triton,而没有提及英伟达专用库和框架。Triton底层可以调用CUDA,也可以调用其他计算平台的框架,如AMD的ROCM,甚至国产计算卡。结合NSA降低了浮点算力和内存占用门槛的特性,这或许暗示了DeepSeek在模型研发阶段,就已经开始考虑未来适配更多类型计算卡,为更广泛、更普遍的开源做准备。”
xAI的Grok3:算力堆砌的“极致”

与DeepSeek形成鲜明对比的是,xAI选择了另一条道路:对工程规模的极致追求。Grok3使用了20万块GPU集群,而未来的Grok4更是计划使用百万块GPU、1.2GW的集群。这种“财大气粗”的做法,体现了北美在AI领域一贯的“大力出奇迹”风格。

然而,信息平权的分析指出,尽管xAI通过超大集群在短时间内实现了对之前SOTA(State-of-the-Art)模型的反超,但其投入产出比并不理想。相比DeepSeek V3,xAI以50倍的成本实现了30%的性能提升。这表明,单纯在预训练阶段投入巨额算力,其收益可能并不如预期,将资源投入到RL(强化学习)后训练阶段可能更为划算。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
很多中字头工程局都发不出工资了!

很多中字头工程局都发不出工资了!

黯泉
2026-03-25 21:14:53
中国外长判断出现和平曙光,中东大战终于进入尾声?

中国外长判断出现和平曙光,中东大战终于进入尾声?

小嵩
2026-03-26 18:19:20
王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

快看张同学
2026-03-26 10:19:39
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
即将沦为“穷人房”的5种房子,不好住不好卖,聪明人已逐渐转手

即将沦为“穷人房”的5种房子,不好住不好卖,聪明人已逐渐转手

猫叔东山再起
2026-03-26 09:10:08
伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

阿芒娱乐说
2026-03-26 12:37:49
四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

高博新视野
2026-03-25 08:00:28
爆涨50倍比黄金还猛!二手手机成 “香饽饽”,3部破手机能换一台iPhone...

爆涨50倍比黄金还猛!二手手机成 “香饽饽”,3部破手机能换一台iPhone...

极果酷玩
2026-03-26 16:58:41
张雪峰经典语录:句句都是人间清醒

张雪峰经典语录:句句都是人间清醒

山东教育
2026-03-26 08:07:56
加图索:有些球员几乎站都站不稳但是没回家,而是留在了这里

加图索:有些球员几乎站都站不稳但是没回家,而是留在了这里

懂球帝
2026-03-26 04:09:06
以色列没水没药没人管,导弹炸完基地瘫痪,世界集体装瞎

以色列没水没药没人管,导弹炸完基地瘫痪,世界集体装瞎

网络易不易
2026-03-26 15:05:07
NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

醉卧浮生
2026-03-25 23:03:44
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
问界M6预售24小时订单突破6万,26.98万起剑指Model Y

问界M6预售24小时订单突破6万,26.98万起剑指Model Y

泡泡网
2026-03-24 17:26:07
凌晨4点 22亿对决!时隔10年巴西再战法国:熊皇vs姆巴佩

凌晨4点 22亿对决!时隔10年巴西再战法国:熊皇vs姆巴佩

叶青足球世界
2026-03-26 10:18:34
连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

极目新闻
2026-03-25 19:37:57
巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

百科密码
2026-03-26 14:50:58
2026-03-26 19:40:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143563文章数 2653026关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
教育
游戏
手机
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

2026人工智能时代下的教育课堂变革

《迷你金属2》4月开启开发版测试 军事题材战略模拟

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版