网易首页 > 网易号 > 正文 申请入驻

DeepSeek新论文再次引发热议,它最重要的创新是什么?

0
分享至

界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

DeepSeek V3和R1两款模型带来的热度尚未平息,一篇新论文再次引来科技圈对其创新性的集体评估。

2月18日,DeepSeek的研究团队发布了一篇新的技术论文,《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X(原推特)平台上,DeepSeek这条推文在24小时内的阅读量已达168万。

这是一种可用于超快长上下文训练和推理的稀疏注意力机制,并具有硬件对齐和本地可训练的特性。其中最核心的内容就是NSA(Native Sparse Attention),一种全新的注意力机制。

简单概括,凭借这套技术思路,大模型训练将不仅对硬件要求更低,并且训练效率更高,可能是一次相较MLA更高级别的创新。

稀疏注意力(Sparse Attention)是相对完全注意力(Full Attention)而言。在完全注意力机制的技术框架下,很多技术都是为了提高计算速度、减少运算成本,例如KV-Cache(键值缓存),但对于大模型训练而言仍然可能导致恐怖的运算量。

此前,DeepSeek-V2的重要创新MLA——Multi-Head Latent Attention,多头潜在注意力机制——就在保证模型性能的情况下,对KV-Cache进行了大幅优化。

其中一个很重要的思路是对KV矩阵进行了低秩分解,以低秩矩阵的形态来保存。可以理解为将这个矩阵从“多维”压缩至“一维”,这大大降低了对显存的占用。

但到此为止,这些注意力机制依然存在一些局限。Monica.im产品合伙人张涛对界面新闻记者解释称,过去的矩阵“压缩”技术是一种无差别压缩。也就是说,那些有更重要含义的信息,其重要性也被平均降低了。

NSA针对性化解了这个问题。它提出了一个“三合一”方案,对token序列大致分为了三条注意力处理路径:压缩(Compression)、选择性保留(Selection)和滑动窗口(Sliding Window)。

简单理解,Compression跟过去所做的事情类似,即“压缩”保留粗颗粒度的token模块。

在Selection阶段,该机制通过对已压缩模块引入qt(query token),得到这些模块与当前要计算token的相关程度,以Top N(例如Top 2)的方式选出相关性最高的N个模块,并对照原有的细颗粒程度token序列进行保留。

最后的Sliding Window是指一个滑动窗口,这个窗口仅获取局部最近的一段完整token序列。张涛解释称,这个窗口是一个固定宽度,在时间轴上进行滑动,但永远指向序列的最末尾处。“可以理解为当我要生成一句话时,离它最近的信息也可能提供额外的含义。”

也就是说,在这三条注意力处理路径下,我们既得到了完整token序列在压缩下的全局印象,也得到了经过筛选的最关键部分信息的细颗粒度token序列,以及离当前计算token最近的一段token序列。

“当三个特性结合到一起,整个过程就已经省了很多显存占用和运算量,并且把压缩损失掉的信息补充回来了。”张涛表示。

另外,NSA还引入了两项创新机制,分别是硬件对齐系统,可保证算术强度平衡,以及训练感知设计,可支持NSA进行高效部署和端到端训练。

至此,这套全新注意力机制将要验证自己的效果。在过去,很多注意力机制的调整可能导致模型表现下降,但NSA以稀疏注意力机制给模型“减负”的方式,不仅没有造成性能下降,反而相较完整注意力机制在一些基准测试上实现了超越表现,包括通用和推理等等

更关键的是,它在解码(Decode)速度上提升了11.6倍。张涛表示,这可以简单理解为,运用这套机制的R1其推理速度也可能提升同样倍数。

不过,MLA这一创新也可以优化解码速度。在张涛看来,NSA更有意义的效率提升是对于正向和反向阶段还将分别提速9倍和6倍。

其中,反向传播是指模型训练时,每完成一轮运行还要做一轮反向传播,如此模型才能够在这一轮迭代中学到“哪些做对了、哪些做错了,以及哪些参数需要调整”。

这意味着NSA不仅对GPU的显存要求降低,对卡间互联通讯能力要求降低,甚至对于模型的训练速度也加快了好几倍。

“这才是这次创新的关键。”张涛说,NSA有可能进一步解决了国产大模型在GPU芯片上被“卡脖子”的问题。

总体而言,张涛认为虽然这篇论文集中论述了技术思路,没有完整披露其中的工程细节,但对于其他大模型公司来说复现并不难。

还有一个当前没有被注意到的“彩蛋”。张涛指出,在这次论文中,DeepSeek运用到了一种叫做Triton的框架。这是由OpenAI开源的一套框架,属于GPU的中间层语言,它既可以转译为英伟达的CUDA(其GPU并行计算平台),AMD的ROCm(其开源计算平台),也可以转译为华为昇腾的CANN(其AI芯片计算框架)。

虽然目前ROCm和CANN在Triton上表现还不够好,但张涛认为这不是不能解决的。

“这不得不给大家留下一些想象空间。”张涛说,“这意味着从推理到训练的算力,未来都有可能国产化了。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

闪电新闻
2026-03-26 10:48:55
苹果憋了3年没告诉你:你的充电器一直在"摸鱼"

苹果憋了3年没告诉你:你的充电器一直在"摸鱼"

全栈遛狗员
2026-03-25 23:00:33
小米捷报,误伤宁德时代

小米捷报,误伤宁德时代

ZAKER新闻
2026-03-26 22:10:32
在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

另子维爱读史
2026-03-24 21:15:00
49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

查尔菲的笔记
2026-03-16 19:12:07
三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

盛夏微凉
2026-03-24 18:10:08
王海团队:已协助起诉黄天鹅

王海团队:已协助起诉黄天鹅

南方都市报
2026-03-26 10:59:32
重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

萌兰聊个球
2026-03-26 13:02:53
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
国防部:菲方侵权挑衅只会遭到更加坚决应对

国防部:菲方侵权挑衅只会遭到更加坚决应对

界面新闻
2026-03-26 16:00:27
浙江省人大常委会决定任免部分省政府组成部门主要负责人

浙江省人大常委会决定任免部分省政府组成部门主要负责人

浙江发布
2026-03-26 10:04:01
不仅抗炎,这还是眼睛、大脑最爱的营养!

不仅抗炎,这还是眼睛、大脑最爱的营养!

FitEmpire健身领域
2026-03-26 14:53:07
你知道的高档会所里消费有多高?网友:贫穷限制了我的想象

你知道的高档会所里消费有多高?网友:贫穷限制了我的想象

夜深爱杂谈
2026-03-14 21:25:13
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

鹤羽说个事
2026-03-25 21:56:09
萨拉赫离队去向已明:不去沙特淘金,誓在欧洲巅峰再战

萨拉赫离队去向已明:不去沙特淘金,誓在欧洲巅峰再战

乐道足球
2026-03-26 20:44:07
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

影孖看世界
2026-03-26 23:28:51
被伊朗打疼了?美以一边要求停火30天,一边密集调动特种部队!

被伊朗打疼了?美以一边要求停火30天,一边密集调动特种部队!

军武次位面
2026-03-26 14:29:00
2026普法:强奸、通奸、嫖娼,只有这个行为会坐牢!

2026普法:强奸、通奸、嫖娼,只有这个行为会坐牢!

奇葩游戏酱
2026-03-26 05:01:32
美媒:以总理提议,特朗普拒绝

美媒:以总理提议,特朗普拒绝

环球时报国际
2026-03-27 00:13:22
2026-03-27 01:31:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1044510文章数 1332044关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
本地
时尚
公开课
军事航空

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

400万人爱过的女孩,被黄谣网暴180天后

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版