网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布最新技术论文,梁文锋是共创之一

0
分享至

2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

具体来说,NSA针对现代硬件进行了优化设计,能够加速推理过程,同时降低预训练成本,且不牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

记者注意到,在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也作为共创在列。

在论文中,DeepSeek团队表示,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性,推动这一需求的应用包括深度推理、仓库级代码生成和多轮自主代理系统。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。

论文提到,理论估计表明,在使用softmax架构(‌一种用于多分类问题的神经网络架构)时,注意力计算占解码64k长度上下文总延迟的70%-80%,这凸显了对更高效注意力机制的迫切需求。

记者将这一论文提供给DeepSeek,并让其评价对业界的影响与意义,DeepSeek称,这一技术的核心价值在于平衡效率与性能,既降低计算成本,又保持甚至提升模型能力。对行业而言,NSA为处理长上下文任务提供了一种高效的解决方案,有助于推动更强大、更经济的语言模型的发展,尤其是在需要处理长文本的应用场景中。

NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。

此外,DeepSeek提到,NSA能够降低算力门槛与部署成本。端到端稀疏训练可以减少预训练所需的计算资源(如减少A100 GPU小时数),降低企业开发大模型的资金与技术门槛。同时,可以加速推理,使长文本生成(如代码补全、故事续写)的实时性更高,适用于边缘设备或低延迟场景。

一位X用户在DeepSeek帖子下表示,“NSA 机制改变了游戏规则。超快速长上下文训练对于扩大教育领域 AI 至关重要,这与个性化学习愿景完美契合。”还有网友对此调侃“RIP Nvidia”。

自1月20日发布DeepSeek-R1并搅动AI圈以来,DeepSeek方面一直较为低调,这是这么多天以来DeepSeek唯一发布的技术动态。

“DeepSeek team is cooking! ”(DeepSeek 团队正在积极工作!)有X网友表示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
油价一夜大变!油价一夜大降超0.86元/升!4月21日油价或大幅下调

油价一夜大变!油价一夜大降超0.86元/升!4月21日油价或大幅下调

阿芒娱乐说
2026-04-18 10:16:52
一单200块幽灵蛋糕,罚了拼多多美团京东抖音电商七巨头35.97亿

一单200块幽灵蛋糕,罚了拼多多美团京东抖音电商七巨头35.97亿

黑企鹅观察
2026-04-17 21:42:51
暴力对抗执法,拼多多被监管重罚15.2亿,法定代表人领罚700万

暴力对抗执法,拼多多被监管重罚15.2亿,法定代表人领罚700万

新商业派
2026-04-17 22:51:46
旅行后,你对哪个城市祛魅了?网友:异域风情哈尔滨

旅行后,你对哪个城市祛魅了?网友:异域风情哈尔滨

夜深爱杂谈
2026-04-17 17:29:36
两回合0球0助,阿尔瓦雷斯的数据单

两回合0球0助,阿尔瓦雷斯的数据单

绿茵狂热者
2026-04-17 11:42:13
还剩6天!赖清德即将离岛,国台办定结局,解放军百艘战舰已陈兵

还剩6天!赖清德即将离岛,国台办定结局,解放军百艘战舰已陈兵

荷兰豆爱健康
2026-04-17 13:32:16
伊朗高级官员:伊美有望在数日内达成一项初步协议

伊朗高级官员:伊美有望在数日内达成一项初步协议

每日经济新闻
2026-04-18 08:05:29
50岁李小冉双马尾甜翻全网,老公徐佳宁:悔不该让她上节目

50岁李小冉双马尾甜翻全网,老公徐佳宁:悔不该让她上节目

童叔不飙车
2026-04-16 21:36:37
彻底撕破脸,美国副总统公开痛骂泽连斯基,乌克兰要被卖了

彻底撕破脸,美国副总统公开痛骂泽连斯基,乌克兰要被卖了

忠于法纪
2026-04-18 10:52:48
破防了!罗永浩因网友评论引热议,被网友戳中痛点,连发长文自证

破防了!罗永浩因网友评论引热议,被网友戳中痛点,连发长文自证

火山詩话
2026-04-17 10:37:56
签1亿合同才能上楼看演出?恒大歌舞团女团长:感恩许家印 但我没违规

签1亿合同才能上楼看演出?恒大歌舞团女团长:感恩许家印 但我没违规

林子说事
2026-04-17 12:25:28
搞投机钻营、结交政治骗子,辽宁本溪市人力资源服务中心原主任李傲松被“双开”

搞投机钻营、结交政治骗子,辽宁本溪市人力资源服务中心原主任李傲松被“双开”

界面新闻
2026-04-18 10:38:38
央视直播两场英超,利物浦可能失去欧冠资格,艰难时刻还没到来

央视直播两场英超,利物浦可能失去欧冠资格,艰难时刻还没到来

嗨皮看球
2026-04-18 10:37:53
比亚迪的全新插混SUV即将上市!外观年轻个性,综合续航超 1400km

比亚迪的全新插混SUV即将上市!外观年轻个性,综合续航超 1400km

小史谈车
2026-04-18 08:00:08
最新好感度排名蒋万安大幅领先,台名嘴:赖清德最该担心的就是他

最新好感度排名蒋万安大幅领先,台名嘴:赖清德最该担心的就是他

海峡导报社
2026-04-17 10:12:08
苏林搭火车回国,临走前向中国借飞机,越南出大事,烧毁2节列车

苏林搭火车回国,临走前向中国借飞机,越南出大事,烧毁2节列车

爱下厨的阿酾
2026-04-17 21:40:02
伊朗到现在都不敢相信,40天的血战,给自己打出了半个世纪的国运

伊朗到现在都不敢相信,40天的血战,给自己打出了半个世纪的国运

通文知史
2026-04-17 09:10:12
打脸来的太快!张萌六跪赵丽颖被拒,押1亿赌新人 输得底裤都没了

打脸来的太快!张萌六跪赵丽颖被拒,押1亿赌新人 输得底裤都没了

可乐谈情感
2026-04-18 00:25:37
以色列的大麻烦出现,黎巴嫩导弹覆盖全境,内塔尼亚胡越打越危险

以色列的大麻烦出现,黎巴嫩导弹覆盖全境,内塔尼亚胡越打越危险

漫步独行侠
2026-04-17 08:11:36
不愧中超本土标王:140万欧当红国脚表现完胜巴甲外援!

不愧中超本土标王:140万欧当红国脚表现完胜巴甲外援!

邱泽云
2026-04-17 23:12:46
2026-04-18 11:28:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
250649文章数 622075关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

男子吐血抢救后死亡7.5小时用100余支止血针 家属质疑

头条要闻

男子吐血抢救后死亡7.5小时用100余支止血针 家属质疑

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华挚友潘宏彬离世 曾一起租房住

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

健康
亲子
房产
教育
军事航空

干细胞抗衰4大误区,90%的人都中招

亲子要闻

后悔晚接触宝宝巴士!新手家长有了这套儿童绘本

房产要闻

重磅利好!2500个学位,海口滨江片区,要建九年一贯制学校!

教育要闻

韩国竞赛题:妥妥的送分题,很多学生错在最后一步

军事要闻

美宣布黎以停火10天 以方称不会撤军

无障碍浏览 进入关怀版