网易首页 > 网易号 > 正文 申请入驻

梁文锋、杨植麟论文“撞车”,直指算法优化,挑战ChatGPT核心机制!风投公司RAI Digital联合创始人:AI无需读完整本书,将更快、更高效

0
分享至

梁文锋 图片来源:视觉中国

北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力(Native Sparse Attention,下称NSA),直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。

通过这一技术,DeepSeek不仅能将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现了对传统全注意力模型(Full Attention models)的性能反超。

值得注意的是,这篇论文是由DeepSeek创始人梁文锋亲自提交的,而且他也是作者之一。而就在DeepSeek发表这篇技术论文的同一天,月之暗面创始人杨植麟也“挂帅”发布了最新论文,主题同样围绕长文的算法优化。

月之暗面提出的新方法叫块注意力混合(Mixture of Block Attention,下称MoBA)。这项方法没有完全脱离现在最主流的全注意力机制,而是设计了一套可以自由切换的方式,让这些模型可以在全注意力和稀疏注意力机制之间切换,给已有的全注意力模型更多的适配空间。

谈及DeepSeek的NSA机制,风投公司RAI Digital联合创始人萨义德·戈苏斯对《每日经济新闻》记者解释称,与马斯克所追求的“大力出奇迹”不同,DeepSeek的新技术更强调通过算法优化来提升长文处理效率。他提到,NSA不会专注每个单词,而是尝试通过只关注重要的单词来提升效率。

DeepSeek发布新论文,梁文锋参与并提交

北京时间2月18日,DeepSeek官方在X上发布新论文,介绍了一种新的算法优化方式——原生稀疏注意力(NSA)。

据DeepSeek介绍,NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

图片来源:X

通过这一技术,DeepSeek不仅能将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现了对传统全注意力模型的性能反超。

图片来源:DeepSeek的X账号

值得注意的是,DeepSeek创始人梁文锋也出现在了论文作者的行列当中,在作者排名中位列倒数第二,并且也是他亲自提交至预印本网站上的

图片来源:arXiv

论文的第一作者是DeepSeek的实习生袁景阳,他于2022年在北大获得了学士学位,目前在北大的Anker Embodied AI实验室继续攻读研究生学位。他也是DeepSeek-V3报告的主要作者之一,并参与了DeepSeek-R1的研究工作。

月之暗面再次“撞车”DeepSeek

无独有偶,在DeepSeek发论文的当天,月之暗面创始人杨植麟也亲自“挂帅”发表了一篇论文,同样直指算法优化。

杨植麟 图片来源:视觉中国

图片来源:月之暗面

该公司提出的新方法叫块注意力混合(MoBA)。顾名思义,这一方法也运用了将词变成块的方法。不过,该方法没有完全脱离现在最主流的全注意力机制,而是设计了一套可以自由切换的方式,让这些模型可以在全注意力和稀疏注意力机制之间切换,给已有的全注意力模型更多的适配空间。

根据论文,MoBA的计算复杂度随着上下文长度增加而优势明显。在1M token的测试中,MoBA比全注意力快了6.5倍;到10M token时,则提速16倍。而且,它已经在Kimi的产品中使用,用来处理日常用户们的超长上下文的处理需求。

而这也并不是是DeepSeek和月之暗面第一次“撞车”了,上一次是在DeepSeek推理模型R1和月之暗面推理模型Kimi 1.5发布时。

MoBA论文主要作者章明星教授笑称,“有种‘掌中,亦一火字’的感觉(不讨论谁是孔明,谁说周郎)。”他同时也感慨:“大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。”

DeepSeek新方法背后的三大技术

谈及DeepSeek的新方法,风投公司RAI Digital联合创始人萨义德·戈苏斯告诉每经记者,这是AI模型处理超长文本的新方法,比传统方法更快、更高效。

像ChatGPT这样的大型语言模型,都使用一种叫“注意力”(Attention)机制的方法来处理文本,2017年谷歌研究员推出的论文《Attention Is All You Need》被认为是现在所有大模型的基石。

戈苏斯进一步向每经记者解释道:“想象一下你正在读一本书。要理解一个句子,你不仅要看当前的单词,还要回忆起前面句子中的相关单词,以理解所有内容。AI使用注意力做类似的事情,这有助于它确定哪些词是重要的,以及它们彼此之间的关系。传统注意力机制(全注意力)会查看文本中的每个单词,并将其与其他每个单词进行比较。这对于短文本来说很好,但是当文本很长时(比如整本书或一份长的法律文件),这个过程就会变得太慢,而且在计算机上运行成本太高。

而DeepSeek论文中提到的稀疏注意力机制不会专注每个单词,而是尝试通过只关注重要的单词来提升效率,就像是只读摘要而不是整本书一样。

戈苏斯对每经记者介绍说:“为了做好这一点,NSA引入了一种新方法来过滤不重要的单词,同时仍保留足够的上下文来理解完整含义。

它使用三种主要技术来实现这一点:

压缩:NSA不会查看每个单词,而是将单词分组为“块”,并为每个块创建摘要。可以将其想象成将一个段落变成一个简短的摘要。

选择:模型从文本中挑选出最应该关注的重要单词。就像在学习时,只突出显示教科书中的关键句子一样。

滑动窗口:尽管NSA总结并选择了单词,但它仍然会查看附近的单词,以确保不会错过细小但重要的细节。想象一下阅读一本书——人们不会只是从一页跳到下一页而不浏览附近的句子。

DeepSeek认为,三部分策略使NSA速度更快,同时理解含义的能力与传统方法一样好(甚至更好)。”

图片来源:DeepSeek

有网友称,这是在教会AI学会“聪明的偷懒”,像人类一样聪明地分配注意力,从而让长文的处理又快又准,不再是一个“死读书的呆子”。虽然牺牲了一定的准确率,但是极大提升了效率,人脑就是这么干的。

戈苏斯还表示,DeepSeek这次不仅是单纯的算法进步,它还对现有的计算机硬件进行了优化,以便GPU可以实现有效处理。

有科技媒体指出,DeepSeek此次使用了Triton框架,而非英伟达专用库,这或许暗示了其在模型研发阶段已考虑适配更多类型的计算卡,为未来的开源和广泛应用奠定了基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
为满足中国台湾地区F-16V订单需求,洛马公司开始实行两班倒生产

为满足中国台湾地区F-16V订单需求,洛马公司开始实行两班倒生产

零度Military
2026-03-25 18:51:44
瑞典一位将军问耿飚:你当将军时带多少兵,耿飚说:大概十几万吧

瑞典一位将军问耿飚:你当将军时带多少兵,耿飚说:大概十几万吧

新一说史
2026-03-26 13:26:48
张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

奇思妙想草叶君
2026-03-26 16:48:38
李鑫姐夫身份后续:别猜了!不是体制内领导,真实身份很接地气

李鑫姐夫身份后续:别猜了!不是体制内领导,真实身份很接地气

潮鹿逐梦
2026-03-26 11:54:35
新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

白云故事
2025-03-21 17:50:07
“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

妍妍教育日记
2026-03-21 10:05:03
暴跌40%,关店4000家!曾创神话的“零食界爱马仕”,卖不动了

暴跌40%,关店4000家!曾创神话的“零食界爱马仕”,卖不动了

好贤观史记
2026-03-02 20:17:10
别信什么“瘦了就好”,看看蒋欣,瘦了20多斤,代价是脸垮了

别信什么“瘦了就好”,看看蒋欣,瘦了20多斤,代价是脸垮了

西楼知趣杂谈
2026-03-18 11:48:25
心跳成为“胜负手”:从张雪峰猝然离世看网球运动员的心脏之殇

心跳成为“胜负手”:从张雪峰猝然离世看网球运动员的心脏之殇

网球之家
2026-03-25 23:38:54
中国考古学会发布严正声明

中国考古学会发布严正声明

环球网资讯
2026-03-24 20:37:14
大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

风起见你
2026-03-20 02:22:40
100只整装待发!量产机器狼“-20℃极寒测试”现场曝光

100只整装待发!量产机器狼“-20℃极寒测试”现场曝光

中国网
2026-03-26 15:55:11
我退休金5780,儿子叫我去上海带娃,吃饭时儿媳每月交2400生活费

我退休金5780,儿子叫我去上海带娃,吃饭时儿媳每月交2400生活费

艺鉴在线
2026-03-26 12:54:44
悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

火山詩话
2026-03-26 13:34:59
以军开始追杀了 向以色列城市发射导弹的伊朗小组被打死

以军开始追杀了 向以色列城市发射导弹的伊朗小组被打死

桂系007
2026-03-25 02:50:41
周恩来晚年含泪揭秘,当年若非毛主席深夜提灯来,历史或将改写

周恩来晚年含泪揭秘,当年若非毛主席深夜提灯来,历史或将改写

鹤羽说个事
2026-03-18 21:47:42
伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

快看张同学
2026-03-26 14:46:05
1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

明月清风阁
2026-03-25 16:30:09
13投仅仅1中 强如哈登也带不动 未来恐成骑士交易筹码?

13投仅仅1中 强如哈登也带不动 未来恐成骑士交易筹码?

砚底沉香
2026-03-26 13:53:44
2026-03-26 17:19:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1518917文章数 2724758关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
家居
艺术
本地
时尚

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

皮衣+裙,高级到炸

无障碍浏览 进入关怀版