网易首页 > 网易号 > 正文 申请入驻

梁文锋参与著作!DeepSeek最新论文介绍新机制 可使AI模型进一步降本增效

0
分享至

《科创板日报》2月18日讯(编辑 宋子乔) 2月18日,DeepSeek团队发布一篇论文介绍了新的注意力机制NSA(Natively Sparse Attention,原生稀疏注意力机制)。


NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。


其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。

资料显示,袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型(LLM)、人工智能在科学中的应用(AI for Science)。他是DeepSeek-V3技术报告的主要作者之一,还参与了DeepSeek-R1项目,该项目旨在通过强化学习激励大型语言模型的推理能力。


在论文中,DeepSeek团队表示,随着大型语言模型的发展,长上下文建模变得越来越重要,但传统注意力机制的计算复杂度随着序列长度的增加而呈平方级增长,成为制约模型发展的关键瓶颈。

NSA便是为高效处理长上下文任务而生的一种技术路径,其核心创新在于:

1)动态分层稀疏策略:结合粗粒度的Token压缩和细粒度的Token选择,既保证全局上下文感知,又兼顾局部信息的精确性。
2)硬件对齐与端到端训练:通过算术强度平衡的算法设计和硬件优化,显著提升计算速度,同时支持端到端训练,减少预训练计算量。

实验表明,NSA不仅在通用任务和长上下文任务中表现出色,还在链式推理等复杂任务中展现了强大的潜力,且推理速度加快。在通用基准测试、长文本处理以及基于指令的推理任务中,NSA的表现均能达到甚至超越传统全注意力(Full Attention)模型的水平,其以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。

通过高效的长序列处理能力,NSA使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“美国人的屁股一米宽”:在美国,身材会出卖你的阶级

“美国人的屁股一米宽”:在美国,身材会出卖你的阶级

半耳聆
2025-03-17 17:39:36
敢贷款给许家印的李晓鹏,家族式产业链的贪腐有多骇人听闻?

敢贷款给许家印的李晓鹏,家族式产业链的贪腐有多骇人听闻?

趣文说娱
2025-03-17 11:46:41
被埋没的“舒适王”,不输GL8,比国产车还要漂亮,关键还省油

被埋没的“舒适王”,不输GL8,比国产车还要漂亮,关键还省油

沙雕小琳琳
2025-03-15 01:54:32
申请加入乌军的外国志愿者呈指数级增长,大部分是美国退役军人

申请加入乌军的外国志愿者呈指数级增长,大部分是美国退役军人

环球热点快评
2025-03-16 19:48:08
斯洛特:我这辈子没见过谁能从那么远的地方大力头球攻门

斯洛特:我这辈子没见过谁能从那么远的地方大力头球攻门

懂球帝
2025-03-17 04:50:14
从头到脚皆可替?周润发这个镜头,戳穿了多少“流量明星”的体面

从头到脚皆可替?周润发这个镜头,戳穿了多少“流量明星”的体面

娱乐圈笔娱君
2025-02-10 15:55:24
发飙!老杜律师硬话触动了谁?主审法官似有醒悟老杜命运有否转机

发飙!老杜律师硬话触动了谁?主审法官似有醒悟老杜命运有否转机

阿莱美食汇
2025-03-17 09:02:13
温度决定生死,体温决定寿命!中医:内脏不热,寒毒不出!

温度决定生死,体温决定寿命!中医:内脏不热,寒毒不出!

华人星光
2025-03-09 12:51:30
14胜1负的勇士,能打破近五战全负的魔咒吗?篮板是关键!

14胜1负的勇士,能打破近五战全负的魔咒吗?篮板是关键!

小七说篮球
2025-03-17 22:37:42
全网震怒!保时捷男加油逃单502元被跨省追捕3天,落网后狼狈不堪

全网震怒!保时捷男加油逃单502元被跨省追捕3天,落网后狼狈不堪

明月杂谈
2025-03-17 05:51:39
大陆为何总是演习,迟迟不进攻台湾?看看金门岛战役就知道了!

大陆为何总是演习,迟迟不进攻台湾?看看金门岛战役就知道了!

飞杨电影
2025-03-11 00:32:06
公然挑衅北京当局,拿2000亿阻止两岸统一,郭台铭为何敢这么狂?

公然挑衅北京当局,拿2000亿阻止两岸统一,郭台铭为何敢这么狂?

易玄
2025-02-11 17:17:48
伊朗公开特朗普来信内容

伊朗公开特朗普来信内容

上观新闻
2025-03-17 21:31:25
笑死!S妈喊话张兰:我们不稀罕你家资产,具俊晔打碟能养活我们

笑死!S妈喊话张兰:我们不稀罕你家资产,具俊晔打碟能养活我们

扒星人
2025-03-17 14:15:32
“悬赏千万寻子”圆满认亲,儿子婉拒银行卡和豪车:正在读研,打算继续求学

“悬赏千万寻子”圆满认亲,儿子婉拒银行卡和豪车:正在读研,打算继续求学

大风新闻
2025-03-17 11:23:06
中央办公厅、国务院办公厅印发重要通知,关系所有人的钱包,看看

中央办公厅、国务院办公厅印发重要通知,关系所有人的钱包,看看

云姐财说
2025-03-17 00:00:13
泰国总理或将换人,泰国政坛或大震荡,总理佩通坦将面不信任辩论

泰国总理或将换人,泰国政坛或大震荡,总理佩通坦将面不信任辩论

今看泰国
2025-03-17 14:18:02
初中生玩打火机30秒烧了整间奶茶店。店家回应:他一脸无所谓,称反正是父母赔钱!

初中生玩打火机30秒烧了整间奶茶店。店家回应:他一脸无所谓,称反正是父母赔钱!

观威海
2025-03-16 12:09:16
美国电影公司将推《西游记》动画电影三部曲

美国电影公司将推《西游记》动画电影三部曲

IT之家
2025-03-17 11:27:15
怎么回事?媒体人:许指导赛后在更衣室发了火,声振屋瓦

怎么回事?媒体人:许指导赛后在更衣室发了火,声振屋瓦

雷速体育
2025-03-17 22:22:34
2025-03-18 01:15:00
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
556574文章数 1006219关注度
往期回顾 全部

科技要闻

李开复放弃万亿大模型,靠DeepSeek赚ToB钱

头条要闻

美民主党支持率跌至历史新低 支持者:我们只看到妥协

头条要闻

美民主党支持率跌至历史新低 支持者:我们只看到妥协

体育要闻

和死神擦肩而过,她用金牌拥抱 ”爱人”

娱乐要闻

金秀贤曾二次发函威胁金赛纶,家属考虑起诉他

财经要闻

Deepseek"利润神话":大模型盈利何处去

汽车要闻

丰田宣布将推出三款全新电动车 包括一款电动皮卡

态度原创

数码
本地
亲子
教育
艺术

数码要闻

搭载M3 Ultra的Mac Studio在本地运行大规模DeepSeek R1 AI模型

本地新闻

用AI唤醒花花世界|美到“开挂”,来哈尔滨感受春天吧

亲子要闻

你俩是不是商量好了~

教育要闻

大学毕业的小学生家长们,你现在可以辅导小学生吗?真累啊

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版