网易首页 > 网易号 > 正文 申请入驻

梁文锋参与著作!DeepSeek最新论文介绍新机制,可使AI模型进一步降本增效

0
分享至

2月18日,DeepSeek团队发布一篇论文介绍了新的注意力机制NSA(Natively Sparse Attention,原生稀疏注意力机制)。

NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。

其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。

资料显示,袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型(LLM)、人工智能在科学中的应用(AI for Science)。他是DeepSeek-V3技术报告的主要作者之一,还参与了DeepSeek-R1项目,该项目旨在通过强化学习激励大型语言模型的推理能力。

在论文中,DeepSeek团队表示,随着大型语言模型的发展,长上下文建模变得越来越重要,但传统注意力机制的计算复杂度随着序列长度的增加而呈平方级增长,成为制约模型发展的关键瓶颈。

NSA便是为高效处理长上下文任务而生的一种技术路径,其核心创新在于:

1)动态分层稀疏策略:结合粗粒度的Token压缩和细粒度的Token选择,既保证全局上下文感知,又兼顾局部信息的精确性。

2)硬件对齐与端到端训练:通过算术强度平衡的算法设计和硬件优化,显著提升计算速度,同时支持端到端训练,减少预训练计算量。

实验表明,NSA不仅在通用任务和长上下文任务中表现出色,还在链式推理等复杂任务中展现了强大的潜力,且推理速度加快。在通用基准测试、长文本处理以及基于指令的推理任务中,NSA的表现均能达到甚至超越传统全注意力(Full Attention)模型的水平,其以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。

通过高效的长序列处理能力,NSA使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。

本文源自财联社

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
24年英超生涯落幕!英超出场纪录保持者、40岁米尔纳宣布退役

24年英超生涯落幕!英超出场纪录保持者、40岁米尔纳宣布退役

仰卧撑FTUer
2026-06-01 20:55:04
饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

卷史
2026-06-01 11:19:40
19岁大学生从5楼卫生间窗户坠亡,家属起诉学校及实习单位索赔145万元,长春法院判了

19岁大学生从5楼卫生间窗户坠亡,家属起诉学校及实习单位索赔145万元,长春法院判了

大风新闻
2026-06-01 16:35:07
炸雷!三家A股同日退市,3.7万股东今夜无眠!

炸雷!三家A股同日退市,3.7万股东今夜无眠!

慧眼看世界哈哈
2026-06-01 16:19:56
俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

混沌录
2026-05-29 23:26:12
同学聚会,发现一个扎心现象,年过40岁的女同学,1/3没工作,1/3做着低薪没前途的工作...

同学聚会,发现一个扎心现象,年过40岁的女同学,1/3没工作,1/3做着低薪没前途的工作...

背包旅行
2026-06-01 17:39:34
割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

爱下厨的阿椅
2026-06-01 14:25:12
调查发现:血管最怕的早餐,油条排第五,第一名很多人天天都在吃

调查发现:血管最怕的早餐,油条排第五,第一名很多人天天都在吃

荆医生科普
2026-06-01 15:25:10
美军宣布:对伊朗实施打击,摧毁其防空系统、控制站等,报复其击落美军无人机等“侵略行为”!国际油价大涨!科威特:正拦截导弹和无人机

美军宣布:对伊朗实施打击,摧毁其防空系统、控制站等,报复其击落美军无人机等“侵略行为”!国际油价大涨!科威特:正拦截导弹和无人机

每日经济新闻
2026-06-01 12:29:55
浙江国企“塌方”  高管批量投案

浙江国企“塌方” 高管批量投案

经济那道理
2026-06-01 15:55:26
上海政法学院再通报女厕发现摄像头:决定开除涉事学生学籍

上海政法学院再通报女厕发现摄像头:决定开除涉事学生学籍

界面新闻
2026-06-01 15:05:36
晚宴结束,美防长离开香会,临走前立下2条规矩,崔天凯反将一军

晚宴结束,美防长离开香会,临走前立下2条规矩,崔天凯反将一军

流史岁月
2026-06-01 19:30:03
国际空间站再次泄漏!神舟飞船在发射场待命,如有需要能去救援吗

国际空间站再次泄漏!神舟飞船在发射场待命,如有需要能去救援吗

临云史策
2026-06-01 12:11:53
司机激活智驾后追尾停着的货车 致3人死亡 长安启源回应

司机激活智驾后追尾停着的货车 致3人死亡 长安启源回应

闪电新闻
2026-06-01 10:05:48
58只跌停!追高的全被闷杀,这些翻倍股千万别碰了!

58只跌停!追高的全被闷杀,这些翻倍股千万别碰了!

慧眼看世界哈哈
2026-06-01 16:07:49
中央气象台发布强对流、台风预警:今早至明天,吉林、辽宁等地将有10级以上雷暴大风,局地不排除有龙卷;贵州、广西、广东等有短时强降水

中央气象台发布强对流、台风预警:今早至明天,吉林、辽宁等地将有10级以上雷暴大风,局地不排除有龙卷;贵州、广西、广东等有短时强降水

鲁中晨报
2026-06-01 07:11:04
台海观澜 | 马英九不能不服老,郑丽文还须明大局

台海观澜 | 马英九不能不服老,郑丽文还须明大局

经济观察报
2026-06-01 16:56:29
重奖,韩足协主席宣布若球队打进本届世界杯8强将奖励30亿韩元

重奖,韩足协主席宣布若球队打进本届世界杯8强将奖励30亿韩元

懂球帝
2026-06-01 18:27:23
中央定调!2026年养老金从1月补发,去年涨2%,今年会涨多少呢?

中央定调!2026年养老金从1月补发,去年涨2%,今年会涨多少呢?

社保小达人
2026-06-01 11:03:56
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

夜深爱杂谈
2026-06-01 19:22:01
2026-06-01 22:00:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 546447关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

媒体:郑丽文"两手空空"访美 被指有望见到特朗普

头条要闻

媒体:郑丽文"两手空空"访美 被指有望见到特朗普

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

房产
教育
游戏
时尚
公开课

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

教育要闻

各省高考竞争激烈程度

《巫师4》开发加速 团队超500人 “旧时曲”DLC是铺垫

夏天可以准备一件橘色、黄色单品,好搭不挑身材,利用率很高

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版