网易首页 > 网易号 > 正文 申请入驻

DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

在ACL 2025的颁奖典礼上,由DeepSeek梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。

这次ACL 2025规模空前,总投稿量达到8360篇,相较于去年的4407篇几乎翻倍,竞争异常激烈 。

简单来说,他们提出的原生稀疏注意力(NSA)机制,通过算法与硬件的协同优化,直接把长文本处理速度提升了11倍。更厉害的是,性能不仅没降反而还超越了传统的全注意力模型。

一作袁境阳在会上发表演讲,透露这项技术可以把上下文长度扩展到1百万tokens,将被应用到下一个前沿模型中

结合论文发表于DeepSeek-R1推出之后,实验设置中也提到使用了DeepSeek-R1的蒸馏数据来微调了新的模型。

大家纷纷猜测,这项技术将被用于下一代DeepSeek-V4以及DeepSeek-R2。

给注意力机制瘦身,速度狂飙11倍

长久以来,大语言模型处理长文本就像是戴着镣铐跳舞。传统的全注意力机制计算复杂度随序列长度呈平方级增长,处理64k长度的文本时,注意力计算竟然要占到总延迟的70-80%。

这篇论文的解决思路很巧妙:既然不是所有词之间的关系都同等重要,为什么不让模型学会”抓重点”呢?

NSA采用了一种动态分层的稀疏策略,通过三条并行的注意力分支协同工作:

  • 压缩注意力,负责捕捉粗粒度的全局信息模式,就像快速浏览全文抓住大意;
  • 选择性注意力,则专注于序列中最重要的词块,相当于精读关键段落;
  • 滑动注意力,负责获取局部的上下文信息,确保细节不丢失。

这种设计最精妙的地方在于,它不是简单地丢弃信息,而是通过精心设计的算法平衡了计算密度。

更重要的是,整个架构针对现代GPU硬件进行了深度优化,实现了端到端的原生可训练模式。

在实际测试中,处理64k长度序列时,NSA在解码、前向传播和反向传播的全生命周期中都展现出惊人的速度优势。

解码阶段速度提升11.6倍,前向传播提升9倍,反向传播也有6倍的加速,无论是模型推理还是训练,都能获得实实在在的效率提升。

不仅快还更准,长文本处理迎来新突破

速度快只是NSA的一面,更让人惊讶的是它在各项基准测试中的表现。

在通用基准测试中,采用NSA预训练的27B参数模型在9个评测指标中有7个超越了全注意力基线。特别是在推理相关的基准测试上,DROP提升了0.042,GSM8K提升了0.034,显示出稀疏注意力在强制模型聚焦关键信息方面的独特优势。

长文本处理能力的测试结果更是亮眼。在64k上下文的”大海捞针”测试中,NSA在所有位置都实现了完美的检索准确率。在LongBench基准测试上,NSA取得了0.469的平均分,不仅超越了全注意力基线(+0.032),更是大幅领先其他稀疏注意力方法。

特别值得一提的是,在需要复杂推理的多跳问答任务上,NSA相比全注意力分别提升了0.087(HPQ)和0.051(2Wiki);在代码理解任务(LCC)上提升了0.069;在段落检索任务(PassR-en)上提升了0.075。

研究团队还进行了一项有趣的实验:

他们用DeepSeek-R1的数学推理数据对模型进行微调,然后在美国数学邀请赛(AIME 24)上测试。

结果显示,NSA-R在8k上下文设置下的准确率达到0.121,而全注意力模型只有0.046;即使在16k上下文下,NSA-R仍然保持0.146的准确率,远超全注意力的0.092。

这些结果充分证明了NSA不是通过牺牲性能来换取速度,而是真正实现了效率和能力的双赢。

Three More Thing

这次总共评选出4篇最佳论文,另外三篇包括:

北大团队的《Language Models Resist Alignment: Evidence From Data Compression》

研究了大型语言模型的“弹性”,指模型经过对齐训练(让模型符合人类价值观、减少有害输出)后,很容易因为后续的微调而变回预训练时的状态,就像弹簧被拉伸后会反弹一样。

这意味着现有的对齐方法可能只是表面上改变了模型,不够稳固。未来需要更有效的对齐技术,才能让模型真正稳定地符合人类需求,尤其是在开源模型中,要避免恶意微调轻易破坏安全机制。

斯坦福团队的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

研究了大模型“公平性” 上的一个新视角 “差异感知”。简单来说,就是模型应该在合适的场景下对不同群体做出区分,而不是一味地 一视同仁。

研究发现那些在传统公平性测试中表现好的模型,在 “差异感知” 上得分并不高;模型能力越强(比如 MMLU 分数越高),情境感知能力越好,但差异感知能力未必提升;现有的 “去偏见” 方法(比如提示模型 “保持无偏见”)反而会让模型更 无视差异,甚至把正确答案改错。

亥姆霍兹信息安全中心等团队的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

这篇论文指出大模型生成回答时的采样机制与人类决策类似,包含描述性成分(反映概念的统计常态)和规定性成分(隐含的概念理想状态)。

研究通过实验验证,无论是新创概念还是现有概念(涵盖 10 个领域的 500 个概念),LLMs 生成的样本都会偏离统计平均值,向其认为的 “理想值” 偏移,且这种现象在 15 种不同模型中均显著存在。案例研究显示,这种偏向可能导致医疗等领域的有偏决策,引发伦理问题。

DeepSeek论文地址:
https://arxiv.org/abs/2502.11089

参考链接:
[1]https://x.com/aclmeeting/status/1950572483637067786
[2]https://x.com/casper_hansen_/status/1950649481617342803

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继德国之后,英国也贴出中文标语?中国游客为何屡遭专属中文歧视

继德国之后,英国也贴出中文标语?中国游客为何屡遭专属中文歧视

贱议你读史
2026-06-01 20:30:03
给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

扬子晚报
2026-06-01 12:26:28
李泽楷新欢曝光!47岁恋上女律师,气场碾压前任梁洛施

李泽楷新欢曝光!47岁恋上女律师,气场碾压前任梁洛施

可乐谈情感
2026-05-24 12:26:54
重奖,韩足协主席宣布若球队打进本届世界杯8强将奖励30亿韩元

重奖,韩足协主席宣布若球队打进本届世界杯8强将奖励30亿韩元

懂球帝
2026-06-01 18:27:23
深圳住宅网签时隔14个月再破万套:多个新盘“日光”,二手房成交价重回“6字头”

深圳住宅网签时隔14个月再破万套:多个新盘“日光”,二手房成交价重回“6字头”

澎湃新闻
2026-06-02 08:28:27
网传伊朗正式拒绝特朗普要求其交出浓缩铀储备的要求

网传伊朗正式拒绝特朗普要求其交出浓缩铀储备的要求

爆角追踪
2026-06-01 17:42:25
美军宣布:对伊朗实施打击,摧毁其防空系统、控制站等,报复其击落美军无人机等“侵略行为”!国际油价大涨!科威特:正拦截导弹和无人机

美军宣布:对伊朗实施打击,摧毁其防空系统、控制站等,报复其击落美军无人机等“侵略行为”!国际油价大涨!科威特:正拦截导弹和无人机

每日经济新闻
2026-06-01 12:29:55
库里官宣签约李宁十年!勇士两大核心都签约李宁

库里官宣签约李宁十年!勇士两大核心都签约李宁

体坛周报
2026-06-02 08:00:13
五年减少3900万!儿童节,越来越冷清了

五年减少3900万!儿童节,越来越冷清了

西部城市
2026-06-01 11:30:39
玩火必自焚!与司马南合作的俄乌网,因辱骂恐吓中国网友也被禁言

玩火必自焚!与司马南合作的俄乌网,因辱骂恐吓中国网友也被禁言

瑜说还休
2026-06-01 12:36:42
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
“一车安全带全是P上去的”冲上热搜,《这就是我的西游2》节目组被质疑嘉宾使用的安全带为后期P图添加;同类问题并非首次发生

“一车安全带全是P上去的”冲上热搜,《这就是我的西游2》节目组被质疑嘉宾使用的安全带为后期P图添加;同类问题并非首次发生

大风新闻
2026-06-01 15:53:04
知情人士:特朗普在和内塔尼亚胡通话中,称对方“疯了”,还说“如果不是我,你早就进监狱了,我一直在帮你”

知情人士:特朗普在和内塔尼亚胡通话中,称对方“疯了”,还说“如果不是我,你早就进监狱了,我一直在帮你”

鲁中晨报
2026-06-02 07:15:05
以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

环球网资讯
2026-06-02 07:03:18
消失3年,顶流复出,先赔1100万

消失3年,顶流复出,先赔1100万

最人物
2026-06-01 15:46:41
58只跌停!追高的全被闷杀,这些翻倍股千万别碰了!

58只跌停!追高的全被闷杀,这些翻倍股千万别碰了!

慧眼看世界哈哈
2026-06-01 16:07:49
刚提 6 小时焕新 Model Y 被大货车撞全损,特斯拉车主:人没事、再买一辆!

刚提 6 小时焕新 Model Y 被大货车撞全损,特斯拉车主:人没事、再买一辆!

新浪财经
2026-06-01 15:29:48
状元也有差距!这5人仅用3个赛季,就进入总决赛,文班比肩传奇

状元也有差距!这5人仅用3个赛季,就进入总决赛,文班比肩传奇

篮球圈里的那些事
2026-06-02 08:36:18
司机激活智驾后追尾停着的货车 致3人死亡 长安启源回应

司机激活智驾后追尾停着的货车 致3人死亡 长安启源回应

闪电新闻
2026-06-01 10:05:48
姚明恩师离世!名帅阿德尔曼去世享年79岁:曾率火箭打出22连胜

姚明恩师离世!名帅阿德尔曼去世享年79岁:曾率火箭打出22连胜

罗说NBA
2026-06-02 06:54:26
2026-06-02 08:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12723文章数 176476关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了被迫打了一个电话

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了被迫打了一个电话

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

健康
手机
游戏
家居
军事航空

干细胞临床研究向患者收费?别踩坑

手机要闻

苹果WWDC26下周开幕,新标语“全高光就位”暗指Siri将迎改版

LPL美女解说鼓鼓被私信喊妈妈 极端粉丝太逆天了

家居要闻

自信舒展 高背座椅

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版