网易首页 > 网易号 > 正文 申请入驻

导致DeepSeek价格暴降,「稀疏注意力机制」,到底是个啥?

0
分享至

9月30日,DeepSeek发新版本了。

大家都注意到了吧,这个3.2-Exp跟上一版本(v3.1-terminus)相比,模型跑分不但不升,反而略有下降。

但是却挡不住一众MaaS服务商第一时间把这个模型上架了。







为啥,只因这个版本可以让推理成本暴降!

降成本的核心奥秘就是该版本采用了「DeepSeek 稀疏注意力机制」。

下面这个图很直观,3.1版本成本随着token长度是线性上升的,而3.2版则是陡升之后迅速折平,成本随着token长度变化极小。

尤其Decode,几乎是平的。



凭借这种巨大的成本优化,DeepSeek也有了降价的底气,官方API价格直接砍半。

那么,这个叫做“稀疏注意力机制”的成本优化利器,究竟是个啥?

1分钟带你简单了解「稀疏注意力机制」

在Transformer架构的大模型世界里,「注意力机制」是最重要的一环。

它就像人类大脑的“专注力”,决了定模型在处理一段话时,应该把脑力花在哪儿。

1、什么是注意力机制?

想象一下你是个售前,正在开Q3季度总结会,这场会有30个人发言(老板、产品经理、售前、研发、销售),会议讨论的核心议题是——如何提升Q4业绩。

但有些人可能是AD/HD患者,他没法专注在会议任务上,容易被外界刺激分散注意力,比如开着会,刷到微信群里有人闲聊,他也要回一句。

甚至看到窗外有美女走过,他就心驰神往,这就是缺乏”注意力“。

而正常人会全程关注所有与会者的发言,并找到跟会议主题相关的重点内容,写出会议总结,这就是“注意力”。

在Transformer大模型里,注意力机制也是类似的:每一个token在处理时都会去“关注”上下文中所有其他词,计算它们之间的关系,从而理解语义、推断含义。

2、传统注意力机制:人人都要听,太费力!

传统的注意力机制属于 “全量注意力(Dense Attention)”。

就像开会时,必须认真听每个人说的话,哪怕是坐在角落里点外卖的小王、正在咬耳朵闲聊的小李和小张,你也要分析他的话对你有没有用。

注意力是够集中了,但是太累、太慢、太费神。

放到大模型推理上,就意味着更多的算力消耗。

稀疏注意力:只听重要的人!

稀疏注意力(Sparse Attention)就机灵多了:

它让模型不再对所有词都关注,而是有选择地跳过不重要的词。

就好比开会的时候,你不需要记住每个人的每句话,于是你会有选择地听:重点关注老板、产品经理和研发骨干说的话,至于销售的画饼你完全不关注。

这样一来↓

不用每个词都计算关系,计算量大幅减少;显存、算力消耗显著降低;

效率自然就飙升。

DeepSeek的独家妙招:更聪明地「选人」

稀疏注意力机制不是DeepSeek首创的,但是很多早期的稀疏注意力方法只是盲目地跳过一部分计算,可能会漏掉重要信息。

就好比开会的时候,售前就是对销售们有成见,不管销售的发言有没有道理,一律”左耳进右耳出“,结果,可能错失了一个大单。

而DeepSeek这次的DSA就比较聪明了:它使用特殊的策略,让模型自己学会哪些词值得关注、哪些词可以忽略。

比如:

对长文本,优先关注关键词、句首、句尾等信息密集的部分;
对结构化数据,优先关注核心字段;
对代码、推理等任务,则关注逻辑节点之间的联系。

好比售前开会,听销售发言时,优先关注那些“历史业绩好的、“有个方案明天就要”次数少的、“客户已搞定”兑现多的。

这种「有策略的稀疏」,让模型既保留了理解力,又大大减少了无用计算。

正因为跳过了大量不必要的计算,DSA带来了三个立竿见影的好处:

训练更快:少算90%的“废话”,大模型可以更快迭代;

推理更便宜:同样的GPU,能跑更多请求、处理更长文本;

可扩展性更强:支持更长的上下文、更大的模型规模。

所以,优秀的售前,用“稀疏注意力机制”支持一部分靠谱销售,既能高效产出方案、完成技术支持工作,又不会过得很卷,还少背锅。

but,这种机制,对大模型有效,但对售前来讲,可操作性就有限了,就在昨天,还有一个售前兄弟吐槽说:

现在因为项目少,售前的话语权进一步被削弱了

公司要求→销售拿过来的机会,售前不能说不靠谱、研发不能说不靠谱,如果要说不靠谱、拒绝销售,必须开会讨论……

好吧,大家都加油。

关于DeepSeek稀疏注意力机制的详细正经解读,大家可以去看论文↓

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

最后㊗️大家双节快乐!



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谷爱凌再遭美国网友网暴:没收她的财产!回美国是非法滞留 鲁比奥查她

谷爱凌再遭美国网友网暴:没收她的财产!回美国是非法滞留 鲁比奥查她

小椰的奶奶
2026-02-13 08:02:35
澳门之所以不闹腾,不闹独立,不闹分裂,不闹反共,不闹亲台亲美

澳门之所以不闹腾,不闹独立,不闹分裂,不闹反共,不闹亲台亲美

百态人间
2026-02-13 15:10:15
26分钟限定!小贾伦创NBA历史第一神迹,爵士这波赚大了

26分钟限定!小贾伦创NBA历史第一神迹,爵士这波赚大了

大眼瞄世界
2026-02-13 03:54:16
李嘉诚预警应验!2026 年楼市迎来大分化,刚需购房务必三思

李嘉诚预警应验!2026 年楼市迎来大分化,刚需购房务必三思

坠入二次元的海洋
2026-02-13 21:56:47
为什么很多家庭一到过年就吵架?网友:和睦都是有人忍出来的

为什么很多家庭一到过年就吵架?网友:和睦都是有人忍出来的

另子维爱读史
2026-02-11 18:15:33
醒醒吧,伊朗从来不是我们的“好朋友”

醒醒吧,伊朗从来不是我们的“好朋友”

苏格拉高
2026-01-11 07:42:04
上海5000万消费券明天开抢!春节可用!赶紧定闹钟↗

上海5000万消费券明天开抢!春节可用!赶紧定闹钟↗

东方不败然多多
2026-02-13 14:50:54
丈夫指责妻子给女儿羽绒服外穿罩衣太土,揭露不同家境的认知差距

丈夫指责妻子给女儿羽绒服外穿罩衣太土,揭露不同家境的认知差距

知晓科普
2026-02-12 22:03:52
韩媒:母亲称林孝埈加入中国是最伟大决定 林孝埈盼把母亲接到中国

韩媒:母亲称林孝埈加入中国是最伟大决定 林孝埈盼把母亲接到中国

劲爆体坛
2026-02-13 22:18:04
节前尾盘砸盘,到底意味着什么?

节前尾盘砸盘,到底意味着什么?

张春林
2026-02-13 15:46:07
日方扣押11名中国人,特朗普暂缓多项科技限制政策

日方扣押11名中国人,特朗普暂缓多项科技限制政策

泛舟碧波湖水
2026-02-13 21:02:48
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
朝鲜战争表面上是中国赢得的,但实际上是一个巨大的损失

朝鲜战争表面上是中国赢得的,但实际上是一个巨大的损失

安安说
2026-02-02 12:18:03
中央戏剧学院表演系原主任陈刚,主动投案!闫学晶儿子就是这个系

中央戏剧学院表演系原主任陈刚,主动投案!闫学晶儿子就是这个系

阿讯说天下
2026-02-12 16:51:21
快船队花了将近4000万请走哈登,拿球不攻慢悠悠运球,场均助攻高但顶级组织力全无

快船队花了将近4000万请走哈登,拿球不攻慢悠悠运球,场均助攻高但顶级组织力全无

生活新鲜市
2026-02-13 18:55:05
粟裕晚年评述孟良崮之战:不应过度丑化蒋介石,张灵甫也绝非是孤军冒进

粟裕晚年评述孟良崮之战:不应过度丑化蒋介石,张灵甫也绝非是孤军冒进

史海孤雁
2025-12-16 22:23:11
宁波一小区保安被刑拘:豪车出入,出手大方,对外自称小区项目总负责人有“特价房源”,私刻公章骗取购房款累计上千万元

宁波一小区保安被刑拘:豪车出入,出手大方,对外自称小区项目总负责人有“特价房源”,私刻公章骗取购房款累计上千万元

极目新闻
2026-02-13 14:03:40
十年前,桑兰能成功索要18亿美金的赔偿,如今想要二胎却很困难?

十年前,桑兰能成功索要18亿美金的赔偿,如今想要二胎却很困难?

北有南栀
2026-02-07 18:05:03
博主吐槽被拒载于是自己买车载狗,看到当事狗后,网友集体反水:你知道的,我很少站司机这边除了这次!

博主吐槽被拒载于是自己买车载狗,看到当事狗后,网友集体反水:你知道的,我很少站司机这边除了这次!

爱宠物
2026-02-12 21:48:37
中南大学湘雅医院2025年外籍患者就诊人次较前年翻6倍

中南大学湘雅医院2025年外籍患者就诊人次较前年翻6倍

澎湃新闻
2026-02-12 20:48:26
2026-02-14 00:32:49
AI全球总部
AI全球总部
全球最新、最酷AI解决方案
1123文章数 715关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

教育
房产
亲子
手机
公开课

教育要闻

高考地理常用答题思路,很齐全!

房产要闻

三亚新机场,又传出新消息!

亲子要闻

什么字呢?

手机要闻

iPhone 16e库存基本告罄,消息暗示17e即将到来

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版