网易首页 > 网易号 > 正文 申请入驻

独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文

0
分享至


新智元报道

编辑:好困 定慧

【新智元导读】DeepSeek最新模型V3.2-Exp发布,推出全新注意力机制DeepSeek Sparse Attention(DSA),训练推理提效的同时,API同步降价达50%以上!

刚刚,DeepSeek最新模型上线!

代号DeepSeek-V3.2-Exp,被DeepSeek誉为最新的实验性模型


这次V3.2主要基于DeepSeek-V3.1-Terminus,并且首次引入「DeepSeek稀疏注意力」(DeepSeek Sparse Attention,DSA),在长上下文上实现更快、更高效的训练与推理。

值得注意的是,这是第一个「DeepSeek」品牌命名的关键技术(注意力机制)!

我们注意到,DSA正是此前与北大合作、梁文锋署名的那篇中,原生稀疏注意力(Native Sparse Attention,NSA)的改进。



技术报告里的引用

全新注意力机制

DeepSeek-V3.2-Exp的核心武器「DeepSeek稀疏注意力」,首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。


论文地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

与之前模型最大的不同是,DSA不再让每个Token关注序列中的所有其他Token,而是引入了一个名为「闪电索引器」(lightning indexer)的高效组件。

这个索引器能以极快的速度判断,对于当前正在处理的Token,序列中哪些历史Token是最重要的。

随后,模型只从这些最重要的Token中选取(Top-k)一小部分(例如2048个)进行精细计算。

如此一来,核心注意力的计算复杂度就从O(L²)骤降至O(Lk),其中k是一个远小于L的固定值。

这在处理长文本时,无疑带来了巨大的效率提升。


更关键的是,这种效率提升并非以牺牲性能为代价。

在DeepSeek-V3.1的基础上,团队先用一个简短的「密集预热」阶段来初始化闪电索引器,让它学会模仿原有模型的注意力分布。

随后进入「稀疏训练」阶段,让整个模型适应新的稀疏模式。

最后,再沿用与前代模型完全相同的后训练流程,包括专家蒸馏和混合强化学习(GRPO)。


为了严谨地评估引入稀疏注意力带来的影响,DeepSeek特意把DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行了严格的对齐。

DeepSeek-V3.2-Exp的架构图,其中DSA在MLA下实例化。


评估结果显示,无论是在短文本还是长文本任务上,DeepSeek-V3.2-Exp的性能与它的「密集注意力」前身V3.1-Terminus相比,都没有出现实质性的性能下降。


与此同时,在实际部署的推理成本测试中,其端到端的加速效果和成本节约非常显著。


虽然DeepSeek-V3.2-Exp目前还是一款实验性模型,但它所展示的「性能不降、成本骤减」的特性,为大模型突破长文本瓶颈,指明了一条充满希望的工程路径。

价格更便宜

DeepSeek再一次把模型价格打了下来!

得益于新模型服务成本的大幅降低,官方API价格也相应下调,新价格即刻生效。

在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。

目前API的模型版本为DeepSeek-V3.2-Exp,访问方式保持不变。


最后,不得不说,这次DeepSeek太仁慈了,「发布节奏」真的听取了网友的建议,给众多AI界的朋友们放个好假!


参考资料:

https://api-docs.deepseek.com/zh-cn/news/news250929

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵少康急了!大陆一记重拳挥向沈伯洋,他为啥第一个跳出来?

赵少康急了!大陆一记重拳挥向沈伯洋,他为啥第一个跳出来?

观星赏月
2025-11-03 03:17:09
去上海才知道,今年外套流行“短一截”,备齐这3款,高级又时髦

去上海才知道,今年外套流行“短一截”,备齐这3款,高级又时髦

小陈聊搭配
2025-11-02 19:02:38
事业编与公务员有什么区别?主要是以下四点!

事业编与公务员有什么区别?主要是以下四点!

深度报
2025-11-02 20:56:18
深圳市教育局:系谣言!

深圳市教育局:系谣言!

极目新闻
2025-11-02 16:30:20
丰田双擎真的省心省油?老车主5万公里吐槽:6个硬伤忍不了

丰田双擎真的省心省油?老车主5万公里吐槽:6个硬伤忍不了

侃故事的阿庆
2025-11-02 07:46:47
“苏超”夺冠后,泰州市官宣→

“苏超”夺冠后,泰州市官宣→

极目新闻
2025-11-02 18:48:31
国家能源局:低谷充电高峰卖电,“零成本负成本”养车成可能

国家能源局:低谷充电高峰卖电,“零成本负成本”养车成可能

南方都市报
2025-10-31 17:47:31
李亚栋院士:要整体降低高考难度,尤其是降低数学与物理的难度

李亚栋院士:要整体降低高考难度,尤其是降低数学与物理的难度

化学人生
2025-10-31 21:20:19
加纳乔被换下后显不满,球迷批:别以为踢90分钟是理所当然

加纳乔被换下后显不满,球迷批:别以为踢90分钟是理所当然

雷速体育
2025-11-02 12:47:25
刘亦菲哪用靠滤镜啊,人家靠的是睡觉;

刘亦菲哪用靠滤镜啊,人家靠的是睡觉;

小光侃娱乐
2025-11-03 06:00:03
王家卫秦雯录音风波升级,引出陈年大瓜,王家卫剧组集体嫖娼被抓

王家卫秦雯录音风波升级,引出陈年大瓜,王家卫剧组集体嫖娼被抓

花哥扒娱乐
2025-11-02 21:01:20
国补确认恢复继续!国补政策11月1日最新消息:新一轮第四批690亿已发放,国补资格领取操作教程,官方回应国补截止到年底结束

国补确认恢复继续!国补政策11月1日最新消息:新一轮第四批690亿已发放,国补资格领取操作教程,官方回应国补截止到年底结束

开封网
2025-11-02 20:52:43
“苏超”冠军的牌面,泰州市委书记和市长更衣室祝贺泰州夺冠

“苏超”冠军的牌面,泰州市委书记和市长更衣室祝贺泰州夺冠

懂球帝
2025-11-02 14:13:07
安德鲁,劣质基因隔代遗传的接盘侠

安德鲁,劣质基因隔代遗传的接盘侠

石辰搞笑日常
2025-11-02 03:56:42
章泽天出席活动,披外套气场十足,刘强东给老婆拿咖啡像小助理!

章泽天出席活动,披外套气场十足,刘强东给老婆拿咖啡像小助理!

喜欢历史的阿繁
2025-11-03 03:35:30
被北京日报笑到了!网友也真的很神奇

被北京日报笑到了!网友也真的很神奇

老张侃诗词
2025-11-02 17:50:03
烧成骨架的残骸,开始反噬电车行业,吹牛造成的恶果

烧成骨架的残骸,开始反噬电车行业,吹牛造成的恶果

柏铭锐谈
2025-10-31 16:38:05
带小三产检遇原配后续:正脸曝光很漂亮,男子身份被扒,真不简单

带小三产检遇原配后续:正脸曝光很漂亮,男子身份被扒,真不简单

揽星河的笔记
2025-11-01 18:30:59
腿控必看!10位巅峰「美腿女艺人」大盘点!

腿控必看!10位巅峰「美腿女艺人」大盘点!

素然追光
2025-11-03 03:14:58
皮肤干燥多吃它,胶原蛋白是猪蹄的两倍,更容被吸收,解馋两不误

皮肤干燥多吃它,胶原蛋白是猪蹄的两倍,更容被吸收,解馋两不误

阿龙美食记
2025-10-29 14:12:19
2025-11-03 07:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13769文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

教育
旅游
艺术
本地
公开课

教育要闻

背诵很多遍依旧写不出来,要让自己根据真题练习模拟写作

旅游要闻

这道金黄的绝美秋景里藏着古韵京华

艺术要闻

瓦迪斯瓦夫·谢维尼茨基:19世纪波兰杰出的画家

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版