网易首页 > 网易号 > 正文 申请入驻

DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪

0
分享至

编辑部 发自 凹非寺
量子位 | 公众号 QbitAI

刚发V3.1“最终版”,DeepSeek最新模型又来了!

DeepSeek-V3.2-Exp刚刚官宣上线,不仅引入了新的注意力机制——DeepSeek Sparse Attention

还开源了更高效的TileLang版本GPU算子

目前,官方App、网页端、小程序均已同步更新,同时还有API大减价:5折起

这波DeepSeek国庆大礼包,属实有点惊喜了。

新注意力机制

DeepSeek-V3.2-Exp基于上周刚更新的DeepSeek-V3.1-Terminus打造,核心创新是引入了DeepSeek Sparse Attention(DSA)稀疏注意力机制

DSA首次实现了细粒度注意力机制,能在几乎不影响模型输出效果的前提下,实现长文本和推理效率大幅提升。

与前不久更新的DeepSeek-V3.1-Terminus对比,在各领域公开测评集上,DeepSeek-V3.2-Exp和V3.1-Terminus基本持平。

V3.1-Terminus是在 DeepSeek-V3.1基础上的一个强化版本,在稳定性、工具调用能力、语言一致性、错误修正等方面进行迭代改进。

另外,论文提到,使用DSA的模型在处理128K长上下文时,推理成本显著低于DeepSeek-V3.1-Terminus,尤其在解码阶段。

TileLang & CUDA双版本算子开源

DeepSeek还表示,在新模型研发过程中,需要设计和实现很多新的GPU算子。

他们使用高级语言TileLang进行快速原型开发,并在最后阶段,以TileLang作为精度基线,逐步使用底层语言实现更高效的版本

因此,V3.2开源的主要算子包括TileLang和CUDA两种版本。

官方还附上一句:

  • 我们建议社区在进行研究性实验时,使用基于TileLang的版本以方便调试和快速迭代。

官方API的价格也顺势来了个5折起,新价格即刻生效。

这还等什么…朋友们国庆整起来吧。

指路↓

HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
论文:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

One More Thing

除了DeepSeek-V3.2之外,据说智谱的GLM-4.6也在路上了。

从下拉菜单可以看到,他们已经把GLM-4.5标成了“上一代旗舰模型”。

下午还刚在GitHub上刷到这张“国庆是休息日,请给我们关注的同学一点时间”的图:

好好好,为了放假,都打算在节前卷了是吧(手动狗头)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4月1日起,建议在家备上至少6万元现金,4个原因很现实

4月1日起,建议在家备上至少6万元现金,4个原因很现实

猫叔东山再起
2026-04-04 12:35:08
真相大白!孙颖莎、王楚钦打满7局赢球原因曝光,王曼昱打到抽筋

真相大白!孙颖莎、王楚钦打满7局赢球原因曝光,王曼昱打到抽筋

曹说体育
2026-04-04 22:27:28
超接地气!黄晓明清明晒父子骑行照,9岁小海绵已长到爸爸肩膀!

超接地气!黄晓明清明晒父子骑行照,9岁小海绵已长到爸爸肩膀!

娱乐小叨叨
2026-04-04 22:06:51
前白宫律师:特朗普已经精神失常,我们将看到越来越多疯狂的事情

前白宫律师:特朗普已经精神失常,我们将看到越来越多疯狂的事情

暖心萌阿菇凉
2026-04-04 17:55:24
杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

照见古今
2026-03-26 19:06:28
西方媒体:就算中国全力以赴,也不可能按时建成这样庞大的工程

西方媒体:就算中国全力以赴,也不可能按时建成这样庞大的工程

童童聊娱乐啊
2026-04-05 13:34:59
刘知远只有5万人,为何能迅速入主中原,建立后汉?

刘知远只有5万人,为何能迅速入主中原,建立后汉?

掠影后有感
2026-04-05 10:23:30
娶到小时候的女神是一种怎样体验?三天没出门,后来想想不过如此

娶到小时候的女神是一种怎样体验?三天没出门,后来想想不过如此

另子维爱读史
2026-04-04 21:35:59
苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

Ping值焦虑
2026-04-03 09:37:23
Gemma 4 全系列本地部署指南:Ollama / llama.cpp / MLX / vLLM,附 TurboQuant 显存优化

Gemma 4 全系列本地部署指南:Ollama / llama.cpp / MLX / vLLM,附 TurboQuant 显存优化

Ai学习的老章
2026-04-04 11:36:27
告别一年,才懂他的无价!德布劳内——被低估的中场天花板

告别一年,才懂他的无价!德布劳内——被低估的中场天花板

体育闲话说
2026-04-04 21:31:21
迈阿密2-2,可怕不是5场1胜!而是德保罗状态 梅西卫冕世界杯难了

迈阿密2-2,可怕不是5场1胜!而是德保罗状态 梅西卫冕世界杯难了

小火箭爱体育
2026-04-05 10:18:22
家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

小谈食刻美食
2026-04-02 08:57:37
如今在广东生活的冯潇霆,央视编导妻子气质出众,41岁已是大老板

如今在广东生活的冯潇霆,央视编导妻子气质出众,41岁已是大老板

往史过眼云烟
2026-04-04 14:48:37
美国油价升至每加仑4.1美元,伊朗战争爆发后已上涨37%

美国油价升至每加仑4.1美元,伊朗战争爆发后已上涨37%

界面新闻
2026-04-05 07:05:07
集装箱里藏18厘米长帝王蝎,黄埔海关首次截获,系外来濒危物种

集装箱里藏18厘米长帝王蝎,黄埔海关首次截获,系外来濒危物种

环球网资讯
2026-04-05 08:26:07
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
38岁梅西无敌冲顶破门,赛后获评最高8.7分,并加冕官方MVP

38岁梅西无敌冲顶破门,赛后获评最高8.7分,并加冕官方MVP

侧身凌空斩
2026-04-05 10:04:47
刘嘉玲日本度假被偶遇,打扮随意发福明显皮肤松弛像普通大妈

刘嘉玲日本度假被偶遇,打扮随意发福明显皮肤松弛像普通大妈

嘴角上翘的弧度
2026-04-05 03:42:20
入籍10年,华人“杰出人才”夫妇遭撤销美籍,或被驱逐出境!

入籍10年,华人“杰出人才”夫妇遭撤销美籍,或被驱逐出境!

新浪财经
2026-04-05 14:06:42
2026-04-05 17:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12421文章数 176442关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

高速停车救人发生二次事故致死伤 男子被认定次责不服

头条要闻

高速停车救人发生二次事故致死伤 男子被认定次责不服

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

教育
时尚
旅游
健康
军事航空

教育要闻

从副职“原地提拔”到正职,新校长要注意这三点

女人不管多大年纪衣服不要随便穿,这些穿搭可借鉴,优雅显瘦

旅游要闻

视点|北京阵风达七八级,什刹海景区游船停运

干细胞抗衰4大误区,90%的人都中招

军事要闻

美飞行员获救细节:美伊发生激烈交火 至少4死1伤

无障碍浏览 进入关怀版