网易首页 > 网易号 > 正文 申请入驻

DeepSeek新模型开源,新架构亮了!国产AI芯片集体狂欢

0
分享至


智东西
作者 陈骏达
编辑 心缘

DeepSeek离下一代架构,又近了一步!

智东西9月30日报道,昨日,DeepSeek宣布开源DeepSeek-V3.2-Exp实验版模型。该模型首次引入了DeepSeek Sparse Attention稀疏注意力机制,并在几乎不影响模型输出效果的前提下,大幅度提升了长文本训练和推理效率,被DeepSeek定义为“迈向新一代架构的中间步骤”。


HuggingFace地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

魔搭社区地址:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

这一改进还降低了DeepSeek新模型的服务成本,DeepSeek因此执行了新的价格政策,让开发者调用DeepSeek API的成本降低50%以上。

降价幅度最大的为输出token的价格:DeepSeek-V3.2-Exp模型输出100万个token的价格仅为3元,为DeepSeek-V3.1系列模型的1/4。


截至9月30日上午6点,华为云、PPIO派欧云、优刻得等云平台已宣布上线DeepSeek-V3.2-Exp,华为、寒武纪、海光信息等AI芯片厂商已经宣布适配DeepSeek-V3.2-Exp。

DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基础上打造的。在各领域的公开评测集上,两款模型的表现基本一致,不过,DeepSeek-V3.2-Exp完成任务使用的token量大幅度减少。


目前,DeepSeek App、网页端与小程序均已同步上线了DeepSeek-V3.2-Exp模型。DeepSeek也临时保留了DeepSeek-V3.1-Terminus的API接口,方便开发者进行对比验证。

除模型本体外,DeepSeek还开源了相关技术报告及代码,并提供TileLang与CUDA双版本GPU算子,以便研究者在不同层级进行实验和优化。


技术报告地址:

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek还补充道,作为一个实验性的版本,DeepSeek-V3.2-Exp虽然已经在公开评测集上得到了有效性验证,但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试,以排除在某些场景下效果欠佳的可能。

一、华为、海光、寒武纪光速适配,网友直呼第二个DeepSeek时刻要来了

DeepSeek-V3.2-Exp一经推出,便在产业界与开发者圈子里引发热烈反响,不少国内企业纷纷第一时间宣布完成DeepSeek-V3.2-Exp的适配和上线。

华为计算公众号发文宣布,昇腾已快速基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp Day 0(第零天)支持,并面向开发者开源所有推理代码和算子实现。DeepSeek-V3.2-Exp在昇腾设备上128K长序列输出,能够保持TTFT(首token输出耗时)低于2秒、TPOT(每token输出耗时)低于30毫秒的推理生成速度。


华为云则首发上线了DeepSeek-V3.2-Exp,还使用CloudMatrix 384超节点为该模型提供推理服务。


在DeepSeek发文宣布DeepSeek-V3.2-Exp模型开源后的4分钟,寒武纪也发文称其已同步实现对该模型的Day 0适配,并开源大模型推理引擎vLLM-MLU源代码。

寒武纪通过Triton算子开发实现了快速适配,利用BangC融合算子开发实现了性能优化,并基于计算与通信的并行策略,达成了较高的计算效率水平。

DeepSeek-V3.2-Exp模型的尺寸达671GB,仅下载就可能需要数小时。这种时隔4分钟的Day 0适配,或许意味着寒武纪和DeepSeek两家企业在模型发布前就已经启动适配工作。


据经济观察网报道,海光信息的DCU(深度计算处理器)率先实现了对DeepSeek-V3.2-Exp的Day 0级高效适配与优化,确保大模型算力“零等待”部署。


在DeepSeek官宣DeepSeek-V3.2-Exp开源的推文中,有不少网友分享了对模型的使用体验和感受。有位网友称,自己在10万个token的代码库上测试了DeepSeek-V3.2-Exp,速度提升非常明显。


有网友感叹,DeepSeek API现在几乎等同于免费了。


更有网友认为,这一模型的推出,或许意味着第二个DeepSeek时刻即将到来。


Hugging Face上,DeepSeek-V3.2-Exp的社区板块也有不少讨论,不过,关注度最高的一条帖子,是来自中国网友的“吐槽”:“咱这个模型是非得国庆前更新吗?”


还有网友列出了DeepSeek每次更新模型的时间,几乎都卡在节假日的前几天。


二、一手体验DeepSeek-V3.2-Exp,架构创新或许比性能提升更重要

DeepSeek-V3.2-Exp在使用体验上,究竟与此前的DeepSeek-V3.1-Terminus有何不同?

在编程方面,DeepSeek-V3.2-Exp撰写的代码明显更为简短了,相同的任务下,其输出的代码行数要少于DeepSeek-V3.1-Terminus。

不过,这在某种程度上也影响了模型的性能。DeepSeek-V3.2-Exp编写的小球弹跳动画代码未能正常运行,小球直接飞出了六边形的范围。DeepSeek-V3.1-Terminus在智东西此前的测试中完美地完成了这一任务。


智东西还让DeepSeek-V3.2-Exp完成了一项信息检索任务,要求它推荐几种适合新手在阳台盆栽的、生长快、果子能直接生吃的植物,并且要保证对小孩绝对安全,最好能附上简单的播种技巧。

与DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的生成结果更为简短,用词也比较“朴素”。并且,DeepSeek-V3.2-Exp推荐的无花果、百香果等植物,需要进行扦插、高频率养护等操作,并不符合提示词要求的新手友好。


▲DeepSeek-V3.1-Terminus(左)与DeepSeek-V3.2-Exp(右)在信息检索任务上的表现(图源:智东西)

总体而言,DeepSeek-V3.2-Exp确实在推理效率上实现提升,但却在能力上做出了一定的让步。

知乎博主@toyama nao也在测评中发现了类似的问题。他认为,DeepSeek-V3.2-Exp在工作记忆、计算精度稳定性等方面存在明显短板,还容易有偷懒倾向和陷入死循环的可能。


▲知乎博主@toyama nao对DeepSeek-V3.2-Exp的评价

这也得到了其他网友观点的印证,例如,这位网友便在x平台发贴称,并没在这款模型上看到改进,并提出质疑:我们为什么要使用能力降级的模型呢?


作为一款实验模型,DeepSeek-V3.2-Exp更大的贡献或许在于理论层面。DeepSeek称,与DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架构上的唯一修改,就是通过继续训练引入了DeepSeek Sparse Attention。

目前的DSA机制还处在原型期,主要由两个组件构成:一个Lightning Indexer(闪电索引器)和一个细粒度的token选择机制。


▲DeepSeek-V3.2-Exp架构图

Lightning Indexer能够快速评估查询token与历史token的相关性,从选择机制只挑选最相关的一部分上下文进入注意力计算,这让复杂度从传统的二次方降到了近似线性水平,大幅降低了训练和推理的成本。

在训练上,DeepSeek-V3.2-Exp采用了“继续预训练+后训练”的方式。继续预训练分为两个阶段:首先在稠密模式下短暂训练indexer,让它的输出和标准注意力保持一致;随后引入稀疏选择机制,逐渐让模型适应新的计算方式。

完成预训练后,DeepSeek-V3.2-Exp又通过专家蒸馏和混合强化学习进行后训练。专家蒸馏的思路是针对数学、编程、推理等不同领域训练专门的专家模型,然后将这些模型的知识压缩进通用模型。

混合强化学习则将推理、智能体能力和人类对齐训练统一在一个RL阶段中,避免了传统多阶段方法容易出现的遗忘问题。

技术报告显示,DeepSeek-V3.2-Exp在大多数评测任务上的表现与前代基本持平,个别推理相关的测试分数略有下降,但主要原因是生成的推理token更少,如果使用中间检查点,差距则会缩小。


相比之下,效率的提升尤为显著。在H800 GPU的测试环境中,长序列推理的开销明显降低,证明DSA在真实部署中有很强的实用性。


同时,训练曲线与前代模型保持相似的稳定性,也表明这种架构在收敛性上并没有额外风险。


结语:DeepSeek迈向新一代架构

正如其名字内的Exp(实验版)所言,DeepSeek-V3.2-Exp的推出,本身并不是一次性能爆表的升级,而更像是一场架构实验,展示了一种在长文本处理中兼顾性能和效率的新路径。

作为技术原型,DeepSeek-V3.2-Exp背后的DSA机制或许很快就会得到进一步完善。随着相关技术的持续优化和更多企业、研究者参与验证,DeepSeek有望在不久的未来交出更令人惊喜的成果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
疯狂夏天预定!克洛普入主皇马,清洗风暴来袭

疯狂夏天预定!克洛普入主皇马,清洗风暴来袭

民哥台球解说
2026-03-04 14:57:43
伊朗称击中美军部署在中东的第三套“萨德”反导系统

伊朗称击中美军部署在中东的第三套“萨德”反导系统

新华社
2026-03-04 09:33:05
桑切斯:西班牙政府的立场是拒绝战争

桑切斯:西班牙政府的立场是拒绝战争

环球网资讯
2026-03-04 17:48:12
致美军6死18重伤,这种武器已成伊朗反击杀手锏!成本仅需5万美元,可打击1000公里以外的目标,能够低空飞行避开常规防空系统

致美军6死18重伤,这种武器已成伊朗反击杀手锏!成本仅需5万美元,可打击1000公里以外的目标,能够低空飞行避开常规防空系统

扬子晚报
2026-03-04 14:19:37
最初发现时仅1株!专家繁殖20年没成功,湖北农民只用6年种出27棵

最初发现时仅1株!专家繁殖20年没成功,湖北农民只用6年种出27棵

墨兰史书
2026-02-23 22:10:47
哈梅内伊的死,将了特朗普的军!哈梅内伊最后“阳谋”,有多毒?

哈梅内伊的死,将了特朗普的军!哈梅内伊最后“阳谋”,有多毒?

古史青云啊
2026-03-03 17:54:21
伊朗女足在2026亚洲杯首战前做出“冲击性举动”,有些球员看起来在强忍泪水

伊朗女足在2026亚洲杯首战前做出“冲击性举动”,有些球员看起来在强忍泪水

冷桂零落
2026-03-03 20:07:31
国家动真格了!不到48小时,4大名人禁言被封,没有一个值得同情

国家动真格了!不到48小时,4大名人禁言被封,没有一个值得同情

社会日日鲜
2026-03-03 05:19:50
陈怡:江苏电视台最美主持人,感情生活是她的神秘面纱

陈怡:江苏电视台最美主持人,感情生活是她的神秘面纱

陈意小可爱
2026-03-04 12:54:53
上海90后夫妻春节跑网约车,两班倒不空驶,半个月收入让人佩服

上海90后夫妻春节跑网约车,两班倒不空驶,半个月收入让人佩服

小虎新车推荐员
2026-03-04 09:37:07
秦岚担心的事发生了!33岁热巴最大遗憾,是没听她的一句劝

秦岚担心的事发生了!33岁热巴最大遗憾,是没听她的一句劝

阿纂看事
2026-03-04 09:19:52
中东最新!以军称已开始对伊朗首都进行又一波大规模袭击

中东最新!以军称已开始对伊朗首都进行又一波大规模袭击

证券时报e公司
2026-03-04 17:32:08
巴基斯坦也没有想到,跟着中国混来混去,结果自己也混了一个霸主

巴基斯坦也没有想到,跟着中国混来混去,结果自己也混了一个霸主

妙知
2025-12-04 19:21:46
吃他汀不能碰鸡蛋?医生劝告:除了鸡蛋,这6物再馋也要尽量忌嘴

吃他汀不能碰鸡蛋?医生劝告:除了鸡蛋,这6物再馋也要尽量忌嘴

冷眼看世界728
2026-03-04 10:11:12
电车和油车最大的区别是什么?网友:开的多电车,开的少油车

电车和油车最大的区别是什么?网友:开的多电车,开的少油车

带你感受人间冷暖
2026-02-25 01:00:03
升糖最快的主食被揪出,是白米饭的8倍,专家:糖尿病人别吃了

升糖最快的主食被揪出,是白米饭的8倍,专家:糖尿病人别吃了

小舟谈历史
2025-10-13 09:19:21
美国下令非必要政府人员撤离驻巴基斯坦两地领事馆

美国下令非必要政府人员撤离驻巴基斯坦两地领事馆

财联社
2026-03-04 14:14:06
伊朗宣称摧毁三套萨德系统,美军转移韩国萨德部署中东?

伊朗宣称摧毁三套萨德系统,美军转移韩国萨德部署中东?

练口才陈允才
2026-03-04 17:43:06
余承东宣布,896线全球最高规格激光雷达量产装车,分辨率提升4倍

余承东宣布,896线全球最高规格激光雷达量产装车,分辨率提升4倍

金融界
2026-03-04 17:50:30
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
2026-03-04 18:23:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11295文章数 116986关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

女孩花8684元买到1978年苹果16手机 直呼"太离谱"

头条要闻

女孩花8684元买到1978年苹果16手机 直呼"太离谱"

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

谈扩内需等 人大新闻发布会回应这些热点

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

旅游
本地
教育
房产
军事航空

旅游要闻

从长寿路商圈到M50!普陀这条青春活力路线超好拍超好逛→

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

教育要闻

宋清辉醒醒吧,现在的教育根本不是应试教育,别自作多情

房产要闻

400组,30套!聚亿·椰海锦程为何能在春节火出圈?

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

无障碍浏览 进入关怀版