网易首页 > 网易号 > 正文 申请入驻

关于DeepSeek v4,你需要知道的几件事儿

0
分享至

来源:市场资讯

(来源:巴芒时间)

文章同步更新于网站,链接:

(https://www.aitouzi.tech/index.php/2026/05/10/关于deepseek-v4,你需要知道的几件事儿)

2026年4月24日,DeepSeek v4发布,DeepSeek v4到底做了哪些事情?能力如何?与业界顶级模型的差距多少?本文给你讲清楚。

1. DeepSeek-v4 模型的能力如何?

大模型的能力测试一般围绕四大块,正对应论文中对DeepSeek-v4 模型测试的四个部分,分别是(世界)知识、推理能力、Agent、长上下文。原文是这么说的:



客观的说:

  • 世界知识层面,与Gemini-3.1-pro 仍有差距;

  • 推理能力层面,与顶级模型GPT-5.4、Gemini-3.1-pro的差距大概在3~6个月。水平大概与GPT-5.2、Gemini-3.0-pro 相当;

  • Agent层面:与Kimi-K2.6、GLM-5.1 相当。但是稍微差于顶级的闭源模型;

  • 长上下文层面:在1M token上下文的背景下,效果甚至超过了Gemini-3.1-Pro

2. DeepSeek v4有哪些版本?参数量多大?

DeepSeek v4系列有两大版本,分别是flash与pro。在flash与pro版本下,又各对应一个test-time scaling 的版本,即:flash-max 与 pro-max,一图看懂:


简单来说,deepseek-v4-pro-max 就是DeepSeek-v4-pro 做出极限思考下的版本。flash同理。

test-time scaling是指:在推理时给出一些长思考,目的是提升模型的效果。

3. DeepSeek-v4 的初衷是什么?

DeepSeek v4的初衷是:解决长上下文推理问题。

当前各个模型通常会采取test-time scaling 方法来提升模型在推理时的效果,但是test-time scaling存在一个问题:推理时输出的长context会导致计算和内存疯狂暴涨,其复杂程度是O(N^2)级别。

鉴于推理时耗时耗内存的问题,DeepSeek-v4 给出的解决方案是:极致压缩Attention。怎么极致压缩呢?文章提出了两种方法,分别是CSA(Compressed Sparse Attention)和 HCA(Heavliy Compressed Attention)。

CSA的架构


HCA的架构


这两种Attention方法的核心思想是完全一致的:就是基于Attention再做Attention。这么做完之后,就实现了DeepSeek-v4的目的:通过极致的压缩长下文,实现了长下文下的性能极致发挥,从而做到极致的性价比。


所以,DeepSeek-v4 最大的意义在于大模型平权。

4. DeepSeek-v4 系列的预训练

deepseek-v4 的预训练表明:即使使用预训练的方式,只要模型结构设计良好且高效,那么也会取得非常不错的效果。

DeepSeek-V4-Flash 使用 32T tokens ,DeepSeek-V4-Pro 使用 33Ttokens 进行预训练。

经过预训练后,DeepSeek-v4-Flash-Base 的效果就已经超过了DeepSeek-V3.2-Base。这表明:v4的模型设计是更加高效的。更离谱的是,Deepseek-v4-Pro-base 进一步放大了这个收益,直接达到了DeepSeek基座模型的新巅峰水平——在推理、编码、长上下文、世界知识任务中都有全面优势。

5. DeepSeek-v4 系列的后训练

DeepSeek-v4系列选择了两阶段训练的范式:

  • stage 1:独立地训练领域专家;

具体地,先通过SFT的方式过领域内数据,如数学、代码、Agent的数据;然后使用GRPO的方式优化模型领域内对齐的行为。

  • stage 2:通过on-policy 蒸馏联合训练模型的整合。

这部分是通过KL损失来学习各个领域专家模型的能力。

6. DeepSeek-v4 的模型架构


模型架构中主要使用了下面这些算法&优化:

  • 继承自V3的MOE、MTP方式

MTP在DeepSeek-V3中已经被证明有效,所以仍然保留。MTP应该会成为后续模型的主流。

  • 混合Attention:CSA与HCA、MQA、Sliding Window Attention

Attention 是LLM/VLM中最重要的结构,可以说,任何一个大模型最重要的部件就是Attention。为了各种目的优化,会对Attention做更改。比如本paper使用的几种Attention。

  • Attention sink

这个算法的思想其实就是调整Attention score的值。这么做的原因是:实验发现,一串embedding的Attention值通常集中在头部,为了避免这种sink(下沉)现象,就对Attention值做了一个修正:


其实就是加上了这部分值:


,这样就会让最后的Attention score加和不是1。

小结

这期内容主要介绍了DeepSeek-v4系列的初衷、模型架构、优化细节。后面会对CSA、HCA、mHC等算法的细节内容进行详细解读。

历史文章概览


(1)企业分析

(2)投资心法

(3)好书分享

(4)财报详解

(5)宏观经济

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
鲁尼谈阿森纳争议判罚:只要看回放,就知道那肯定是个犯规

鲁尼谈阿森纳争议判罚:只要看回放,就知道那肯定是个犯规

懂球帝
2026-05-11 15:10:21
2.1亿USDT洗钱曝光

2.1亿USDT洗钱曝光

新浪财经
2026-05-11 17:07:43
致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

熊太行
2026-05-11 00:06:25
28.8万彩礼被38.8万“截胡”的现实

28.8万彩礼被38.8万“截胡”的现实

巧哥有话说
2026-05-11 14:31:49
阿斯跟队:皇马即将迎来重要变革,计划签下3-4名关键球员

阿斯跟队:皇马即将迎来重要变革,计划签下3-4名关键球员

懂球帝
2026-05-11 15:10:23
高市早苗心思真毒,赶在特朗普来华前先给一刀,连中国都没有想到

高市早苗心思真毒,赶在特朗普来华前先给一刀,连中国都没有想到

临云史策
2026-05-11 11:33:39
法比奥:我们有3个进球被吹掉了,这就是足球

法比奥:我们有3个进球被吹掉了,这就是足球

懂球帝
2026-05-10 23:50:09
你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

夜深爱杂谈
2025-12-21 17:37:52
被捕9个月后,释永信再迎噩耗,4大罪名坐实,最后的体面都没了

被捕9个月后,释永信再迎噩耗,4大罪名坐实,最后的体面都没了

好贤观史记
2026-03-21 17:07:15
我刚搬进新家,就听楼上情侣折腾了一夜,没忍住加了楼上帅哥

我刚搬进新家,就听楼上情侣折腾了一夜,没忍住加了楼上帅哥

古怪奇谈录
2026-05-11 15:42:49
马龙更新动态,晒夏露视角下的照片,两人还拍了特别的情侣照

马龙更新动态,晒夏露视角下的照片,两人还拍了特别的情侣照

TVB的四小花
2026-05-11 18:08:53
大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

深度报
2026-04-18 23:37:27
一个网友说,大集体时期按月发粮,评论区炸锅了

一个网友说,大集体时期按月发粮,评论区炸锅了

读鬼笔记
2026-05-09 20:34:04
踏空的人可真不少...

踏空的人可真不少...

懒猫的丰收日
2026-05-11 17:29:40
伟大的10-4!火箭变身克鲁斯堡8冠王,历史第1人,超越台球皇帝!

伟大的10-4!火箭变身克鲁斯堡8冠王,历史第1人,超越台球皇帝!

刘姚尧的文字城堡
2026-05-11 07:37:31
乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

项鹏飞
2026-05-08 19:30:06
与郭凯敏离婚后携子嫁大15岁画家,67岁上海低调生活

与郭凯敏离婚后携子嫁大15岁画家,67岁上海低调生活

奇怪的鲨鱼们
2026-04-25 07:06:08
公然反水!中国两邻国联手,抢在美国前,掐断中国“经济命脉”?

公然反水!中国两邻国联手,抢在美国前,掐断中国“经济命脉”?

冷峻视角下的世界
2026-05-09 21:49:20
菲律宾全国闹油荒,11国紧急在菲开会,迟迟等不到中方松口

菲律宾全国闹油荒,11国紧急在菲开会,迟迟等不到中方松口

潮鹿逐梦
2026-05-11 16:40:27
北京10号线每天挤进去140万人!2026年开始,这条环线王者要变天

北京10号线每天挤进去140万人!2026年开始,这条环线王者要变天

据说说娱乐
2026-05-11 14:13:40
2026-05-11 20:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3170766文章数 7315关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

多重催化剂共振,人民币汇率升破6.8

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

艺术
旅游
手机
亲子
军事航空

艺术要闻

陆抑非写竹,笔力遒劲

旅游要闻

昆明蓝花楹登上央视《新闻联播》

手机要闻

消息称某厂Pro Max新机有望搭载2亿主摄、2nm天玑芯

亲子要闻

亚太生殖年会重磅发布LILY研究 科学循证守护母婴安全

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版