网易首页 > 网易号 > 正文 申请入驻

开源最强 + 自曝落后 3-6 个月:DeepSeek V4 这份技术报告有点不一样!

0
分享至

来源:市场资讯

(来源:AI信息Gap)

Codeforces Rating 3206 分,排在人类选手第 23 名。

LiveCodeBench Pass@1 93.5%,全球第一。

这是 DeepSeek V4。

但在这份 58 页的技术报告里,DeepSeek 自己写了这么一句。

Nevertheless, its performance falls marginally short of GPT-5.4 and Gemini-3.1-Pro, suggesting a developmental trajectory that trails state-of-the-art frontier models by approximately 3 to 6 months.

「我们比最前沿的闭源模型,还落后 3 到 6 个月。」


开源最强,但自曝落后闭源 3-6 个月。

DeepSeek 的这份坦诚,值得好好拆解一下。

V4-Pro-Max 是 V4-Pro 的满血推理模式,对应 384K 上下文加无上限的思考预算。

Codeforces Rating 3206 Elo 分,这个分数能排进 Codeforces 全球人类选手的第 23 名。这是 DeepSeek 用 14 场 Division 1 比赛、114 道题目、每道题采样 32 次、组成模拟提交序列跑出来的。

LiveCodeBench v6 Pass@1 93.5%,最高。Gemini-3.1-Pro 91.7%,K2.6 Thinking 89.6%,Opus 4.6 Max 88.8%。

Apex Shortlist 90.2%,也是总榜第一。

Putnam-2025 是美国本科数学竞赛题集,V4-Pro-Max 拿到 120 / 120 满分。


最离谱的是 SimpleQA-Verified。它测试模型的世界知识记忆。V4-Pro-Max 57.9%,同档的开源模型只有一半多一点的分数。

闭源阵营里,V4 也只输给 Gemini-3.1-Pro 的 75.6%。Opus 4.6 Max 只有 46.2%,GPT-5.4 xHigh 45.3%。V4 在纯知识这一项直接反超 Claude 和 GPT。

SWE Verified 80.6%,和 Opus 4.6 Max 的 80.8% 差 0.2 分。

这是技术报告的前菜。

紧接着是反转。

MRCR 1M 这一项,测的是模型在 100 万 token 上下文里的检索能力。V4-Pro-Max 83.5%。Opus 4.6 Max 92.9%。长文检索这一块,Claude 还是领先。

CorpusQA 1M,V4-Pro-Max 62.0%,Opus 4.6 Max 71.7%。

HLE(不带工具),V4-Pro-Max 37.7%,Gemini-3.1-Pro 44.4%,Opus 4.6 Max 40.0%。纯推理加知识的综合测试,V4 还有差距。

Terminal Bench 2.0,V4-Pro-Max 67.9%,GPT-5.4 xHigh 75.1%。终端里干活的能力,GPT-5.4 领先(这一项对于养「龙虾」很重要)。

HLE 带工具场景,V4 48.2%,K2.6 Thinking 反超到 54.0%。

「V4-Pro-Max 落后顶尖闭源模型大约 3 到 6 个月。V4-Flash-Max 在足够的思考预算下,推理能力可以接近 V4-Pro-Max,但在纯知识任务和最复杂的 agent 工作流上,仍然追不上大参数版本。」

中文场景是 V4 的主场。

DeepSeek 组织了一场中文功能性写作评测,3170 个真实任务,覆盖报告、方案、邮件、教育培训、技术文档、招聘、通知公告等等。对手是 Gemini-3.1-Pro。

V4-Pro 胜率 62.7%,Gemini-3.1-Pro 34.1%,3.25% 打平。

DeepSeek 总结,「Gemini 在中文写作里经常让自己的风格偏好盖过用户的明确要求。」

意思是,Gemini 中文写作爱自己加戏。


创意写作差距更大。2837 个任务,小说、同人文、散文、古诗、议论文、歌词、记叙文。指令跟随 V4 胜率 60.0%,写作质量 77.5% 对 22.4%,

「V4 的创意写作质量要高出 Gemini-3.1-Pro 三倍多。」


但碰到 Opus 4.5 就是另一个故事了。复杂指令跟随加多轮写作,V4-Pro vs Opus 4.5,胜率 45.9% vs 52.0%。Opus 4.5 更高。


V4 的成绩,建立在 DeepSeek 技术的创新上。其中最关键的一步是「注意力架构的重写」。

DeepSeek 过去两年的稀疏化路线,几乎都在参数侧。MoE 框架,总参数大,但每个 token 只激活一小部分专家。V3 到 V3.2,一直都在这条路上深耕。

V4 第一次把目光转移到了注意力(Attention)本身。

传统注意力的问题是,每生成一个新 token,模型都要回顾所有历史内容。计算复杂度是平方级别的。百万上下文,根本算不过来。此时,要么引入滑动窗口(只看附近几百字),要么用 RAG(干脆不让模型读长文)。

V4 走了第三条路,「混合压缩」。先把上下文压缩打包,再挑重点精读。

两个新机制,一个 CSA(压缩稀疏注意力,Compressed Sparse Attention),一个 HCA(重度压缩注意力,Heavily Compressed Attention)。

CSA 先把每 4 个 token 打包成 1 条笔记,再从里面挑出最相关的 512 到 1024 条精读。就像先翻目录,再选章节细看。

HCA 更狠。每 128 个 token 压缩成 1 条大纲。像每 128 页只留下一张思维导图。


结果,1M token 上下文下,V4-Pro 的单 token 计算量只有 V3.2 的 27%,显存占用只有 10%。

V4-Flash 更极端,计算量 10%,显存 7%。

粗略估算,同样的算力预算,V4 理论上能多跑三到四倍的长文推理。工程经济学,拉满了。

划重点,这个优化方案,开源的。

除了注意力架构,V4 把 DeepSeek 之前一篇论文里提到的 mHC 用起来了。

1.6T 参数的模型层数很深,信号在层与层之间传着传着就容易失控,要么放大到爆炸,要么衰减到消失。

V4 给信号路径套了一层数学约束,不让它乱飘。相当于给层间信号装了个稳压器。

后训练的改动同样大。

以前训练模型是一个学生什么都学。V4 改成「先分科培养,再合体」。数学、编程、Agent、指令跟随,每个领域先单独训练一个专家模型,再把十几个专家的本事全部蒸馏到同一个学生身上。

这个过程叫 OPD(On-Policy Distillation)。

训练出来的 V4 有三种思考模式。

Non-think 快问快答,8K 上下文,日常闲聊用。

Think High 认真思考,128K 上下文,复杂问题用。

Think Max,死磕到底,384K 上下文。这个模式下 DeepSeek 还会在系统提示词开头塞一句,「别走捷径,用算力给我死磕。」


Think Max 通过 API 参数 reasoning_effort="max" 调用。像 Claude Code、OpenCode 这类 agent 客户端,默认 max 档。

DeepSeek 在公司内部做了一次调查。

85 个 DeepSeek 工程师,全都用 V4-Pro 写代码。调研问题是,「你会不会把 V4-Pro 当成日常工作中的默认编程模型?」

52% 说 yes。

39% 说倾向于 yes。

不到 9% 说 no。

也就是说,DeepSeek 自己团队,一半以上已经把 V4 当作日常编程模型了。剩下的大部分也倾向于用。

这组数据藏在报告的 5.4.4 小节,叫 Code Agent。同一小节还有一张表。V4-Pro-Max 在一组内部真实研发任务上的通过率 67%,高于 Sonnet 4.5 的 47%,接近 Opus 4.5 的 70%,比 Opus 4.5 Thinking 的 73% 差一点。Opus 4.6 Thinking 80%,是评测里的天花板。


V4 离 Claude 当时最强的编程模型,还有大约 13 个百分点(现在可能不止,如果考虑 Opus 4.7 的话)。

通篇读下来,DeepSeek 没说自己天下第一。

它说自己在知识任务上刷新开源记录,但闭源仍然领先。它说 Flash 和 Pro 存在真实差距。它说长文检索仍然输给 Claude。它说多轮复杂写作还在追赶 Opus。它说模型发展轨迹落后前沿闭源 3 到 6 个月。

同时它开源了 1.6T 参数模型的权重,MIT 协议,Hugging Face 上直接下载。

「不诱于誉,不恐于诽,率道而行,端然正己。」

再给他点时间。他还差 3 到 6 个月。

我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出乎全世界预料,特朗普临时更改访华行程,中方官宣:必须来三天

出乎全世界预料,特朗普临时更改访华行程,中方官宣:必须来三天

各生欢喜者
2026-05-13 23:30:55
大反转!中国人赴乌参战被俘,外交部最新回应来了,结局意想不到

大反转!中国人赴乌参战被俘,外交部最新回应来了,结局意想不到

快看张同学
2026-05-13 09:32:51
美方放风:这一点,中美都同意

美方放风:这一点,中美都同意

观察者网
2026-05-13 10:44:10
45岁阿娇降级去演短剧了!剧照美到窒息,网友:可惜了!

45岁阿娇降级去演短剧了!剧照美到窒息,网友:可惜了!

黎兜兜
2026-05-13 21:19:52
特朗普访华随行名单:夫人缺席,次子夫妇、鲁比奥随行,黄仁勋作为临时增加人员登上空军一号

特朗普访华随行名单:夫人缺席,次子夫妇、鲁比奥随行,黄仁勋作为临时增加人员登上空军一号

大风新闻
2026-05-13 11:24:16
中国国民党主席郑丽文预计6月1日访美,国台办回应

中国国民党主席郑丽文预计6月1日访美,国台办回应

界面新闻
2026-05-13 14:20:43
刚刚确认,大雨暴雨+8级大风!杭州人明天提前出门,这波太猛了

刚刚确认,大雨暴雨+8级大风!杭州人明天提前出门,这波太猛了

19楼
2026-05-13 19:42:44
佩林卡:任何球队都渴望拥有詹姆斯 我们只想尊重他的决定

佩林卡:任何球队都渴望拥有詹姆斯 我们只想尊重他的决定

北青网-北京青年报
2026-05-13 21:52:20
外媒:蒙牛等赞助世界杯的中国企业担忧世界杯没版权导致营销损失

外媒:蒙牛等赞助世界杯的中国企业担忧世界杯没版权导致营销损失

懂球帝
2026-05-13 01:09:14
南山一地铁口火上央视!网友:真的震撼

南山一地铁口火上央视!网友:真的震撼

娱乐的硬糖吖
2026-05-13 17:43:28
起底那个声称海参崴不存在的微博大v杜建国

起底那个声称海参崴不存在的微博大v杜建国

笔杆论道
2026-05-13 00:01:53
官方:巴黎圣日耳曼将在对朗斯比赛中身穿Labubu联名球衣出战

官方:巴黎圣日耳曼将在对朗斯比赛中身穿Labubu联名球衣出战

懂球帝
2026-05-13 22:27:45
来自李斌的“守护”:换电起火,锁电疑云,一年两背刺

来自李斌的“守护”:换电起火,锁电疑云,一年两背刺

SmartHey
2026-05-13 18:34:59
可乐再次被关注!医生发现:高血压者喝可乐,不用多久或有6变化

可乐再次被关注!医生发现:高血压者喝可乐,不用多久或有6变化

蜉蝣说
2026-05-13 16:38:22
南宋为洗靖康之耻有多狠?700万金人仅剩10万,辱金后还留一画作

南宋为洗靖康之耻有多狠?700万金人仅剩10万,辱金后还留一画作

掠影后有感
2026-05-07 10:01:40
曝皇马队长遭清洗,1.2亿欧全能中场加盟英超,曼联捡漏巴尔韦德

曝皇马队长遭清洗,1.2亿欧全能中场加盟英超,曼联捡漏巴尔韦德

夏侯看英超
2026-05-13 23:09:12
700日元变350日元!日本盒饭明着打折,为啥没人敢等?

700日元变350日元!日本盒饭明着打折,为啥没人敢等?

老特有话说
2026-05-12 15:31:57
回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

历来都很现实
2024-09-24 23:58:16
俄方通缉英国前防长,只因他说了一句“炸掉克里米亚大桥”

俄方通缉英国前防长,只因他说了一句“炸掉克里米亚大桥”

桂系007
2026-05-13 23:50:53
帕金斯:詹姆斯、库里和杜兰特再也无法拿到NBA总冠军了

帕金斯:詹姆斯、库里和杜兰特再也无法拿到NBA总冠军了

懂球帝
2026-05-13 11:17:04
2026-05-14 00:28:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3180002文章数 7357关注度
往期回顾 全部

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

健康
手机
数码
时尚
本地

干细胞能让人“返老还童”吗

手机要闻

iPhone18Pro配色敲定+iOS 27功能曝光!今年9月的苹果,料有点多

数码要闻

小米手环10 Pro陶瓷版亮相,搭配柔软贴合氟橡胶表带

专栏 | 进入心流后,不被洪流裹挟

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版