这是苍何的第 519 篇原创!
大家好,我是苍何。
说起来,最近模型圈卷得跟疯了一样。
一周发了七八个新模型,光最近 24 小时就蹦出来 4 个。MiMo、HY3、GPT-5.5……好家伙,我键盘都没敲热乎,新模型又来了。
但说实话,我最期待的还是 DeepSeek V4。毕竟等了这么久。
这次 V4 预览版一上线,我第一时间就冲进去,前前后后砸了差不多 「4 千万 token」 去测。
![]()
讲真的,测完以后心情有点复杂。
有惊喜,也有遗憾。但最大的感受是:「DeepSeek 这波,格局不一样了。」
当时 Wesight 的停更,一度让我很痛苦,我用 DeepSeek V4 进行了迭代,现在他是一个可以搭载你本地 Claude Code、Codex 迭代 Agent 了。
![]()
并新增 CC 和 Codex 引擎,配合原先的 Openclaw 引擎,现在 Wesight 是个多引擎驱动的成熟系统了,你只要安装 Wesight,其余的都一键配置好。
![]()
无论你的 Claude Code 配置的是什么模型,在 Wesight 中使用变得如此简单。
![]()
我让 Wesight 中的 Codex 给 DeepSeek V4 做了一次总结,大家可以先过目一下:
![]()
两个版本,定位很清晰
V4 分了两个版本:
「V4-Pro」:1.6T 总参数,49B 激活,1M 上下文。这是旗舰,对标顶级闭源模型。
「V4-Flash」:284B 总参数,13B 激活,同样 1M 上下文。主打便宜和快。
![]()
我拿到 API 的第一件事,就是用长上下文测它的极限。
毕竟 DeepSeek 这次最核心的一个变化,就是 「1M 上下文直接变成标配」。
以前 1M 上下文是高配、是噱头,很多模型标了但其实根本用不满。但 V4 不一样,它从底层架构就围绕长上下文设计。
架构变化很大,不是小打小闹
这次 V4 的架构改动,说实话挺激进的。
先说注意力机制。V4 搞了个 Hybrid Attention,把 CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)两种注意力层交错着用。一个管长距离依赖,一个管超长压缩。相当于给模型装了两套眼睛,近处看得清,远处也不模糊。
![]()
优化器也从 AdamW 换成了 「Muon」,收敛更快更稳,再加上流形约束残差连接让参数调度更灵活,这波架构升级诚意很足。
这些架构改动,我实测下来最直接的感受就是:「长文本的连贯性确实好了很多。」
我喂了一个接近 90 万 token 的代码库进去,让它帮我做全局重构。V3.2 干到一半就开始忘事,变量名对不上,函数引用乱飞。V4-Pro 几乎全程在线,跨越几十万 token 还能记住我之前定的命名规范。
Coding 能力,有进步
我先是做了前端审美能力的测试,还是有显著的增强,比如这个一句简单提示词生成的个人博客网站。
![]()
重新优化了下 WeSight 的登录,也是科技感拉满。
![]()
先行者联盟群里的杨律师同样用 V4 做出来的应用,效果也还不错。
![]()
前端审美这块,V 4 确实比 V 3.2 强了不少。但说实话,之前用 GLM 5.1 搞 Wesight 的时候,出来的效果也挺能打,并没有拉开明显差距。
不过说实话,Demo 和工程代码是两码事。
前端页面一行提示词就能出效果。但 Wesight 涉及 Electron 构建、多引擎调度、Node 原生模块编译这些,模块间耦合度高,对模型的工程理解力要求完全不在一个量级。
在这个场景下,V 4 开始有点兜不住了。比如下面这个构建报错:
![]()
在构建 electron 的时候,已经犯过的一次错还是会接着犯。
![]()
这里有个很明显的对比:同样是 Wesight 的 Electron 构建问题,GLM 5.1 基本一轮就能定位到根因,改了就不复发。
V4 是改了犯、犯了改,同一个配置项反复横跳。这说明差距不在语法层面,在工程上下文的追踪深度上。
![]()
在 Wesight 的 Codex 面板,调试了好几次,也没修复这个 bug,始终无法回复,硬是楞在那里。
![]()
调试了好几次,也没修复这个 bug,始终无法回复,硬是楞在那里。我判断是 V 4 在遇到自己不熟悉的错误时,倾向于停止行动而非尝试替代方案,这在 Agent 场景下是个硬伤。
还有个更头疼的:我发现此时长时任务跑到一半,它会自己停下。不是报错,也不是超时,就是单纯中断不继续了。你没法挂后台让它跑,只能在旁边盯着催。说实话,这在实际工程中有点难受。
![]()
最后没办法,我还是切换回 GLM 5.1 帮一次就解决好了。(毕竟刚整的 coding plan 还是很香的。)
![]()
处理好之后,去 Wesight 中使用就能看到 codex 正常回答了。
![]()
我看了下在 Code Arena 的测试中,DeepSeek V4 Pro 相较于 V3.2 进步很大,但还次于 GLM 5.1 和 Kimi K2.6。和我的测试结果相差不大。
![]()
如果你想要国产模型进行复杂的 Coding 任务,当下 DeepSeek V4 Pro 还无法达到领先的要求,相比较 GLM 5.1 的 Agent Coding 能力表现会更好些。
价格方面,我本次测试任务一共花费近 50 吧,对比 Coding Plan 来说,还是贵了。毕竟我还没用 1 亿 token 呢。
![]()
Agent 能力,进步显著但还有坑
DeepSeek 这次在 Agent 上下了不少功夫。
官方直接说了:V4-Pro 已经是公司内部默认的编码模型了。内部评测反馈是,「体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式」。
![]()
这个评价不低。Sonnet 4.5 和 Opus 4.6 什么水平,大家心里都有数。
我实测下来,用 V4-Pro + Claude Code 写代码,简单和中等难度的任务确实很流畅。代码生成的风格偏实战,不会过度设计,这在 Agentic Coding 场景下反而是优点。
但有几个坑我也得说。
第一个坑:「本地 skill 调用不灵敏」。
我本地配了一些 skill 和 Cli,GLM-5.1、Kimi K 2.6 都能正常识别并调用,但 V4 有时候需要我明确提示才去调,不够主动。
![]()
我分析下来,V4 的问题不是不会调 skill,是「判断该不该调的决策不够果断」。同样一个 prompt,GLM 5.1 和 Kimi 2.6 能立刻识别出「这该用那个 tool 了」,V4 会犹豫,等你再 push 一下才动。
第二个坑:「复杂约束下的理解力」。
我给项目做了 spec 约束。比如提交 GitHub 前必须过一遍 commit 自检,这是 Wesight 开发规范里的硬要求。结果 V4 直接把自检跳过了,代码就往 GitHub 上推。
说实话,这个 bug 比前面的构建报错更致命。构建报错至少你能看到,修就行了。但偷偷跳过约束,你要是不盯着完全不知道它漏了哪一步。这在团队协作场景里基本是一票否决级的风险。
同样一份 spec 丢给 GLM 5.1,按 checklist 一步不落走完才提交,稳得一匹。
这些场景在实际工程中挺常见的。V4 在这些地方的表现,跟 Opus 4.6 还是有一定差距。
不过话说回来,这毕竟是预览版。DeepSeek 也坦诚说了,和 Opus 4.6 思考模式存在差距。这种诚实我反而挺认可的。
推理和知识,可圈可点
推理这块,V4-Pro 在数学、STEM、竞赛型代码上,超越了所有已公开评测的开源模型,跟世界顶级闭源模型打平。
世界知识更是猛。在知识评测中大幅领先其他开源模型,只比 Gemini 3.1 Pro 稍逊一丢丢。
我用一些非常冷门的领域知识去测,比如某些小众编程语言的特性、特定年份的学术论文细节,V4-Pro 的准确率明显比 V3.2 高了一个档次。
比如这个经典的洗车问题,V4-Pro 的回答如下:
![]()
还有杨律师的这个 demo,粒子的分布、运动,ds 是用数学运算搞的,推理能力不错。
![]()
但有一个点要注意:V4 目前「还不是多模态模型」。纯文本。
虽然有传言说内部已经做了多模态相关工作,但官方明确表示暂时不会放出来,可能得等到 V4.5 或者 V5.0。
写作能力,风格化不错
我发现基于 DeepSeek V4 强大的上下文,配合 Obsidian 知识库,用来写作,效果也还不错。
甚至,这类的文章都不需要 Rag 了,他学习语言风格学的很不错。和 Claude Opus 4.6 有一点点差距,但是好过 4.7 的。
如果你给的素材足够丰富,他的仿写风格味道越对味。
![]()
价格,涨了但依然良心
模型
输入
输出
V4-Pro
12 元/百万 token
24 元/百万 token
V4-Flash
1 元/百万 token
2 元/百万 token
![]()
相比 V3 确实涨了。但反过来想,V4-Pro 参数量 1.6T,是 V3.2 的将近两倍半。参数大了,能力上去了,价格涨一点也合理。
横向对比海外:Claude Opus 4.7 输入 、 输 出 25,GPT-5.5 输入 、 输 出 30。国产模型整体依然便宜 「60%」 左右。
而且这个价格还有下行空间。据透露,下半年华为昇腾 950 超节点批量上市后,V4-Pro 的定价预计会大幅下调。
所以现在这个价格,更像是「产能不够,先用价格控一下流量」。
最让我感慨的,是国产化的决心
读 V4 的技术报告,我发现一个细节。
他们引入了 「MXFP4」,在后训练和推理体系里用上了。这意味着可以适配国产卡,华为昇腾、寒武纪、壁仞都能跑,降低对 NVIDIA FP8 生态的绑定。
还有 「TileLang」。底层 kernel 不再完全靠 CUDA 写,而是用更高层级的 DSL 描述计算,再编译到不同硬件上。迁移成本大大降低。
「MegaMoE」 融合内核也是专门为减少专家并行通信等待设计的,已经在华为昇腾上跑通了。
这些操作,说白了就不是单纯为了刷榜。是奔着让模型能在国产硬件上真正用起来去的。
你可以说 V4 在 Agent 上还有 bug,可以说它没有多模态有点遗憾。但你不得不承认,「在 AI 国产化这条路上,DeepSeek 走得比谁都扎实。」
总结一下
DeepSeek V4 不是一个让你「卧槽牛逼」的模型。
没有碾压式的领先,没有革命性的新功能。
但它是一个让我「嗯,方向对了」的模型。
1M 上下文标配、Agent 能力大幅提升、推理和知识逼近顶级闭源、底层架构全面拥抱国产化。每一点都在为未来铺路。
我给 V4 的一句话评价:「V3 是 DeepSeek 的成人礼,V4 是 DeepSeek 的宣言书。」
4 千万 token 测下来,我觉得值。
最后说一句大实话:如果你主攻复杂工程开发、重度依赖 Agent Coding,现阶段要用国产模型的话, GLM 5.1 还是更稳的选择。但如果你做长文本分析、知识问答、风格化写作,V4 绝对值得一试。
你试了 DeepSeek V4 吗?感觉跟 V3 比提升大不大?评论区聊聊。
以上,我是苍何。如果觉得有用,点个「赞」和「在看」支持一下。
也可以转发给在用 DeepSeek 的朋友,看看他们的体验跟你一不一样。
参考资料:
1、DeepSeek-V4 官方发文:
2、DeepSeek-V4 技术报告 PDF
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
3、赛博禅心公众号:
4、卡兹克公众号:
5、DeepSeek API 文档:
https://api-docs.deepseek.com/zh-cn/guides/coding_agents
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.