“我把所有模型都换成了DeepSeek V4”：月账单降 90%，效果还更好|编程|预训练|上下文|新论文|deepseek

“我把所有模型都换成了DeepSeek V4”：月账单降 90%，效果还更好

2026-04-25 15:34:51　来源: InfoQ

北京举报

分享至

作者 | Tina

2026 年 4 月 23 日，OpenAI 做了两件事：发布了 GPT-5.5，并把价格翻了一倍。

按常理，这应该是属于 OpenAI 的一天。全新预训练架构“Spud”的首个公开版本，SOTA 级的基准测试成绩，SemiAnalysis 在第一时间给出了“GPT-5.5 已经抵达前沿”的评价。但翻看定价页面，开发者很难不算账：每百万输出 token 收费 30 美元，比前代 GPT-5.4 贵了一倍，甚至比一贯以昂贵著称的 Claude Opus 4.7 还要贵出一截。

而仅仅过了不到一天，4 月 24 日，DeepSeek 把 V4 的模型权重扔到了 HuggingFace 上。MIT 开源协议，100 万 token 上下文窗口，以及一个极其低廉的价格：输出 token 每百万 3.48 美元。

大概只有 GPT-5.5 的十分之一。

科技博主兼 AI 系统架构师 Sean Donahoe 在今天凌晨发了一条帖子。他写道：

“DeepSeek V4 Pro 在编码基准测试中击败了 Claude Opus 4.6 和 GPT-5.4...... 今天早上，我把 Claude Code、Codex、Cursor、Aider，以及我用的所有其他编程智能体全部指向了 DeepSeek 端点。不用 OpenRouter，不用代理，原生 API。我的月账单将下降 90% 以上，而且效果比昨天还好。”

这条帖子实际上有两个看点。第一，发帖人是重度 AI 编程用户，却几乎一夜之间完成迁移，月账单会从几千美元降到几百美元。第二，他不只是说便宜，还强调效果没有变差，反而更好：“输出质量提高了，而不是下降，这一点已经通过内部测试以及多个公开基准验证”。

DeepSeek 出手之后，价格成了第一变量

过去三个月，模型竞争激烈。几乎每周都有一家头部模型厂商发布新的 coding checkpoint，GLM-5.1、Qwen3.6-Plus、Kimi K2.6、Composer 2、Gemini 3.1 Pro，都在强调同一件事：agentic coding、长任务、多步骤规划。

进入 4 月，圈子里一直在讨论两个代号：Anthropic 的“Capybara”和 OpenAI 的“Spud”。4 月 23 日，GPT-5.5 正式发布，成为基于“Spud”的公开版本。对 OpenAI 来说，这是 GPT-4.5 之后一次很关键的预训练模型更新，外界期待很高，价格也不低。有分析指出，虽然 NVIDIA 和 OpenAI 都提到 GPT-5.5 在 10 万台 GB200 NVL72 集群上“训练”，但这里的“训练”更准确地说是强化学习的后训练阶段。真正的预训练，仍然是在 Hopper 平台上完成的。

但只过了不到 24 小时，DeepSeek V4 开源。模型竞争一下子不只是在比谁更强，也开始比谁更便宜。

OpenAI 的旗舰模型过去通常比 Anthropic 更便宜，但这一次不一样了：GPT-5.5 的 API 定价为每百万输入 token 5 美元、每百万输出 token 30 美元，比前代 GPT-5.4 贵了一倍，甚至比 Claude Opus 4.7 的输出定价还贵出一截。

更值得注意的是，OpenAI 为 GPT-5.5 设计了一套复杂的定价分层。除了标准 API 之外，OpenAI 还提供了一个优先级（priority）套餐，价格是标准档的 2.5 倍。如何为“更快的 token”收更多钱，正在变得越来越关键。这里需要说明的是，priority 和 fast mode 是两回事。fast mode 只是给出一些相对模糊的承诺，比如“价格贵 6 倍，速度大约快 2.5 倍”；而 priority 提供的是更保守但更明确的 SLA（例如：99% 的时间里吞吐量超过 50 tokens/s）。

这还没算 GPT-5.5 Pro——专为科学研究和长程推理设计的版本，输入 / 输出定价分别为每百万 token 30 美元和 180 美元，瞄准的不是日常编码场景，而是前沿科研用例。

标准版和 Pro 版都提供多档推理强度：xhigh、high、medium、low 以及 non-reasoning，本质是在成本与能力之间做取舍。从 strawberry/o1 那一代开始，这一点已经很明确了：推理强度越高，结果通常越好，但消耗的 token 更多，响应时间也更长。

在 GPT-5.5 发布前一周，Anthropic 刚刚推出 Claude Opus 4.7。相比 4.6，Opus 4.7 更像一次小幅升级，没有带来明显质变。

Token 计数方式的更新，是这次定价变化里最关键的一点。4.7 使用了新的 tokenizer，通过更细粒度的切分来换取性能提升，但代价是整体 token 用量会上升。官方也直接承认，这会带来最高约 35% 的 token 增长——换句话说，价格也等于变相上涨了 35%。

然后 DeepSeek V4 来了。

V4 系列包含两个模型：DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。前者参数规模为 1.6T 总参数 / 49B 激活参数，后者为 284B / 13B。相比 V3（671B / 37B）是一次升级，而 Flash 是一个更轻量的下探版本。这使得 DeepSeek-V4-Pro 成为目前规模最大的开源权重模型。

把价格拉出来对比，差距大到让人无法忽视。简单算一笔账：同样处理一百万输入 token 和一百万输出 token，GPT-5.5 的合计成本是 35 美元，Claude Opus 4.7 是 30 美元。而 DeepSeek-V4-Pro 是 5.22 美元。如果输入命中缓存，输入价格进一步降至每百万 token 0.145 美元，同样这笔账就变成了 3.625 美元。

也就是说，在标准定价下，DeepSeek-V4-Pro 的成本大约是 GPT-5.5 的七分之一、Claude Opus 4.7 的六分之一。如果缓存命中，差距进一步拉大——大约是 GPT-5.5 的十分之一、Claude Opus 4.7 的八分之一。

真正把价格压到“近零地带”的，是 DeepSeek-V4-Flash。V4 Flash 的 API 输入价格每百万 token 仅 0.14 美元，输出价格 0.28 美元，合计 0.42 美元。缓存命中后进一步降至 0.308 美元。同等输入输出量下，Flash 的成本不到 GPT-5.5 和 Claude Opus 4.7 的 2%——便宜了 98% 以上，几乎只有对方的百分之一。

如果把当前主流模型的定价放在一张表里看，这种分化更加直观：

更重要的是，DeepSeek V4 走的是 MIT 开源协议。这意味着开发者完全可以把模型部署在自己的服务器上，不走 API 调用，直接绕开 token 计费逻辑。对于有合规要求、数据不能出域的场景，这个选项的权重甚至超过价格本身。

V4 相比 V3 的核心进展，是上下文窗口从 128k 提升到了 1M。因此，这一代的技术优化几乎都围绕长上下文展开，包括：

Compressed Sparse Attention（CSA）：压缩稀疏注意力
Heavily Compressed Attention（HCA）：高压缩注意力
Manifold-Constrained Hyper-Connections（mHC）：流形约束超连接

对应的效果是：“在百万 token 上下文场景下，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%，KV cache 仅为 10%。”也就是说，KV cache 减少了 90%。这个幅度甚至超过了上个月 Google TurboQuant 的论文，对 NAND Flash 产业链来说，是个需要警惕的信号。

在工程层面，DeepSeek 还在 DeepGEMM 中开源了一个 Mega-Kernel，宣称支持 NVIDIA GPU 和华为 Ascend NPU。可以看出，他们的目标之一，是未来在 Ascend 上承载一部分推理流量。官方 API 页面还提到，受限于高端算力，目前 V4-Pro 的服务吞吐仍有限，预计下半年昇腾 950 超节点批量上市后，Pro 价格会大幅下调。

业界实测效果

三款模型，三种定价逻辑：OpenAI 在涨，Anthropic 在偷偷涨，DeepSeek 则直接掀桌。如果只看数字，选择几乎没有悬念。

不过，DeepSeek 自己也承认，和顶尖选手之间还有距离。他们在技术报告里写道：“通过增加推理 token 的使用量，DeepSeek-V4-Pro-Max 在标准推理基准上优于 GPT-5.2 和 Gemini-3.0-Pro，但仍略逊于 GPT-5.4 和 Gemini-3.1-Pro，距最前沿模型大约还有 3 到 6 个月的差距。”

那么，实际效果如何呢？

在 Sean 宣布全面迁移的同一天，AI 研究员 Rohan Paul 和他的团队做了一个测试：给 DeepSeek V4 Pro 和 GPT-5.5 同一份提示词，开发一个完整的卡丁车竞速游戏，全部塞进一个 HTML 文件。

提示词严苛到像一份游戏策划需求书：Canvas 渲染，方向键和 WASD 双套操控，加速、刹车、漂移、倒车一个不能少。物理引擎从零手写，摩擦力、最高速度、转向灵敏度全部要调。赛道有路面、草地、弯道和窄路，冲上草地减速，撞墙弹回。至少 3 辆 AI 对手，自动沿赛道行驶，速度各异。道具系统要有金币、加速板和随机道具箱。画面全用 Canvas 形状手绘，漂移拖痕、加速尾焰、屏幕震动，一个视觉效果都不落。音效用 Web Audio API 合成，倒计时、碰撞、冲线都要出声。UI 要完整：标题画面、3-2-1 倒计时、实时 HUD、结束排名。

最终的数据对比是这样的：

DeepSeek V4 Pro 输出了近两倍的 token，但便宜了 4.3 倍。至于两个游戏跑起来分别是什么样子，我们直接上视频，你自己体验。

如果说卡丁车测试考察的是“能不能做一个完整产品”，那同一天另一个测试考察的则是更微妙的东西——审美。做出来的页面“好不好看”，任何人都能一眼判断。

中文技术社区的一位开发者用同样的提示词、同样的工具，让 DeepSeek V4 Pro 和 GPT-5.5 各自生成一个 Apple 风格的天气界面。提示词给了一个很高的起点：

“你是 Apple Inc 的顶级 UI 设计师，以 iOS 18 的设计风格（毛玻璃效果、高斯模糊、动态渐变、细腻阴影）创建一个单个 HTML 文件。实现横板天气页面，包含 4 个并排的动画天气卡片：晴天（太阳光线、动态光晕）、大风（飘动云朵、摇曳树木、风线）、暴雨（下落雨滴、形成水洼、闪电）、暴雪（下落雪花、堆积效果）。卡片需深色背景，支持按钮切换天气状态，实现流畅交互和微动效。代码必须可直接运行，美观度优先。”

工具也完全统一，两个模型生成时，用的都是 Claude Code。你猜哪个是 DeepSeek 的？

生成结果 1 如下：

生成结果 2 如下：

不过，在日常问题上，DeepSeek 确实更强：

科技博主 Simon Willison 有一个习惯：每次 DeepSeek 发布新版本，他都会用同一句提示词 “Generate an SVG of a pelican riding a bicycle”，生成一张鹈鹕骑自行车的 SVG。这次 V4 发布，他照例做了一遍，也照例把历代结果放在一起。

从 2025 年 3 月的 V3，到 8 月的 V3.1，再到 12 月的 V3.2，以及现在的 V4，每一版都比上一版更像样。早期的鹈鹕歪歪扭扭，脚踏板对不准，自行车架子也松散。到了 V3.2，车架结实了，鹈鹕也开始像个正经骑手。这次 V4-Flash 又往前走了一步：链条画出来了，前轮加了反光片，翅膀搭在车把上，脚也踩到了踏板上。总之，是一次比一次好。

DeepSeek-V3-0324

DeepSeek-V3.1

DeepSeek-V3.2

DeepSeek-V4 Flash

DeepSeek-V4 Pro

DeepSeek 在 V4 发布当天，用一句话表明了他们对这些讨论的姿态——“不诱于誉，不恐于诽，率道而行，端然正己。”

这也恰好解释了这只鹈鹕一年来的轨迹。

https://x.com/rohanpaul_ai/status/2047762509474726285

https://simonwillison.net/2026/apr/24/deepseek-v4/

https://linux.do/t/topic/2045480

https://venturebeat.com/technology/deepseek-v4-arrives-with-near-state-of-the-art-intelligence-at-1-6th-the-cost-of-opus-4-7-gpt-5-5

会议推荐

世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？安全与可信这道坎怎么过？研发体系不重构，还能撑多久？

AICon 上海站 2026，4 大核心专题等你来：世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。

诚挚邀请你登台分享实战经验。AICon 2026，期待与你同行。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.