网易首页 > 网易号 > 正文 申请入驻

实测在DeepSeek-V4上烧1000万token,我发现了3个惊喜和1个意外

0
分享至


智东西
作者 陈骏达
编辑 心缘

智东西4月24日报道,今天,DeepSeek-V4开源并火速冲上Hugging Face模型榜首,号称推理和智能体编程性能冲到开源模型第一、比肩先进闭源模型。为了验证两款模型的真实效果,我们进行了多维度的深度体验。


▲DeepSeek-V4-Pro登顶Hugging Face热榜第一(图源:Hugging Face)

我们的这次实测累计消耗超过1000万token。总体来看,DeepSeek-V4系列,尤其是Pro版本,展现出强大的自主规划与执行能力;但在部分极限任务和轻量级场景中,也存在一些有趣的短板。以下是我们提炼出的核心体验要点:

(1)智能体编程提升明显,长程任务能力惊艳:DeepSeek-V4-Pro能够连续自主编程60分钟以上,无需人工干预,完成复杂的数据库设计和安卓模拟器开发等工程任务,展现出强大的长程规划、自我纠错和工具调用能力。

(2)复杂推理有亮点也有短板:模型在海龟汤等逻辑题上表现出色,但在IMO数学难题和部分轻量级测试中陷入死循环或给出错误答案,推理稳定性还有提升空间。

(3)轻量级任务表现意外翻车:简单问题(如洗车店问题)上,Pro版有时反而因为“过度思考”无法给出正确答案,而Flash版更为直接高效。

(4)价格有所上涨,但缓存机制降低部分成本:相比DeepSeek-V3.2,V4系列API价格上调,但在长任务中借助缓存,总账单的增长没有API涨幅那么明显。

以下是我们的完整实测:

一、智能体编程能力明显提升,实测连续干活60分钟无需干预

DeepSeek-V4的官方博客,尤其强调模型的Agentic Coding能力。这次实测中,我们让DeepSeek-V4-Pro与Claude Code打配合,执行了两个较为复杂的工程任务。

任务1:连续编程60分钟,打造完整记账系统

在数据库设计任务中,我们的提示词并未给模型提供过多的约束,这考察了其自主规划任务的能力

拿到任务后,DeepSeek-V4-Pro先是思考了一会儿,然后输出了一个完整的数据库设计方案,包含8个核心功能模块和6张数据表,目标是实现记账、流水统计等功能。


此外,它还规划了开发流程,除了打造每个具体组件之外,DeepSeek-V4-Pro也计划在开发结束后自主进行验证,并列出10项验证的清单,考虑得较为周到。

之后,我们就完全放手让DeepSeek-V4-Pro自主执行任务,它连续编程了接近60分钟,期间没有出现中断或者死循环,也没有遗漏关键步骤,完全按照此前的规划执行。

DeepSeek-V4-Pro的开发结果如下,从前端的角度来看,这一数据库在美感层面稍有欠缺,但所有核心功能都运转正常。我们试着添加了一条数据,没有出现报错信息。

在前端中,用户可以直接完成各种自定义操作,比如新增分类,删改数据等等。而此前我们体验的部分模型在这种任务上可能会把所有设置都写死,这影响了后续的可扩展性。


查看后端数据库也可以发现,我们在前端输入的新数据可以正常同步到数据库后台,下图最后两行数据,就是手动添加的。这证明前后端之间的数据交互接口与数据传输链路均处于正常、可用的状态。


总体来看,在复杂数据库开发这种综合考察模型长程规划能力、自我纠错能力、长上下文能力和推理能力的任务上,DeepSeek-V4-Pro的表现可以说远远超过了DeepSeek-V3.2。

不过,需要注意的是,与此前DeepSeek的旗舰级模型相比,DeepSeek-V4-Pro的价格有一定幅度的上涨,跑完上述这一任务的token消耗量大概在20万个左右(大部分为输入token),换算为API账单大概是5块钱,由于缓存机制的介入,价格还算可以接受。

任务2:从零开始打造安卓模拟器,代码、环境全程包办

我们的下一个任务挑战更大:让DeepSeek-V4-Pro从零开始打造一个安卓模拟器。

这一任务的复杂程度似乎已经超出DeepSeek-V4-Pro的知识范围了,于是它决定开启联网搜索,查询配套工具、参考架构等等,进行了18次工具调用。


在足足思考了11分钟之后,DeepSeek-V4-Pro才开始动笔写开发计划,它还自我评价道:“很好,Plan Agent输出了很全面的架构,我现在开始写完整架构。”此时,已经烧了8000多个token。


不过这种token消耗并非浪费,通过更为全面的规划,DeepSeek-V4-Pro让我们原本极为简单的提示词变得更加体系化,有助于后续的开发。


最终,DeepSeek-V4-Pro的计划是七步走完成开发,包含框架搭建、图像管理模块设计、VNC显示插件、完整GUI开发、APK安装功能、打包和debug。


这一项目的规模确实有点大,DeepSeek-V4-Pro连续跑了50多分钟才完成。


我把后续的调试和环境依赖安装工作也交给了DeepSeek-V4-Pro。执行过程中,DeepSeek-V4-Pro缺了什么资源就会调动搜索工具,直接搜索到对应链接进行下载,也能通过命令行帮我解压、安装相关环境,彻底解放双手。


DeepSeek-V4-Pro又工作了20多分钟,把活全部都干完了。不过,最后这一模拟器未能成功运行,截至发稿,DeepSeek还在帮我debug。


二、实测复杂推理,被IMO难题打入死循环

除了智能体、编程能力之外,DeepSeek-V4在推理方面的提升也值得关注。

DeepSeek官方称,DeepSeek-V4-Pro和DeepSeek-V4-Flash两个模型的推理能力接近。在下方这几道逻辑和推理题目中,我们便同时测试了两个模型。

任务1:解答海龟汤,Pro反而比Flash要快?

我们向DeepSeek发送的题目如下。这种题目的考察难点主要不在“谜面有多复杂”,而在于模型如何突破常见的思维惯性。


先来看看DeepSeek-V4-Pro的解题过程。DeepSeek-V4-Pro用时33秒就便推理出正确答案,思考过程简洁清晰。


DeepSeek-V4-Flash的推理速度反而更慢,耗时61秒,输出的结果是正确的。DeepSeek-V4-Flash慢的原因是它的思维过程有些冗余,多了不少反复的确认与自我质疑。


任务2:实测IMO难题,Flash答错、Pro死循环了

解答数学题也是DeepSeek的老传统之一了。此次,DeepSeek称V4-Pro的数学能力在测评中超过了所有已公开测评的开源模型,比肩世界顶级闭源模型。

我们拿去年IMO的题目考了考DeepSeek,关闭联网开启推理,让模型完全靠自己解决问题。这张高糊的题目也考察了DeepSeek网页服务中OCR的能力,我们检查了下,识别结果都是正确的。


这道题目让两个模型都思考了很久很久,似乎陷入了无尽的循环。DeepSeek-V4-Flash最后给出答案,但是是错误的。DeepSeek-V4-Pro跑了10多分钟,没有明显进展,最后我们手动中断了思考。


三、轻量级测试题集锦:洗车店问题竟意外难倒V4-Pro

上述案例都比较硬核,接下来我们看几个轻松点的案例。

首先是大家喜闻乐见的洗车难题。我们让DeepSeek-V4-Flash、DeepSeek-V4-Pro在关闭联网和思考的模式下解答。

DeepSeek-V4-Flash给出了正确答案,它觉得这个问题太简单了,语气中满是嘲讽。


DeepSeek-V4-Pro的思路则有些清奇,它建议我们把车推过去,认为“这种方案对车最好,省去冷启动磨损”,还补充道“推过去是爱车的极致表现,直接开过去是最不划算的方式。”

后来我们又给了DeepSeek-V4-Pro几次机会,它给出正确答案的概率还是高一些,但偶尔还是会因为过度思考而把自己绕进陷阱。


鹈鹕骑自行车的SVG,DeepSeek-V4-Flash就可以轻松拿下,结果基本完美:


像是网页小游戏这样的题目,DeepSeek-V4-Pro和DeepSeek-V4-Flash的表现其实都不太好,Flash打造的结果根本无法渲染,Pro打造的虽然渲染成功,但基本不可玩。


在这些“Toy Case”上,DeepSeek似乎没有花太多精力进行针对性的优化。

结语:DeepSeek-V4,又一次定义开源模型的上限

DeepSeek-V4系列模型确实带来了惊喜,尤其是在智能体编程方面,其长程规划与执行能力令人印象深刻。其基准测试也基本回应了AI圈对DeepSeek的期待,拿下了多项开源SOTA。

DeepSeek的开源不只是把模型权重开放出来,在某种意义上,也是将训练1.6T超大规模模型所需的算力、资金乃至工程经验一并“开源”给了整个社区。这一选择值得敬意。

可以预见,随着后续迭代优化,DeepSeek-V4有望持续进化,成为开源AI生态中一个兼具性能与活力的基座模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
42岁,傅首尔彻底变样了!瘦成标准美女,网友:和麦琳像亲姐妹

42岁,傅首尔彻底变样了!瘦成标准美女,网友:和麦琳像亲姐妹

娱乐皮皮酱
2026-04-24 17:33:27
伊朗接班人面部严重烧伤致发声困难 公开讲话被代读

伊朗接班人面部严重烧伤致发声困难 公开讲话被代读

桂系007
2026-04-23 23:56:56
教育部新规落地!9月上学全变了,家长趁早看

教育部新规落地!9月上学全变了,家长趁早看

笑熬浆糊111
2026-04-23 00:05:18
从拜登曲线到弗吉尼亚公投逆转:民主党这次注定栽了

从拜登曲线到弗吉尼亚公投逆转:民主党这次注定栽了

斌闻天下
2026-04-24 07:10:03
中国全面断供开始,高市请出日本八旬老将访华,中方已读未答应

中国全面断供开始,高市请出日本八旬老将访华,中方已读未答应

影孖看世界
2026-04-23 23:41:28
穆铁柱的最后一天:在家中蹬自行车健身,突然两眼一黑瘫倒在地

穆铁柱的最后一天:在家中蹬自行车健身,突然两眼一黑瘫倒在地

大运河时空
2026-04-21 16:30:03
晨起后我才发现:你以为那是性,其实只是身体最原始的表态

晨起后我才发现:你以为那是性,其实只是身体最原始的表态

徐德文科学频道
2026-04-23 22:26:49
马蹄露直播爆火,从无人问津到万人刷屏,霍汶希精心布局惨遭翻车

马蹄露直播爆火,从无人问津到万人刷屏,霍汶希精心布局惨遭翻车

娱贝勒
2026-04-22 19:38:47
女子酒店抓获丈夫出轨,无法容忍不戴避孕套,丈夫:她是我朋友

女子酒店抓获丈夫出轨,无法容忍不戴避孕套,丈夫:她是我朋友

李晚书
2026-04-24 10:39:33
美国下击沉令,以色列等开绿灯,伊朗亮反击菜单:和平谈判陷入“

美国下击沉令,以色列等开绿灯,伊朗亮反击菜单:和平谈判陷入“

上观新闻
2026-04-24 16:31:03
用户都气笑了!700元路由器保修剩15天坏了:厂商只愿退款10元了事

用户都气笑了!700元路由器保修剩15天坏了:厂商只愿退款10元了事

快科技
2026-04-23 19:07:05
苏翊鸣朱易4年恋情结束!双方互相取关,女方晒眼泪照喊话向前走

苏翊鸣朱易4年恋情结束!双方互相取关,女方晒眼泪照喊话向前走

萌神木木
2026-04-24 11:41:28
狼队官方:徐彬腿筋受伤,结束在巴恩斯利的租借,已返回狼队

狼队官方:徐彬腿筋受伤,结束在巴恩斯利的租借,已返回狼队

懂球帝
2026-04-24 16:19:06
北京首钢50分大胜!超级外援首秀9分,曾凡博爆发,麦基18分

北京首钢50分大胜!超级外援首秀9分,曾凡博爆发,麦基18分

体坛瞎白话
2026-04-24 21:25:36
告别广东队,萨姆纳感慨万千!

告别广东队,萨姆纳感慨万千!

体育哲人
2026-04-24 20:38:44
国民党、民众党联手弹劾赖清德 5月19日将投票表决 此前累计超500万人参与网络联署

国民党、民众党联手弹劾赖清德 5月19日将投票表决 此前累计超500万人参与网络联署

每日经济新闻
2026-04-24 18:53:33
陕西一高校演出机器人突然拥抱女生 校方:女生没事,系机器人程序故障

陕西一高校演出机器人突然拥抱女生 校方:女生没事,系机器人程序故障

上游新闻
2026-04-24 15:30:11
《歌手2026》来了,看到阵容名单后,难掩激动泪水,期待的都来了

《歌手2026》来了,看到阵容名单后,难掩激动泪水,期待的都来了

星宿影视鸭
2026-04-23 18:19:24
福特:解散电动汽车事业部

福特:解散电动汽车事业部

中国能源网
2026-04-22 17:39:14
国际原油短线跳水 抹去之前涨幅

国际原油短线跳水 抹去之前涨幅

财联社
2026-04-24 19:12:06
2026-04-24 22:52:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11685文章数 117040关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

赖清德面临弹劾投票 岛内网友:不记名投票一定过

头条要闻

赖清德面临弹劾投票 岛内网友:不记名投票一定过

体育要闻

上海男篮23连胜+主场全胜 姚明之后最强一季

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

艺术
本地
亲子
手机
家居

艺术要闻

2025最绘画--第四届中国青年油画作品展 | 油画选刊(三)

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

亲子要闻

宝妈必学,孩子知道身体隐私部位和能对侵犯说不,是两回事!

手机要闻

曝荣耀600系列发布在即,参数细节已曝光

家居要闻

自然肌理 温润美学

无障碍浏览 进入关怀版