实测在DeepSeek-V4上烧1000万token，我发现了3个惊喜和1个意外|编程|开源模型|flash|deepseek

实测在DeepSeek-V4上烧1000万token，我发现了3个惊喜和1个意外

2026-04-29 00:29:10　来源: 呼呼历史论

辽宁举报

分享至

开源模型又搞大事情！刚登顶Hugging Face热榜的DeepSeek-V4，竟然连“洗车店离得近要不要开车”这种小学生都能答对的问题都答错了？！今天我们就来扒一扒这款号称“推理和智能体编程性能开源第一”的模型，到底是真神还是“偏科生”。

刚开源就霸榜，智能体编程能力直接封神？

DeepSeek-V4刚一开源就冲上Hugging Face模型榜首，官方吹的“智能体编程性能比肩闭源”到底靠不靠谱？我们实测了两个硬核任务，结果让人惊掉下巴。

第一个任务是让它连续编程60分钟打造完整记账系统。没给太多约束的情况下，它直接输出了8个核心模块+6张数据表的设计方案，还规划了开发流程和10项验证清单。

更牛的是，它真的连续干了60分钟，没中断没遗漏，前后端数据同步完全正常——虽然前端美感差点，但功能全在线，比V3.2版本强了不止一星半点。

第二个任务更狠：从零打造安卓模拟器。这活超出它的知识范围？没关系，它直接联网搜了18次工具和架构，思考11分钟后给出七步开发计划。接着连续跑了50多分钟写代码，还包办了调试和环境安装，缺啥资源自己搜链接下载解压。

虽然最后模拟器没跑起来还在debug，但这种“全程不用人插手”的能力，已经甩很多开源模型几条街了。

推理能力两极分化：海龟汤秒解，IMO难题直接卡壳？

官方说V4-Pro和Flash的推理能力接近，但实测下来差距可不小。比如海龟汤这种突破思维惯性的题，Pro版33秒就给出正确答案，思路清晰；Flash版反而用了61秒，还多了一堆反复确认的冗余步骤。

但遇到去年的IMO数学难题时，两个模型都拉胯了。Flash版思考半天给出错误答案，Pro版更夸张——跑了10多分钟还在死循环，最后只能手动中断。看来所谓的“比肩顶级闭源”，在真正的难题面前还是差点意思。

轻量任务翻车现场：过度思考让Pro版栽在简单题上

最搞笑的是轻量级测试。比如经典的洗车店问题：“洗车店离得近，要不要开车？”Flash版直接给出正确答案，还嘲讽“这题太简单了”；Pro版却脑回路清奇，建议“推过去，省去冷启动磨损”，还说“推过去是爱车的极致表现”。后来再试几次，它虽然大部分时候能答对，但偶尔还是会因为过度思考绕进坑里。

还有鹈鹕骑自行车的SVG图，Flash版轻松搞定；网页小游戏呢？Flash做的根本没法渲染，Pro做的虽然能渲染，但基本玩不了。看来在这些“小任务”上，DeepSeek确实没花太多心思优化。

价格涨了但没完全涨？缓存机制救了钱包

对比V3.2，V4系列的API价格确实上调了，但好在有缓存机制。比如那个60分钟的记账系统，用了20万token，换算下来才5块钱——比直接按API涨幅算要便宜不少。长任务用缓存，成本还能接受。

是开源新标杆还是偏科生？

DeepSeek-V4确实给开源模型提了个新高度：智能体编程的长程规划能力、工具调用能力都让人眼前一亮，基准测试也拿了多项开源第一。它不仅开放权重，连训练超大规模模型的工程经验都间接分享给社区，这点值得点赞。

但它的短板也很明显：复杂数学题卡壳、简单题过度思考、轻量任务翻车。到底是先把基础题做扎实，还是继续攻克复杂任务？你觉得AI模型应该怎么平衡？评论区聊聊你的看法！觉得这篇实测有用的话，别忘了点赞收藏转发，让更多人看到开源模型的真实水平~

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

实测在DeepSeek-V4上烧1000万token，我发现了3个惊喜和1个意外

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

中国被指要暂停硫酸出口 海外慌了：没有可替代来源

中国被指要暂停硫酸出口 海外慌了：没有可替代来源

一场九球狂欢，各路神仙批量下凡

马頔一句话，孙杨妈妈怒骂节目组2小时

苏州，率先进入牛市

技术天花板再摸高 全能型的奕境X9首秀

态度原创

这些女神，竟然都是摄影师切尔尼亚季耶夫的复古作品！

研究称玩《英雄联盟》改善大脑功能 效果持续十周以上

付出一点就指望孩子感恩，别把亲子关系处成一场交易！

寂然无界 简洁风格

中国被指要暂停硫酸出口海外慌了：没有可替代来源

中国被指要暂停硫酸出口海外慌了：没有可替代来源

技术天花板再摸高全能型的奕境X9首秀

研究称玩《英雄联盟》改善大脑功能效果持续十周以上

寂然无界简洁风格