网易首页 > 网易号 > 正文 申请入驻

实测在DeepSeek-V4上烧1000万token,我发现了3个惊喜和1个意外

0
分享至

开源模型又搞大事情!刚登顶Hugging Face热榜的DeepSeek-V4,竟然连“洗车店离得近要不要开车”这种小学生都能答对的问题都答错了?!今天我们就来扒一扒这款号称“推理和智能体编程性能开源第一”的模型,到底是真神还是“偏科生”。

刚开源就霸榜,智能体编程能力直接封神?

DeepSeek-V4刚一开源就冲上Hugging Face模型榜首,官方吹的“智能体编程性能比肩闭源”到底靠不靠谱?我们实测了两个硬核任务,结果让人惊掉下巴。

第一个任务是让它连续编程60分钟打造完整记账系统。没给太多约束的情况下,它直接输出了8个核心模块+6张数据表的设计方案,还规划了开发流程和10项验证清单。

更牛的是,它真的连续干了60分钟,没中断没遗漏,前后端数据同步完全正常——虽然前端美感差点,但功能全在线,比V3.2版本强了不止一星半点。

第二个任务更狠:从零打造安卓模拟器。这活超出它的知识范围?没关系,它直接联网搜了18次工具和架构,思考11分钟后给出七步开发计划。接着连续跑了50多分钟写代码,还包办了调试和环境安装,缺啥资源自己搜链接下载解压。

虽然最后模拟器没跑起来还在debug,但这种“全程不用人插手”的能力,已经甩很多开源模型几条街了。

推理能力两极分化:海龟汤秒解,IMO难题直接卡壳?

官方说V4-Pro和Flash的推理能力接近,但实测下来差距可不小。比如海龟汤这种突破思维惯性的题,Pro版33秒就给出正确答案,思路清晰;Flash版反而用了61秒,还多了一堆反复确认的冗余步骤。

但遇到去年的IMO数学难题时,两个模型都拉胯了。Flash版思考半天给出错误答案,Pro版更夸张——跑了10多分钟还在死循环,最后只能手动中断。看来所谓的“比肩顶级闭源”,在真正的难题面前还是差点意思。

轻量任务翻车现场:过度思考让Pro版栽在简单题上

最搞笑的是轻量级测试。比如经典的洗车店问题:“洗车店离得近,要不要开车?”Flash版直接给出正确答案,还嘲讽“这题太简单了”;Pro版却脑回路清奇,建议“推过去,省去冷启动磨损”,还说“推过去是爱车的极致表现”。后来再试几次,它虽然大部分时候能答对,但偶尔还是会因为过度思考绕进坑里。

还有鹈鹕骑自行车的SVG图,Flash版轻松搞定;网页小游戏呢?Flash做的根本没法渲染,Pro做的虽然能渲染,但基本玩不了。看来在这些“小任务”上,DeepSeek确实没花太多心思优化。

价格涨了但没完全涨?缓存机制救了钱包

对比V3.2,V4系列的API价格确实上调了,但好在有缓存机制。比如那个60分钟的记账系统,用了20万token,换算下来才5块钱——比直接按API涨幅算要便宜不少。长任务用缓存,成本还能接受。

是开源新标杆还是偏科生?

DeepSeek-V4确实给开源模型提了个新高度:智能体编程的长程规划能力、工具调用能力都让人眼前一亮,基准测试也拿了多项开源第一。它不仅开放权重,连训练超大规模模型的工程经验都间接分享给社区,这点值得点赞。

但它的短板也很明显:复杂数学题卡壳、简单题过度思考、轻量任务翻车。到底是先把基础题做扎实,还是继续攻克复杂任务?你觉得AI模型应该怎么平衡?评论区聊聊你的看法!觉得这篇实测有用的话,别忘了点赞收藏转发,让更多人看到开源模型的真实水平~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子一身名牌坐地铁,被指像成功人士,网友:再有钱也怕堵车

男子一身名牌坐地铁,被指像成功人士,网友:再有钱也怕堵车

丫头舫
2026-04-27 17:39:57
记者:纽卡愿4000万镑卖沃尔特马德,已有两家德国球队开始接触

记者:纽卡愿4000万镑卖沃尔特马德,已有两家德国球队开始接触

懂球帝
2026-04-29 14:37:03
太心疼!马筱梅哭到停更,带娃逃回台湾:凭啥要我和孩子遭这罪

太心疼!马筱梅哭到停更,带娃逃回台湾:凭啥要我和孩子遭这罪

阿纂看事
2026-04-28 14:03:56
周乐伟主动投案,曾任格力集团董事长

周乐伟主动投案,曾任格力集团董事长

第一财经资讯
2026-04-29 15:09:20
大家猜猜他是谁?我估计全中国没有人认识他,年轻时候还挺有型

大家猜猜他是谁?我估计全中国没有人认识他,年轻时候还挺有型

情感大头说说
2026-04-29 15:11:50
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
存款利率调整至1.85%,银行为何仍吸引不了存款?

存款利率调整至1.85%,银行为何仍吸引不了存款?

梧通浅聊
2026-04-27 21:29:42
震惊!桂林一业主66万购107平房,为出手询问行情,评论区对半砍

震惊!桂林一业主66万购107平房,为出手询问行情,评论区对半砍

火山詩话
2026-04-28 16:40:55
国民党副主席季麟连暴怒:若韩国瑜卖党求荣 黄复兴建请开除其党籍

国民党副主席季麟连暴怒:若韩国瑜卖党求荣 黄复兴建请开除其党籍

王姐懒人家常菜
2026-04-29 17:01:51
破防了!东契奇终于有帮手了,湖人豪赌2.76亿三届MVP,冲冠稳了

破防了!东契奇终于有帮手了,湖人豪赌2.76亿三届MVP,冲冠稳了

体育大朋说
2026-04-29 11:54:14
黄晓明双喜临门!考博复试过了,转头就带新女友高调晒照

黄晓明双喜临门!考博复试过了,转头就带新女友高调晒照

橙星文娱
2026-04-28 08:57:20
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
最新 | 地铁施工,房屋开裂下沉!杭州官方通报!

最新 | 地铁施工,房屋开裂下沉!杭州官方通报!

天津广播
2026-04-29 11:03:17
逆转!恩比德33+8,塔图姆24+16,乔治立大功,不愧是顶薪球员

逆转!恩比德33+8,塔图姆24+16,乔治立大功,不愧是顶薪球员

篮球大视野
2026-04-29 09:55:32
泰国司法部:他信获准于5月11日假释出狱

泰国司法部:他信获准于5月11日假释出狱

新华社
2026-04-29 15:35:09
萨哈:只要有机会引进恩佐,曼联就理应全力争取

萨哈:只要有机会引进恩佐,曼联就理应全力争取

懂球帝
2026-04-29 18:30:09
不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

番外行
2026-04-23 07:54:08
电商平台能买到的丁二醇,被指控为毒品直接前体,淘宝、拼多多已搜索不到

电商平台能买到的丁二醇,被指控为毒品直接前体,淘宝、拼多多已搜索不到

红星资本局
2026-04-28 13:23:52
刚刚,证监会重磅信号!

刚刚,证监会重磅信号!

成方街哨兵
2026-04-29 17:42:30
A股:今天,4月29日,行情很反常,两个关键信号落地!

A股:今天,4月29日,行情很反常,两个关键信号落地!

明心
2026-04-29 12:14:34
2026-04-29 19:52:49
呼呼历史论
呼呼历史论
分享有趣的历史
479文章数 16926关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

中国被指要暂停硫酸出口 海外慌了:没有可替代来源

头条要闻

中国被指要暂停硫酸出口 海外慌了:没有可替代来源

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

艺术
游戏
教育
家居
公开课

艺术要闻

这些女神,竟然都是摄影师切尔尼亚季耶夫的复古作品!

研究称玩《英雄联盟》改善大脑功能 效果持续十周以上

教育要闻

付出一点就指望孩子感恩,别把亲子关系处成一场交易!

家居要闻

寂然无界 简洁风格

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版