开源模型又搞大事情!刚登顶Hugging Face热榜的DeepSeek-V4,竟然连“洗车店离得近要不要开车”这种小学生都能答对的问题都答错了?!今天我们就来扒一扒这款号称“推理和智能体编程性能开源第一”的模型,到底是真神还是“偏科生”。
刚开源就霸榜,智能体编程能力直接封神?
DeepSeek-V4刚一开源就冲上Hugging Face模型榜首,官方吹的“智能体编程性能比肩闭源”到底靠不靠谱?我们实测了两个硬核任务,结果让人惊掉下巴。
第一个任务是让它连续编程60分钟打造完整记账系统。没给太多约束的情况下,它直接输出了8个核心模块+6张数据表的设计方案,还规划了开发流程和10项验证清单。
更牛的是,它真的连续干了60分钟,没中断没遗漏,前后端数据同步完全正常——虽然前端美感差点,但功能全在线,比V3.2版本强了不止一星半点。
第二个任务更狠:从零打造安卓模拟器。这活超出它的知识范围?没关系,它直接联网搜了18次工具和架构,思考11分钟后给出七步开发计划。接着连续跑了50多分钟写代码,还包办了调试和环境安装,缺啥资源自己搜链接下载解压。
虽然最后模拟器没跑起来还在debug,但这种“全程不用人插手”的能力,已经甩很多开源模型几条街了。
推理能力两极分化:海龟汤秒解,IMO难题直接卡壳?
官方说V4-Pro和Flash的推理能力接近,但实测下来差距可不小。比如海龟汤这种突破思维惯性的题,Pro版33秒就给出正确答案,思路清晰;Flash版反而用了61秒,还多了一堆反复确认的冗余步骤。
但遇到去年的IMO数学难题时,两个模型都拉胯了。Flash版思考半天给出错误答案,Pro版更夸张——跑了10多分钟还在死循环,最后只能手动中断。看来所谓的“比肩顶级闭源”,在真正的难题面前还是差点意思。
轻量任务翻车现场:过度思考让Pro版栽在简单题上
最搞笑的是轻量级测试。比如经典的洗车店问题:“洗车店离得近,要不要开车?”Flash版直接给出正确答案,还嘲讽“这题太简单了”;Pro版却脑回路清奇,建议“推过去,省去冷启动磨损”,还说“推过去是爱车的极致表现”。后来再试几次,它虽然大部分时候能答对,但偶尔还是会因为过度思考绕进坑里。
还有鹈鹕骑自行车的SVG图,Flash版轻松搞定;网页小游戏呢?Flash做的根本没法渲染,Pro做的虽然能渲染,但基本玩不了。看来在这些“小任务”上,DeepSeek确实没花太多心思优化。
价格涨了但没完全涨?缓存机制救了钱包
对比V3.2,V4系列的API价格确实上调了,但好在有缓存机制。比如那个60分钟的记账系统,用了20万token,换算下来才5块钱——比直接按API涨幅算要便宜不少。长任务用缓存,成本还能接受。
是开源新标杆还是偏科生?
DeepSeek-V4确实给开源模型提了个新高度:智能体编程的长程规划能力、工具调用能力都让人眼前一亮,基准测试也拿了多项开源第一。它不仅开放权重,连训练超大规模模型的工程经验都间接分享给社区,这点值得点赞。
但它的短板也很明显:复杂数学题卡壳、简单题过度思考、轻量任务翻车。到底是先把基础题做扎实,还是继续攻克复杂任务?你觉得AI模型应该怎么平衡?评论区聊聊你的看法!觉得这篇实测有用的话,别忘了点赞收藏转发,让更多人看到开源模型的真实水平~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.