网易首页 > 网易号 > 正文 申请入驻

超实用!连夜实测DeepSeek-V4,我发现它唯一的硬伤是“审美”

0
分享至

大模型的圈子最近真的是大戏连连,Claude和OpenAI你方唱罢我登场,两位CEO更是化身戏精,在社交媒体上大打舆论战。

不过,今天所有的风头都被一家公司抢光了。

没错,在反复横跳小半年时间后,今天中午,DeepSeek总算是把万众期待的新模型DeepSeek-V4端了上来,并宣布API服务已同步更新,即日起登录官网或官方App即可抢先试用。



(图源:雷科技)

要知道,前段时间网上还有一堆人拿他们开玩笑,说老板沉迷打游戏忘了更新,还有人担心他们因为海外的芯片限制搞不出新一代的高端模型了。

结果人家今天直接把V4甩在了大家脸上,不仅有主打轻量便宜的Flash版本,还有满血旗舰的Pro版本。

这次更新最狠的地方在于,它把百万字的长文本记忆能力变成了标配,而且因为大量使用了华为昇腾芯片,加上自己研发的底层优化技术,把价格打到了一个让人直呼离谱的地步。满血版处理百万字,只要12元/输入,24元/输出,连Claude的四分之一都不到。

不过官方也挺实在,在发布的时候承认目前和世界最顶尖的闭源模型还有几个月的差距。

既然官方这么坦诚,那小雷今天也不去看那些虚无缥缈的跑分榜单,直接给DeepSeek-V4安排一场评测,从推理、编程、文本处理、多轮对话、工具使用和知识准确性六个维度对其进行深度拆解,看看它在真实场景里到底好不好用。

编程与工具使用:逻辑不错,审美堪忧

既然DeepSeek-V4自己都强调模型的Agentic Coding能力,那么我们先来看看大模型最容易拉开差距的代码能力。

这里注意一下,为了贴近普通人的日常使用习惯,也因为本人自己完全没有编程能力,小雷没有用那些专业的程序员指令,而是全程用大白话提要求,让DeepSeek-V4-Pro与Trae打配合,执行了两个较为复杂的任务。

第一轮测试,小雷让它写一个可以互动的网页版星空,要求是可以点击星星看故事,还能用鼠标拖拽视角。

这个任务的难点在于想象自己在一张纸上画一个会动的星空,同时还要让人能用手指转动它、点击星座看故事,对大模型的设计、交互和信息搜索能力都提出了一定的要求。

拿到任务后,DeepSeek-V4-Pro先是思考了一会儿,然后输出了一套共六步的设计方案。



(图源:雷科技)

之后,我们就完全放手让DeepSeek-V4-Pro自主执行任务,它会自己调用各种工具,连续编程了接近34分钟,期间没有出现中断或者死循环,也没有遗漏关键步骤,完全按照此前的规划执行,最后消耗了价值6.19元的Token。

开发结果如下,从交互式内容的角度来看,这个成品在美感层面稍有欠缺,但所有功能都运转正常,你不仅能够流畅地拖动球形天体模型,还能通过点击查看信息注解,流星划过的特效也很完美。





(图源:雷科技)

作为对比,这是Hy3-Preview的效果。



(图源:雷科技)

而这是Codex的效果,实际耗时和Deepseek相差不大,功能也基本一致,但是页面设计、色彩过渡和交互度上明显更好看一点。



(图源:雷科技)

看来V4的核心逻辑没毛病,就是审美需要找个设计师来补补课。

第二轮我们上点难度,让它写一个小型的地牢探险网页游戏。

这回第一次生成居然还出了点问题,Trae反馈生成被截断了,需要使用更紧凑的方法进行重试。



(图源:雷科技)

第二次的表现就非常精细了,它不仅把游戏的基础框架搭得明明白白,甚至还自己脑补了一套相当完善的经济系统和升级路线,角色的血量、蓝量、攻击力计算公式写得非常严谨。



(图源:雷科技)

我选择了战士,甚至可以用1、2键触发技能。





(图源:雷科技)

比较可惜的是,这套组合缺乏直接制作动画的能力,生成像素图的效果也是非常粗糙,同样没有什么美感可言。

作为对比,元宝虽然生成更快,但是忘了设计敌人,导致内容几乎没有可用性。



(图源:雷科技)

尽管最终耗时42分钟,还用了我4.71元,至少结果是满意的。

总体来说,DeepSeek-V4在编程上确实有显著提升,框架清晰,速度极快,特别适合拿来干苦力活和写后台逻辑。但如果你想要一个开箱即用、漂亮美观的前端成品,还是得人工帮它稍微调整一下。

需要注意的是,和Qwen、Seed不同,Deepseek自身是不带任何插件的,工具使用能力全靠API接入Agent才得以展示。

考虑到目前DeepSeek-V4表现出的效果,个人还是很期待未来的工具整合表现的。

推理与算数:生成很快,偶尔也会翻车

如果说写代码考验的是手艺,那逻辑推理考验的就是脑子了。

我们这次特意准备了几道不按套路出牌的测试题,确保它没有公式可以套,全靠大模型的推理能力和对真实世界的理解。

先来一道精心设计的陷阱题,“一瓶水和一块冰,放在同一个保温箱里密封,24小时后,保温箱里的水变多了还是变少了?”

剧透一下,答案应该是不变。

结果Flash和Pro这俩一个说多,一个说少,就是没有说对的,你俩到底是在思考些什么东西了?



(图源:雷科技)

接着是一份海龟汤,“一个人半夜醒来打了自己一巴掌,然后闻着一股烟味安心睡去了,请问发生了什么?”



(图源:雷科技)

这个问题倒是都答对了,而且Flash的思路更直接,反而是Pro耗了一段时间,反复琢磨着应该给出啥答案来。



(图源:雷科技)

值得一提的是,不知为何,这类海龟汤问题如果没有加上海龟汤的前缀,V4的回答准确率会下降一些。

就像这道海龟汤,V4-Pro愣是琢磨两分钟,然后得出一个前后矛盾的答案。



(图源:雷科技)

至于知识准确性这块,来点2025年第66届国际数学奥林匹克上的算术题再好不过了。

题目如图所示:



(图源:雷科技)

我们这边选择断网,关闭联网开启推理,让模型完全靠自己解决问题,顺便可以考察一下DeepSeek网页服务中OCR的能力。

好消息,识别对了。



(图源:雷科技)

坏消息,第一步思考就不对了。

接下来自然是无尽的死循环,看着DeepSeek-V4-Pro在那里疯狂输出了两三分钟后,我选择直接给它掐断了。



(图源:雷科技)

至于Flash,那更是只剩下车轱辘话。

只能说,作为一款开源模型,Deepseek-V4在这件事上比它的前辈们肯定是有所提升的,但要说有什么很显著的提升...好像也没有那么大。

文本处理出色,多轮对话显著提升

既然官方都说迈入百万上下文普惠时代,不整整活怎么行呢?

我们也简单试了一下,给《斗破苍穹》里随便贴了一段《都市超能高手》的小说内容,然后丢给DeepSeek-V4让它找。

结果啪的一下,很快啊,DeepSeek就找到了异常。



(图源:雷科技)

这可是二十四万字的文本啊...就这么给他拿捏了。

随便问一段《斗破苍穹》的问题,它也能很自信地答出来,文本检索、总结能力都是肉眼可见地提高。



(图源:雷科技)

这还没完,为了考验它多轮对话的能力,我决定和它进行20轮以上的对话,去设计一个涉及5个城市、12个景点、不同预算和交通工具的复杂旅行计划,并在对话过程中,不断人为加入变量。

总之,开场白是这样的。



(图源:雷科技)

不得不说,我还是第一次和AI进行这么长时间的无意义对话。

差不多这测试进行到第10轮的时候,我已经感觉自己可能都不记得第一轮说过什么了。

好消息是,差不多第14轮的时候,DeepSeek-V4自己也记不得了。



从第14轮开始,它规划的旅行安排就和之前交互中生成的那份安排没啥关系了。

甚至出现了第13轮还在规划箱根之旅,第14轮就在没有任何提示的情况下给它剔除了的喜剧效果。



虽然对比之前DeepSeek的低专注度,现在的DeepSeek-V4能在高强度交互下保持一定的一致性,已经算是有所进步了,但是和我自己常用于角色扮演体验的Gemini-2.5-Pro依然存在明显差距。

总结:便宜好用才是硬道理

这一套连招测试下来,DeepSeek-V4给小雷的真实感受就是,它是一个很务实、干活利索,但稍微缺乏一点艺术细胞的模型。

它的优点非常突出,百万级别的长文本处理能力,不错的编程规划与执行能力,再加上不高的调用成本,这玩意和今年的龙虾潮非常适配,花一箱饮料的钱就能帮团队快速干完一星期的活。

而且最让国人提气的是,在外部技术环境如此复杂的情况下,他们大量依靠华为昇腾等国产芯片,跑出了比肩世界最强闭源模型的能力,这确实证明了国产算力生态正在迅速崛起。



当然,它的缺点也客观存在。它现在还没法像竞争对手那样直接看图或者看视频,在处理复杂的逻辑推理时偶尔会犯迷糊,而且写出来的视觉界面确实不太符合现代人的审美。

官方说它和顶级的闭源模型还有几个月的差距,这个评价非常中肯。

综合来看,DeepSeek这次交出的答卷是完全超出预期的,它不仅稳稳守住了国内开源模型第一梯队的位置,还有望把高高在上的算力价格给打下来。

对于咱们普通用户来说,现在的DeepSeek-V4绝对是一个日常工作、写代码、查资料的绝佳免费助手。至于多模态那些更高级别的功能,不妨给他们一点时间,让我们一起期待它下一次的进化。

2026第十九届北京国际汽车展览会将于4月24日至5月3日在北京‌中国国际展览中心(顺义馆)和首都国际会展中心(新国展二期)举行,本届车展以“领时代·智未来”为主题,集中展现汽车工业的更多黑科技。
比亚迪、小米、鸿蒙智行(问界等)、小鹏、蔚来、岚图等头部品牌集结,多款重磅新车首秀;地平线、Momenta、卓驭等供应商集体秀肌肉,AI大模型深度赋能,高阶智驾、动力电池、超快充技术等前沿科技集中亮相,看点拉满!
雷科技旗下「电车通」将派出报道团直击现场,以“关注电动车,更懂智能化”的专业视角,带来一线独家报道,敬请关注!



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东省副省长、梅州市委书记马正勇调任四川省政府党组成员

广东省副省长、梅州市委书记马正勇调任四川省政府党组成员

澎湃新闻
2026-04-24 23:42:26
很难听,但这是实话!詹宁斯:杜兰特没有任何球队领导力!

很难听,但这是实话!詹宁斯:杜兰特没有任何球队领导力!

爱体育
2026-04-24 23:10:29
杨乐乐后悔全职带娃落泪,在婚姻中不快乐,汪涵:为什么要和我比

杨乐乐后悔全职带娃落泪,在婚姻中不快乐,汪涵:为什么要和我比

童叔不飙车
2026-04-23 22:38:35
我俩真没谈!王濛罕见首次澄清和周洋的真实关系:她是我唯一好友

我俩真没谈!王濛罕见首次澄清和周洋的真实关系:她是我唯一好友

安宁007
2026-04-24 19:02:36
要求全队统一吃早餐!请假还得拍吃饭照!麦基拒绝参加!

要求全队统一吃早餐!请假还得拍吃饭照!麦基拒绝参加!

篮球大图
2026-04-24 20:24:54
员工存钱触发反洗钱,绝味藏7亿被查,635亿市值崩塌股东买单!

员工存钱触发反洗钱,绝味藏7亿被查,635亿市值崩塌股东买单!

老特有话说
2026-04-11 17:23:21
三个航母打击群或将同时部署中东,美军伙食就这?

三个航母打击群或将同时部署中东,美军伙食就这?

每日经济新闻
2026-04-24 14:36:35
万达广场女子坠楼身亡

万达广场女子坠楼身亡

地产微资讯
2026-04-25 10:47:43
一个家庭如果父亲懦弱,母亲强势,那么孩子基本上也就定型了

一个家庭如果父亲懦弱,母亲强势,那么孩子基本上也就定型了

艺鉴在线
2026-04-24 04:29:52
94年我送师长时路遇自己家,师长让我探亲,谁知门开后师长竟哭了

94年我送师长时路遇自己家,师长让我探亲,谁知门开后师长竟哭了

红豆讲堂
2025-04-07 10:23:17
八十岁后,老人能活到以下状态,就是人生赢家,便是圆满!

八十岁后,老人能活到以下状态,就是人生赢家,便是圆满!

小谈食刻美食
2026-04-22 07:33:20
一杯水里藏着一个“反常”的宇宙:为什么水让科学家都头疼?

一杯水里藏着一个“反常”的宇宙:为什么水让科学家都头疼?

半解智士
2026-04-23 10:04:34
我挨了小姑子三巴掌后,全家才想起她老公的工作是我求来的

我挨了小姑子三巴掌后,全家才想起她老公的工作是我求来的

晓艾故事汇
2026-04-20 08:17:42
可以毫不夸张的说,华人移民美国的人几乎全部失败了!

可以毫不夸张的说,华人移民美国的人几乎全部失败了!

西楼知趣杂谈
2026-04-25 07:09:43
德国百年巨头倒下时,浙江修鞋匠花4500万买下,如今年入70亿

德国百年巨头倒下时,浙江修鞋匠花4500万买下,如今年入70亿

毒sir财经
2026-04-19 22:12:53
东南亚“小龙”变异:当警察接管政治局,越南在玩火还是涅槃?

东南亚“小龙”变异:当警察接管政治局,越南在玩火还是涅槃?

七分日记
2026-04-23 23:42:28
弟弟首付差30万,我准备借钱却听到弟媳说:姐那笔钱早晚是别人的

弟弟首付差30万,我准备借钱却听到弟媳说:姐那笔钱早晚是别人的

红豆讲堂
2025-10-31 20:00:08
二十几岁女性为何被年长男性吸引?关键看这三个信号

二十几岁女性为何被年长男性吸引?关键看这三个信号

时光慢邮啊
2026-04-24 09:45:47
赌狗的话能信吗网友说早些年百度贴吧有个戒赌吧是最大的一个贴吧

赌狗的话能信吗网友说早些年百度贴吧有个戒赌吧是最大的一个贴吧

侃神评故事
2026-04-22 17:25:03
信任崩塌!马斯克亲口承认:400万辆特斯拉无法实现无人驾驶!

信任崩塌!马斯克亲口承认:400万辆特斯拉无法实现无人驾驶!

灿若银烂
2026-04-23 19:23:14
2026-04-25 13:31:00
雷科技 incentive-icons
雷科技
专注AI硬科技
36928文章数 812048关注度
往期回顾 全部

科技要闻

Anthropic刚拿亚马逊250亿美元,又拿谷歌400亿

头条要闻

媒体:三航母准备围逼伊朗 结果美国海军后院先"炸"了

头条要闻

媒体:三航母准备围逼伊朗 结果美国海军后院先"炸"了

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

手机
游戏
亲子
家居
军事航空

手机要闻

华为Pura X Max和三星Galaxy Z Fold8 Wide折叠手机尺寸对比

育碧再出王炸!《AC黑旗》重制版登顶8大地区PS商店

亲子要闻

中国首例试管婴儿郑萌珠未满40已育子

家居要闻

自然肌理 温润美学

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版