现在的模型,发得是越来越快了。但是我也发现,周围的朋友们在选择模型上似乎还是有些惯性。
一直在用 Claude 的人,如果钱包没意见,自己好像也不会主动切换其他模型。
但该说不说,Claude 确实贵,最近还经常鬼畜额度。前几天有个被 Claude 搞到受不了的朋友说他看国产模型很便宜,尤其 DeepSeek V4 刚出,问我像 deepseek-v4、MiniMax-M2.7 这种,到底能不能冲。
趁着放假,我找了几个常见的场景,把deepseek-v4、MiniMax-M2.7、GLM-5.1,还有Claude Opus 4.7、GPT-5.4都快速试了试,看看这几位全球模型扛把子的表现怎么样。
Round1:办公场景
先来看打工人刚需的办公场景。
我选了一个很高频的需求:让 AI 总结会议纪要。
找了一份之前让飞书妙记转写好的开会录音速记,分别丢给 Claude Opus 4.7、 MiniMax-M2.7 和 deepseek-v4-pro,让 AI 帮我整成结构化的、简洁清晰、符合原文的会议纪要。
这里额外说明一下,为了验证模型本身的效果,我在 Claude Code 里分别接入了三款模型的 API 来测试。
提示词比较简单:我桌面上有一份客户交流文档,你帮我改成会议纪要的版本。
能看到,三个模型都准确识别出了本地的原始文件。
![]()
再来看改写效果
先是Claude Opus 4.7。
![]()
内容蛮准确,格式上做了重点区分,内容用“现状+结论”的表述,看着很舒服。一个比较明显的 Bug 是在第二趴多打了一排序号。
![]()
然后是 M2.7 交的作业。
它的格式相比 Claude 简单一些,但该有的内容都有,简洁准确。尤其是开头的生产计划数据表格,看起来更清楚。
![]()
纪要里最核心的背景信息、重要结论、后续 todo 都有覆盖,几个我认为可能会出错的数字部分也跟原文一致。
接着是deepseek-v4-pro。
![]()
文档样式上好看了不少,标题和正文有明显的区分,内容部分也全面。
但具体内容上,问题来了。
M2.7 在会议纪要里使用大量总结式短句,DeepSeek 一直在用完整长句,字儿太多,读起来有点晕。虽然 Claude 版本的句子也不短,但整体篇幅明显提炼度更高,看起来不累。
在汇报这个场景里,大多数被汇报的对象都没啥耐心,所以越简洁、越结构化,越符合需求。
另外,DeepSeek生成的文档字体还有点问题。
![]()
最后看完成时间:M2.7 用了不到一分钟,deepseek-v4-pro 用了一分半,Claude Opus 4.7 超过了两分钟。
至于价格,两个国产模型都只花费了0.3元左右...便宜到有点离谱。至于 Claude 嘛,感觉没有必要让它对比价格了。
Round 2:vibe游戏
下一个场景,让模型帮我 Vibe Coding 一个小游戏。
为了避免讲不清楚游戏规则,我选了无限跑酷这个经典题目。同时,我打算搓一个 3D 版本,给模型上点难度。
这次换了个工具,在 Trae 里分别测试deepseek-v4-pro、MiniMax-M2.7 和 GLM-5.1。
先上场的是deepseek-v4-pro。
没想到这个任务它花了将近10分钟,时间确实有点长。
![]()
*deepseek-v4-pro
效果上,游戏的基本逻辑都顺利完成,交互上也正常,人物可以根据操作切换跑道、跳跃、下蹲。
但这个游戏有个无法忽视的硬伤:障碍物生成的代码逻辑看起来有 bug,我只在一开始见过2个一起出现的障碍物,之后就再也没见过新的了。
对于一个跑酷游戏来说,这等于没法玩。
接下来是 MiniMax-M2.7。
这次任务完成快很多,M2.7 大约只用4分钟就写完了。
![]()
*MiniMax-M2.7
对比 DeepSeek,M2.7 在场景和小人的建模上略逊一筹:草坪跑一段时间后不再无限生成,没有路灯,障碍物也不总是生成在跑道中央,可能导致碰撞检测不稳定。
但好的地方是,DeepSeek 犯过的大错 —— 障碍物不生成的 bug 没有出现。而且小人的动作交互上也没有问题,左右移动和跳跃下蹲都很顺畅。
整体上的任务完成性还是不错的,作为一个小游戏能正常玩。
最后出场的是 GLM-5.1。
GLM-5.1 不紧不慢用了大约7分钟完成任务。
![]()
*GLM-5.1
效果上它有自己的亮点。一眼能看到这个小人建模,GLM-5.1 做得比较丰富,戴了帽子,跑起来还会一扭一扭的,很可爱。
不过一个大问题是,DeepSeek 刚踩过的坑,GLM-5.1 竟然也遇到了。它的障碍物只在最开始的时候生成了一个,之后再也没见过新的。
跑酷游戏遇到这个 bug,是真硬伤。
看完效果,我又翻了下不同模型的任务花费。
DeepSeek 的推理时间最长,花费也最贵,做这个跑酷小游戏一共花了快2块钱。
M2.7 最便宜,竟然只花了1毛6。
GLM-5.1 适中,按 API 价格预估,大约花了1块多一点。
![]()
Round 3:日常生活
最后,测一个生活场景的需求。
我计划下半年去日本玩,就让 deepseek-v4、MiniMax-M2.7,还有 GPT-5.4 来做规划。
这轮对决我想上点难度,重点看这几个模型在长程任务中谁能不崩、不偏离需求。
生活需求往往需要多轮调整,很适合拿来做这种压力测试。
一开始我的需求比较简单:帮我规划一个东京3天自由行行程。预算每天500元人民币(含餐饮、交通、门票)。我不喜欢人多的地方,喜欢有设计感的小店和安静的街区。
这个任务三个模型完成得很快,都按要求和预算规划了一版方案。
它们推荐的地方,基本都覆盖了清澄白河、谷中、根津这种艺术气息浓、适合 City Walk 的地方。至于吃饭,基本上都让我去咖啡、便利店,定食交替解决 —— 真·穷鬼套餐。
接下来,我一口气给模型提出了更改地点、变化时间、增加预算等四个需求。加上一开始的需求,三个模型总共跟着要求改了5次
第1轮(初始任务):
帮我规划一个东京3天自由行行程。预算每天500元人民币(含餐饮、交通、门票)。我不喜欢人多的地方,喜欢有设计感的小店和安静的街区。
第2轮(加约束):
我朋友说浅草寺一定要去,帮我加进去。但预算不变。
第3轮(制造冲突):
第一天预报有雨,帮我把第一天的室外活动换到室内,室外的挪到后面两天。
第4轮(结构调整):
第二天和第三天对调一下,因为我第二天要早点回酒店休息。
第5轮(压力测试):
帮我再加一个展览,我愿意为这个额外多花200元,但其他预算不变。
经过这一通“乱改”,我又问它们:现在的行程里浅草寺在第几天?第一天有没有室外活动?每天预算是多少?
不得不说三个模型都蛮给力。
每个都记得安排浅草寺的行程,预算也是牢牢控制在500块以内。第一天尽量安排在室内,实在避不开的室外部分也都做了标记。
我让它们各自做了个行程展示页面。页面里能看出,在对长程任务的执行度上,它们都没被绕晕,牢牢记住了目标。
DeepSeek 版本
MiniMax 版本
GPT 版本
这个 HTML 展示里,GPT-5.4 页面设计最丰富,deepseek-v4-pro 在内容介绍最多,MiniMax-M2.7 的内容详略有度 —— 它还是牢记我穷鬼属性的,消耗的预算固定在最低。
再对比速度,这轮 GPT-5.4 最快,最后生成 HTML 用了1分17秒。M2.7 其次,生成 HTML 用了1分42秒,最后是 deepseek-v4-pro,生成 HTML 用了3分28秒。
价格上,自然还是两位国产模型完胜了,分别只花了三毛钱左右。
这个案例说明,在这种生活类的长程任务里,MiniMax-M2.7 和 deepseek-v4-pro 的指令遵循能力和 GPT-5.4 实测差不多。如果加上性价比,国产完胜✌️。
回头看这次测的三个 case,海外 TOP 级模型的表现蛮稳,但对日常需求来说,MiniMax、DeepSeek、GLM 的最新模型也都很强,跟海外头部模型不相上下。
再细看的话,deepseek-v4-pro 推理耗时明显更长,M2.7 在每个任务上用时都是最短的。它俩的花费也都压在最低一档。
最近还有很多朋友在用海外模型做大脑来策划,用 M2.7 做执行,我测下来,感觉这思路也是靠谱的。
朋友们,什么时候该冲什么模型,心里该有数了吧❗️
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.