网易首页 > 网易号 > 正文 申请入驻

五大模型一手横评,看完就知道啥时候该冲哪个了

0
分享至

现在的模型,发得是越来越快了。但是我也发现,周围的朋友们在选择模型上似乎还是有些惯性。

一直在用 Claude 的人,如果钱包没意见,自己好像也不会主动切换其他模型。

但该说不说,Claude 确实贵,最近还经常鬼畜额度。前几天有个被 Claude 搞到受不了的朋友说他看国产模型很便宜,尤其 DeepSeek V4 刚出,问我像 deepseek-v4、MiniMax-M2.7 这种,到底能不能冲。

趁着放假,我找了几个常见的场景,把deepseek-v4、MiniMax-M2.7、GLM-5.1,还有Claude Opus 4.7、GPT-5.4都快速试了试,看看这几位全球模型扛把子的表现怎么样。

Round1:办公场景

先来看打工人刚需的办公场景。

我选了一个很高频的需求:让 AI 总结会议纪要。

找了一份之前让飞书妙记转写好的开会录音速记,分别丢给 Claude Opus 4.7、 MiniMax-M2.7 和 deepseek-v4-pro,让 AI 帮我整成结构化的、简洁清晰、符合原文的会议纪要。

这里额外说明一下,为了验证模型本身的效果,我在 Claude Code 里分别接入了三款模型的 API 来测试。

提示词比较简单:我桌面上有一份客户交流文档,你帮我改成会议纪要的版本。

能看到,三个模型都准确识别出了本地的原始文件。


再来看改写效果

先是Claude Opus 4.7。


内容蛮准确,格式上做了重点区分,内容用“现状+结论”的表述,看着很舒服。一个比较明显的 Bug 是在第二趴多打了一排序号。


然后是 M2.7 交的作业。

它的格式相比 Claude 简单一些,但该有的内容都有,简洁准确。尤其是开头的生产计划数据表格,看起来更清楚。


纪要里最核心的背景信息、重要结论、后续 todo 都有覆盖,几个我认为可能会出错的数字部分也跟原文一致。

接着是deepseek-v4-pro


文档样式上好看了不少,标题和正文有明显的区分,内容部分也全面。

但具体内容上,问题来了。

M2.7 在会议纪要里使用大量总结式短句,DeepSeek 一直在用完整长句,字儿太多,读起来有点晕。虽然 Claude 版本的句子也不短,但整体篇幅明显提炼度更高,看起来不累。

在汇报这个场景里,大多数被汇报的对象都没啥耐心,所以越简洁、越结构化,越符合需求。

另外,DeepSeek生成的文档字体还有点问题。


最后看完成时间:M2.7 用了不到一分钟,deepseek-v4-pro 用了一分半,Claude Opus 4.7 超过了两分钟。

至于价格,两个国产模型都只花费了0.3元左右...便宜到有点离谱。至于 Claude 嘛,感觉没有必要让它对比价格了。

Round 2:vibe游戏

下一个场景,让模型帮我 Vibe Coding 一个小游戏。

为了避免讲不清楚游戏规则,我选了无限跑酷这个经典题目。同时,我打算搓一个 3D 版本,给模型上点难度。

这次换了个工具,在 Trae 里分别测试deepseek-v4-pro、MiniMax-M2.7 和 GLM-5.1。

先上场的是deepseek-v4-pro

没想到这个任务它花了将近10分钟,时间确实有点长。


*deepseek-v4-pro

效果上,游戏的基本逻辑都顺利完成,交互上也正常,人物可以根据操作切换跑道、跳跃、下蹲。

但这个游戏有个无法忽视的硬伤:障碍物生成的代码逻辑看起来有 bug,我只在一开始见过2个一起出现的障碍物,之后就再也没见过新的了。

对于一个跑酷游戏来说,这等于没法玩。

接下来是 MiniMax-M2.7。

这次任务完成快很多,M2.7 大约只用4分钟就写完了。


*MiniMax-M2.7

对比 DeepSeek,M2.7 在场景和小人的建模上略逊一筹:草坪跑一段时间后不再无限生成,没有路灯,障碍物也不总是生成在跑道中央,可能导致碰撞检测不稳定。

但好的地方是,DeepSeek 犯过的大错 —— 障碍物不生成的 bug 没有出现。而且小人的动作交互上也没有问题,左右移动和跳跃下蹲都很顺畅。

整体上的任务完成性还是不错的,作为一个小游戏能正常玩。

最后出场的是 GLM-5.1。

GLM-5.1 不紧不慢用了大约7分钟完成任务。


*GLM-5.1

效果上它有自己的亮点。一眼能看到这个小人建模,GLM-5.1 做得比较丰富,戴了帽子,跑起来还会一扭一扭的,很可爱。

不过一个大问题是,DeepSeek 刚踩过的坑,GLM-5.1 竟然也遇到了。它的障碍物只在最开始的时候生成了一个,之后再也没见过新的。

跑酷游戏遇到这个 bug,是真硬伤。

看完效果,我又翻了下不同模型的任务花费。

DeepSeek 的推理时间最长,花费也最贵,做这个跑酷小游戏一共花了快2块钱。

M2.7 最便宜,竟然只花了1毛6。

GLM-5.1 适中,按 API 价格预估,大约花了1块多一点。


Round 3:日常生活

最后,测一个生活场景的需求。

我计划下半年去日本玩,就让 deepseek-v4、MiniMax-M2.7,还有 GPT-5.4 来做规划。

这轮对决我想上点难度,重点看这几个模型在长程任务中谁能不崩、不偏离需求。

生活需求往往需要多轮调整,很适合拿来做这种压力测试。

一开始我的需求比较简单:帮我规划一个东京3天自由行行程。预算每天500元人民币(含餐饮、交通、门票)。我不喜欢人多的地方,喜欢有设计感的小店和安静的街区。

这个任务三个模型完成得很快,都按要求和预算规划了一版方案。

它们推荐的地方,基本都覆盖了清澄白河、谷中、根津这种艺术气息浓、适合 City Walk 的地方。至于吃饭,基本上都让我去咖啡、便利店,定食交替解决 —— 真·穷鬼套餐。

接下来,我一口气给模型提出了更改地点、变化时间、增加预算等四个需求。加上一开始的需求,三个模型总共跟着要求改了5次

第1轮(初始任务):

帮我规划一个东京3天自由行行程。预算每天500元人民币(含餐饮、交通、门票)。我不喜欢人多的地方,喜欢有设计感的小店和安静的街区。

第2轮(加约束):

我朋友说浅草寺一定要去,帮我加进去。但预算不变。

第3轮(制造冲突):

第一天预报有雨,帮我把第一天的室外活动换到室内,室外的挪到后面两天。

第4轮(结构调整):

第二天和第三天对调一下,因为我第二天要早点回酒店休息。

第5轮(压力测试):

帮我再加一个展览,我愿意为这个额外多花200元,但其他预算不变。

经过这一通“乱改”,我又问它们:现在的行程里浅草寺在第几天?第一天有没有室外活动?每天预算是多少?

不得不说三个模型都蛮给力。

每个都记得安排浅草寺的行程,预算也是牢牢控制在500块以内。第一天尽量安排在室内,实在避不开的室外部分也都做了标记。

我让它们各自做了个行程展示页面。页面里能看出,在对长程任务的执行度上,它们都没被绕晕,牢牢记住了目标。

DeepSeek 版本

MiniMax 版本

GPT 版本

这个 HTML 展示里,GPT-5.4 页面设计最丰富,deepseek-v4-pro 在内容介绍最多,MiniMax-M2.7 的内容详略有度 —— 它还是牢记我穷鬼属性的,消耗的预算固定在最低。

再对比速度,这轮 GPT-5.4 最快,最后生成 HTML 用了1分17秒。M2.7 其次,生成 HTML 用了1分42秒,最后是 deepseek-v4-pro,生成 HTML 用了3分28秒。

价格上,自然还是两位国产模型完胜了,分别只花了三毛钱左右。

这个案例说明,在这种生活类的长程任务里,MiniMax-M2.7 和 deepseek-v4-pro 的指令遵循能力和 GPT-5.4 实测差不多。如果加上性价比,国产完胜✌️。

回头看这次测的三个 case,海外 TOP 级模型的表现蛮稳,但对日常需求来说,MiniMax、DeepSeek、GLM 的最新模型也都很强,跟海外头部模型不相上下。

再细看的话,deepseek-v4-pro 推理耗时明显更长,M2.7 在每个任务上用时都是最短的。它俩的花费也都压在最低一档

最近还有很多朋友在用海外模型做大脑来策划,用 M2.7 做执行,我测下来,感觉这思路也是靠谱的。

朋友们,什么时候该冲什么模型,心里该有数了吧❗️

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
爆冷!中国男团遭遇26年来世乒赛首败:1-3不敌韩国队 王楚钦缺阵

爆冷!中国男团遭遇26年来世乒赛首败:1-3不敌韩国队 王楚钦缺阵

风过乡
2026-05-03 06:12:32
张雪振臂高呼+连续爆粗口!两口干完大半杯啤酒 怒怼喷子:谁不服

张雪振臂高呼+连续爆粗口!两口干完大半杯啤酒 怒怼喷子:谁不服

风过乡
2026-05-03 00:00:23
4月最后一夜爆雷潮!9龙头亏超百亿,53股巨亏,4大高危板块曝光

4月最后一夜爆雷潮!9龙头亏超百亿,53股巨亏,4大高危板块曝光

慧眼看世界哈哈
2026-05-01 05:59:44
突发!再见了,塔图姆!

突发!再见了,塔图姆!

技巧君侃球
2026-05-03 07:13:03
最后一圈连超两人!WSBK匈牙利站首回合:张雪机车车手德比斯夺冠

最后一圈连超两人!WSBK匈牙利站首回合:张雪机车车手德比斯夺冠

全景体育V
2026-05-02 20:36:23
这幅画把中国美协钉在耻辱柱上

这幅画把中国美协钉在耻辱柱上

深度报
2026-05-02 21:50:49
田曦薇一定要挤成这样吗,不大好看

田曦薇一定要挤成这样吗,不大好看

TVB的四小花
2026-05-03 02:33:03
伦敦世乒赛5月3日凌晨战报:国乒女团全胜男团遭败绩!日本赢2场

伦敦世乒赛5月3日凌晨战报:国乒女团全胜男团遭败绩!日本赢2场

全言作品
2026-05-03 05:47:46
伊朗给全球上了一课,世界军事排名,将更新!

伊朗给全球上了一课,世界军事排名,将更新!

深度报
2026-04-30 22:47:56
随着穆帅率队2-2,波尔图1-0,葡超最新积分榜出炉:本菲卡无缘冠军

随着穆帅率队2-2,波尔图1-0,葡超最新积分榜出炉:本菲卡无缘冠军

侧身凌空斩
2026-05-03 05:48:58
贝家颜值神话落幕,小七也没能接住贝克汉姆的神颜

贝家颜值神话落幕,小七也没能接住贝克汉姆的神颜

述家娱记
2026-05-02 10:05:12
伦敦世乒赛:国乒首败诞生!林诗栋梁靖崑周启豪输球,王楚钦休战

伦敦世乒赛:国乒首败诞生!林诗栋梁靖崑周启豪输球,王楚钦休战

郝小小看体育
2026-05-03 05:29:45
44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

TVB剧评社
2026-05-01 21:24:01
黑八!黑八没了!末节8分!史上最荒唐季后赛

黑八!黑八没了!末节8分!史上最荒唐季后赛

篮球实战宝典
2026-05-02 10:04:33
地铁喷辣椒水男子社会性死亡!底裤被扒,正脸曝光,结局大快人心

地铁喷辣椒水男子社会性死亡!底裤被扒,正脸曝光,结局大快人心

阿凫爱吐槽
2026-05-02 11:49:43
史诗失误!艾伦不敢信:打丢99%网友都能打进的赛点球 放生吴宜泽

史诗失误!艾伦不敢信:打丢99%网友都能打进的赛点球 放生吴宜泽

风过乡
2026-05-03 07:08:57
彻底没了,三星电子宣布退出中国市场!

彻底没了,三星电子宣布退出中国市场!

XCiOS俱乐部
2026-05-02 18:53:05
菲尼克斯太阳的未来竟不由自己做主,他们要看别人的脸色

菲尼克斯太阳的未来竟不由自己做主,他们要看别人的脸色

篮球小烟花
2026-05-03 08:00:03
瓦伦丁赛后采访炸了!早上还说车不行,晚上就拿了冠军

瓦伦丁赛后采访炸了!早上还说车不行,晚上就拿了冠军

小娱乐悠悠
2026-05-03 06:28:48
李亚鹏香港慈善晚会请了30家公司,只获得336万元善款,王菲力挺

李亚鹏香港慈善晚会请了30家公司,只获得336万元善款,王菲力挺

椰黄娱乐
2026-05-02 12:22:54
2026-05-03 08:52:49
四木相对论 incentive-icons
四木相对论
唠唠科技,看看世界
135文章数 2关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

连扳3局逆转 "00后"吴宜泽首次晋级斯诺克世锦赛决赛

头条要闻

连扳3局逆转 "00后"吴宜泽首次晋级斯诺克世锦赛决赛

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

家居
艺术
教育
游戏
军事航空

家居要闻

灵动实用 生活艺术场

艺术要闻

李克强致宋健信儒雅率意,中年钢笔字果敢,江湖体为何越骂越火

教育要闻

高考地理:分析黄土高原红土柱的形成过程

网游圈换了一茬又一茬,唯有这个“异类”,却是越老越能打!

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版