网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

五大模型一手横评，看完就知道啥时候该冲哪个了

2026-05-02 18:02:01　来源: 四木相对论

北京举报

0

分享至

现在的模型，发得是越来越快了。但是我也发现，周围的朋友们在选择模型上似乎还是有些惯性。

一直在用 Claude 的人，如果钱包没意见，自己好像也不会主动切换其他模型。

但该说不说，Claude 确实贵，最近还经常鬼畜额度。前几天有个被 Claude 搞到受不了的朋友说他看国产模型很便宜，尤其 DeepSeek V4 刚出，问我像 deepseek-v4、MiniMax-M2.7 这种，到底能不能冲。

趁着放假，我找了几个常见的场景，把deepseek-v4、MiniMax-M2.7、GLM-5.1，还有Claude Opus 4.7、GPT-5.4都快速试了试，看看这几位全球模型扛把子的表现怎么样。

Round1：办公场景

先来看打工人刚需的办公场景。

我选了一个很高频的需求：让 AI 总结会议纪要。

找了一份之前让飞书妙记转写好的开会录音速记，分别丢给 Claude Opus 4.7、 MiniMax-M2.7 和 deepseek-v4-pro，让 AI 帮我整成结构化的、简洁清晰、符合原文的会议纪要。

这里额外说明一下，为了验证模型本身的效果，我在 Claude Code 里分别接入了三款模型的 API 来测试。

提示词比较简单：我桌面上有一份客户交流文档，你帮我改成会议纪要的版本。

能看到，三个模型都准确识别出了本地的原始文件。

再来看改写效果

先是Claude Opus 4.7。

内容蛮准确，格式上做了重点区分，内容用“现状+结论”的表述，看着很舒服。一个比较明显的 Bug 是在第二趴多打了一排序号。

然后是 M2.7 交的作业。

它的格式相比 Claude 简单一些，但该有的内容都有，简洁准确。尤其是开头的生产计划数据表格，看起来更清楚。

纪要里最核心的背景信息、重要结论、后续 todo 都有覆盖，几个我认为可能会出错的数字部分也跟原文一致。

接着是deepseek-v4-pro。

文档样式上好看了不少，标题和正文有明显的区分，内容部分也全面。

但具体内容上，问题来了。

M2.7 在会议纪要里使用大量总结式短句，DeepSeek 一直在用完整长句，字儿太多，读起来有点晕。虽然 Claude 版本的句子也不短，但整体篇幅明显提炼度更高，看起来不累。

在汇报这个场景里，大多数被汇报的对象都没啥耐心，所以越简洁、越结构化，越符合需求。

另外，DeepSeek生成的文档字体还有点问题。

最后看完成时间：M2.7 用了不到一分钟，deepseek-v4-pro 用了一分半，Claude Opus 4.7 超过了两分钟。

至于价格，两个国产模型都只花费了0.3元左右...便宜到有点离谱。至于 Claude 嘛，感觉没有必要让它对比价格了。

Round 2：vibe游戏

下一个场景，让模型帮我 Vibe Coding 一个小游戏。

为了避免讲不清楚游戏规则，我选了无限跑酷这个经典题目。同时，我打算搓一个 3D 版本，给模型上点难度。

这次换了个工具，在 Trae 里分别测试deepseek-v4-pro、MiniMax-M2.7 和 GLM-5.1。

先上场的是deepseek-v4-pro。

没想到这个任务它花了将近10分钟，时间确实有点长。

*deepseek-v4-pro

效果上，游戏的基本逻辑都顺利完成，交互上也正常，人物可以根据操作切换跑道、跳跃、下蹲。

但这个游戏有个无法忽视的硬伤：障碍物生成的代码逻辑看起来有 bug，我只在一开始见过2个一起出现的障碍物，之后就再也没见过新的了。

对于一个跑酷游戏来说，这等于没法玩。

接下来是 MiniMax-M2.7。

这次任务完成快很多，M2.7 大约只用4分钟就写完了。

*MiniMax-M2.7

对比 DeepSeek，M2.7 在场景和小人的建模上略逊一筹：草坪跑一段时间后不再无限生成，没有路灯，障碍物也不总是生成在跑道中央，可能导致碰撞检测不稳定。

但好的地方是，DeepSeek 犯过的大错 —— 障碍物不生成的 bug 没有出现。而且小人的动作交互上也没有问题，左右移动和跳跃下蹲都很顺畅。

整体上的任务完成性还是不错的，作为一个小游戏能正常玩。

最后出场的是 GLM-5.1。

GLM-5.1 不紧不慢用了大约7分钟完成任务。

*GLM-5.1

效果上它有自己的亮点。一眼能看到这个小人建模，GLM-5.1 做得比较丰富，戴了帽子，跑起来还会一扭一扭的，很可爱。

不过一个大问题是，DeepSeek 刚踩过的坑，GLM-5.1 竟然也遇到了。它的障碍物只在最开始的时候生成了一个，之后再也没见过新的。

跑酷游戏遇到这个 bug，是真硬伤。

看完效果，我又翻了下不同模型的任务花费。

DeepSeek 的推理时间最长，花费也最贵，做这个跑酷小游戏一共花了快2块钱。

M2.7 最便宜，竟然只花了1毛6。

GLM-5.1 适中，按 API 价格预估，大约花了1块多一点。

Round 3：日常生活

最后，测一个生活场景的需求。

我计划下半年去日本玩，就让 deepseek-v4、MiniMax-M2.7，还有 GPT-5.4 来做规划。

这轮对决我想上点难度，重点看这几个模型在长程任务中谁能不崩、不偏离需求。

生活需求往往需要多轮调整，很适合拿来做这种压力测试。

一开始我的需求比较简单：帮我规划一个东京3天自由行行程。预算每天500元人民币（含餐饮、交通、门票）。我不喜欢人多的地方，喜欢有设计感的小店和安静的街区。

这个任务三个模型完成得很快，都按要求和预算规划了一版方案。

它们推荐的地方，基本都覆盖了清澄白河、谷中、根津这种艺术气息浓、适合 City Walk 的地方。至于吃饭，基本上都让我去咖啡、便利店，定食交替解决 —— 真·穷鬼套餐。

接下来，我一口气给模型提出了更改地点、变化时间、增加预算等四个需求。加上一开始的需求，三个模型总共跟着要求改了5次

第1轮（初始任务）：

帮我规划一个东京3天自由行行程。预算每天500元人民币（含餐饮、交通、门票）。我不喜欢人多的地方，喜欢有设计感的小店和安静的街区。

第2轮（加约束）：

我朋友说浅草寺一定要去，帮我加进去。但预算不变。

第3轮（制造冲突）：

第一天预报有雨，帮我把第一天的室外活动换到室内，室外的挪到后面两天。

第4轮（结构调整）：

第二天和第三天对调一下，因为我第二天要早点回酒店休息。

第5轮（压力测试）：

帮我再加一个展览，我愿意为这个额外多花200元，但其他预算不变。

经过这一通“乱改”，我又问它们：现在的行程里浅草寺在第几天？第一天有没有室外活动？每天预算是多少？

不得不说三个模型都蛮给力。

每个都记得安排浅草寺的行程，预算也是牢牢控制在500块以内。第一天尽量安排在室内，实在避不开的室外部分也都做了标记。

我让它们各自做了个行程展示页面。页面里能看出，在对长程任务的执行度上，它们都没被绕晕，牢牢记住了目标。

DeepSeek 版本

MiniMax 版本

GPT 版本

这个 HTML 展示里，GPT-5.4 页面设计最丰富，deepseek-v4-pro 在内容介绍最多，MiniMax-M2.7 的内容详略有度 —— 它还是牢记我穷鬼属性的，消耗的预算固定在最低。

再对比速度，这轮 GPT-5.4 最快，最后生成 HTML 用了1分17秒。M2.7 其次，生成 HTML 用了1分42秒，最后是 deepseek-v4-pro，生成 HTML 用了3分28秒。

价格上，自然还是两位国产模型完胜了，分别只花了三毛钱左右。

这个案例说明，在这种生活类的长程任务里，MiniMax-M2.7 和 deepseek-v4-pro 的指令遵循能力和 GPT-5.4 实测差不多。如果加上性价比，国产完胜✌️。

回头看这次测的三个 case，海外 TOP 级模型的表现蛮稳，但对日常需求来说，MiniMax、DeepSeek、GLM 的最新模型也都很强，跟海外头部模型不相上下。

再细看的话，deepseek-v4-pro 推理耗时明显更长，M2.7 在每个任务上用时都是最短的。它俩的花费也都压在最低一档。

最近还有很多朋友在用海外模型做大脑来策划，用 M2.7 做执行，我测下来，感觉这思路也是靠谱的。

朋友们，什么时候该冲什么模型，心里该有数了吧❗️

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

谷歌做了个论文专用版nano banana！顶会级Figure直出

机器之心Pro 2026-02-05 15:52:42
0 跟贴 0
马斯克的Grok 4.3悄悄上线，跑分评测出炉

新智元 2026-05-02 17:06:34
6 跟贴 6

突破长序列与低耗部署核心瓶颈！中国科学院发布类脑大模型瞬悉2.0

新智元 2026-05-02 14:14:33
0 跟贴 0

图灵奖得主：劝年轻人别学计算机，行业红利正在消失

DeepTech深科技 2026-05-02 18:30:19
6 跟贴 6
奥特曼预言与现实相差几何？12个顶级模型“创业”一年，仅3个存活

钛媒体APP 2026-04-03 17:11:08
0 跟贴 0

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0

DeepSeek用V4重画了坐标系

钛媒体APP 2026-05-01 09:52:15
10 跟贴 10
有人只用API就猜出了GPT、Claude、Gemini的参数量？社区吵翻了

机器之心Pro 2026-05-01 19:56:22
4 跟贴 4

门禁被男子当过人道具，一番操作让人意外，运动逻辑完全说得通！

白熊爱搞笑 2026-05-01 19:17:42
1 跟贴 1
WPS/Word 论文自动目录生成保姆级教程

新浪财经 2026-05-03 05:43:41
0 跟贴 0
美国国防部长已下令从德国撤出5000名驻军，撤军工作将在未来6至12个月内完成

鲁中晨报 2026-05-02 07:55:05
19756 跟贴 19756
美军新一代班用机枪，XM250轻机枪，重塑美军火力压制逻辑！

环球武器 2026-04-30 09:30:56
0 跟贴 0
这就是最基础的逻辑了，所以学校不教逻辑学

杨小杨爱看剧 2026-05-01 16:31:16
10711 跟贴 10711
换装纯正"中国心"的运-20B正式亮相专家解读强在何处

环球网资讯 2026-05-02 09:12:58
5768 跟贴 5768
网友在行车路上偶遇解放军官兵，最后的军礼太帅了！

环球网资讯 2026-05-02 11:59:16
107 跟贴 107
重磅文件揭示外交信号，世界为之震动！

阔阔论 2026-05-01 13:23:16
0 跟贴 0
一个人成长最快的底层逻辑：自我重构！

搞笑枇杷 2026-04-29 02:03:41
0 跟贴 0
内奸假装上厕所偷偷给鬼子做标记，竟被女八路一眼识破，内奸惨了

风影视 2026-04-29 18:56:15
0 跟贴 0
蓝营正式对赵少康出手！季麟连事件朱立伦紧急改口

空谷幽幽蓝 2026-05-03 02:15:56
0 跟贴 0
连扳3局逆转 "00后"吴宜泽首次晋级斯诺克世锦赛决赛

环球网资讯 2026-05-03 06:37:20
399 跟贴 399
豆包又更新了！一键生成王炸PPT，10分钟搞定半天工作量！

秋叶PPT 2026-05-03 08:22:37
0 跟贴 0
卖爆了!因玩家数破1200万官方决定大幅延长游戏运营

游民星空 2026-05-02 15:29:26
12 跟贴 12
“苏超”最新积分榜公布：盐城队3场皆胜9分领跑，南京队1胜1负位居第9，镇江队2战全负位居榜尾

扬子晚报 2026-05-02 22:12:44
234 跟贴 234
美国军舰接连起火的背后逻辑

吕喆有话说 2026-05-02 17:31:54
1 跟贴 1
“这里能见到美人鱼，真是开眼了！”杭州这个高速服务区，不少人举着手机来回好几趟

都市快报橙柿互动 2026-05-02 09:55:16
1209 跟贴 1209
欧盟预算吵翻天！2万亿欧元方案，各国谁也不肯多掏钱

承受之重 2026-05-03 04:42:47
0 跟贴 0
天柱山景区“摆渡车问题”被点名后，记者实探

极目新闻 2026-05-01 19:46:05
298 跟贴 298
充电桩运营商，“扛不住了”

中国新闻周刊 2026-05-02 19:02:21
399 跟贴 399
《红沙》地图要更新！雪山村庄新场景已搭建完毕

游民星空 2026-05-02 20:15:29
2 跟贴 2
游客拍到一公园公厕满地大小便，被工作人员围堵要求删视频，两次报警才脱身

蓬勃新闻 2026-05-02 19:27:43
963 跟贴 963
一张航拍图拿下20万美元：挪威摄影师的Mavic 3 Pro做了什么

赛博兰博 2026-05-01 21:26:08
1 跟贴 1
双面胶中婆婆不让丽鹃花钱的背后，实则是在维护自己的生存逻辑

佚名影视说 2026-05-02 19:21:13
3 跟贴 3
五一的莫氏鸡煲现场爆满：上午客人没吃完，下午客人又开始排队，还有人花80元买号

极目新闻 2026-05-01 18:33:42
3373 跟贴 3373
贺娇龙账号已更名商品橱窗清空简介内容更新

大象新闻 2026-05-02 19:42:07
82 跟贴 82
“司机到河南被塞30斤蒜薹”背后：有蒜农称请人抽一斤倒贴几毛钱，增种、气温偏高致供大于求

红星新闻 2026-05-02 21:40:16
0 跟贴 0
广东一男子在楼梯铺满100张粘鼠板“硬核灭鼠”：半年前用过这招，一次黏住了28只

大象新闻 2026-05-02 23:14:08
108 跟贴 108
女子陪儿子玩手雷模型，手雷没扔出尴尬了，竟被教练一脚踢飞

搞笑热血青年 2026-05-01 09:24:17
2 跟贴 2
上海将建世界最高无轴摩天轮“上海之门”，预计今年年底开工

澎湃新闻 2026-04-29 22:34:28
727 跟贴 727
门口墙上被人做了特殊标记怎么办？教你2招，直接把标记处理干净

电工维修技术 2026-05-01 23:30:20
0 跟贴 0
网曝一只金毛在主人示意下跳入湖中扑咬天鹅宝宝，天鹅父母拼命展翅驱赶

观威海 2026-05-02 12:28:28
693 跟贴 693

爆冷！中国男团遭遇26年来世乒赛首败：1-3不敌韩国队王楚钦缺阵

爆冷！中国男团遭遇26年来世乒赛首败：1-3不敌韩国队王楚钦缺阵

风过乡

2026-05-03 06:12:32

张雪振臂高呼+连续爆粗口！两口干完大半杯啤酒怒怼喷子：谁不服

张雪振臂高呼+连续爆粗口！两口干完大半杯啤酒怒怼喷子：谁不服

风过乡

2026-05-03 00:00:23

4月最后一夜爆雷潮！9龙头亏超百亿，53股巨亏，4大高危板块曝光

4月最后一夜爆雷潮！9龙头亏超百亿，53股巨亏，4大高危板块曝光

慧眼看世界哈哈

2026-05-01 05:59:44

突发！再见了，塔图姆！

技巧君侃球

2026-05-03 07:13:03

最后一圈连超两人！WSBK匈牙利站首回合：张雪机车车手德比斯夺冠

最后一圈连超两人！WSBK匈牙利站首回合：张雪机车车手德比斯夺冠

全景体育V

2026-05-02 20:36:23

这幅画把中国美协钉在耻辱柱上

深度报

2026-05-02 21:50:49

田曦薇一定要挤成这样吗，不大好看

田曦薇一定要挤成这样吗，不大好看

TVB的四小花

2026-05-03 02:33:03

伦敦世乒赛5月3日凌晨战报：国乒女团全胜男团遭败绩！日本赢2场

伦敦世乒赛5月3日凌晨战报：国乒女团全胜男团遭败绩！日本赢2场

全言作品

2026-05-03 05:47:46

伊朗给全球上了一课，世界军事排名，将更新！

伊朗给全球上了一课，世界军事排名，将更新！

深度报

2026-04-30 22:47:56

随着穆帅率队2-2,波尔图1-0,葡超最新积分榜出炉:本菲卡无缘冠军

随着穆帅率队2-2,波尔图1-0,葡超最新积分榜出炉:本菲卡无缘冠军

侧身凌空斩

2026-05-03 05:48:58

贝家颜值神话落幕，小七也没能接住贝克汉姆的神颜

贝家颜值神话落幕，小七也没能接住贝克汉姆的神颜

述家娱记

2026-05-02 10:05:12

伦敦世乒赛：国乒首败诞生！林诗栋梁靖崑周启豪输球，王楚钦休战

伦敦世乒赛：国乒首败诞生！林诗栋梁靖崑周启豪输球，王楚钦休战

郝小小看体育

2026-05-03 05:29:45

44岁前TVB花旦失落金像奖不气馁，自爆广州祖业已被亲戚分光

44岁前TVB花旦失落金像奖不气馁，自爆广州祖业已被亲戚分光

TVB剧评社

2026-05-01 21:24:01

黑八！黑八没了！末节8分！史上最荒唐季后赛

黑八！黑八没了！末节8分！史上最荒唐季后赛

篮球实战宝典

2026-05-02 10:04:33

地铁喷辣椒水男子社会性死亡！底裤被扒，正脸曝光，结局大快人心

地铁喷辣椒水男子社会性死亡！底裤被扒，正脸曝光，结局大快人心

阿凫爱吐槽

2026-05-02 11:49:43

史诗失误！艾伦不敢信：打丢99%网友都能打进的赛点球放生吴宜泽

史诗失误！艾伦不敢信：打丢99%网友都能打进的赛点球放生吴宜泽

风过乡

2026-05-03 07:08:57

彻底没了，三星电子宣布退出中国市场！

彻底没了，三星电子宣布退出中国市场！

XCiOS俱乐部

2026-05-02 18:53:05

菲尼克斯太阳的未来竟不由自己做主，他们要看别人的脸色

菲尼克斯太阳的未来竟不由自己做主，他们要看别人的脸色

篮球小烟花

2026-05-03 08:00:03

瓦伦丁赛后采访炸了！早上还说车不行，晚上就拿了冠军

瓦伦丁赛后采访炸了！早上还说车不行，晚上就拿了冠军

小娱乐悠悠

2026-05-03 06:28:48

李亚鹏香港慈善晚会请了30家公司，只获得336万元善款，王菲力挺

李亚鹏香港慈善晚会请了30家公司，只获得336万元善款，王菲力挺

椰黄娱乐

2026-05-02 12:22:54

四木相对论

唠唠科技，看看世界

135文章数 2关注度

往期回顾全部

科技要闻

库克罕见"拒答"！苹果正被AI供应链卡脖子

头条要闻

连扳3局逆转 "00后"吴宜泽首次晋级斯诺克世锦赛决赛

头条要闻

连扳3局逆转 "00后"吴宜泽首次晋级斯诺克世锦赛决赛

体育要闻

休赛期总冠军，轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚牵手逛街好甜蜜

财经要闻

雷军很努力小米还是跌破了30港元大关

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

艺术

教育

游戏

军事航空

家居要闻

灵动实用生活艺术场

艺术要闻

李克强致宋健信儒雅率意，中年钢笔字果敢，江湖体为何越骂越火

教育要闻

高考地理:分析黄土高原红土柱的形成过程

网游圈换了一茬又一茬，唯有这个“异类”，却是越老越能打！

军事要闻

伊朗公布伊方最新谈判方案

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版