网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

实测10个大模型：免费版击败GPT-5.4，谷歌小模型杀疯了

2026-05-11 11:17:25　来源: 码上闲叙

北京举报

0

分享至

昨晚有人花了0.19美元，让10个云端大模型干了10件正经事——不是刷LeetCode，而是文件解析、SQL查询、正则提取、异步HTTP请求这些代理真正会碰到的活儿。100次API调用，结果让付费用户有点坐不住。

谷歌Gemma 4：第二名的成绩，白菜价的开销

80%准确率，单次运行成本0.0005美元，唯一打不过的只有Claude。26B版本拿到78%，跟Mistral Large 3同档，价格只要四分之一。作者反复核对数字，因为"看着不像真的"——但数据没崩。

免费档逆袭：Gemini 2.5 Flash干翻GPT-5.4

谷歌免费层的Gemini 2.5 Flash拿下76%，OpenAI的GPT-5.4停在75%。更扎心的是速度：10个任务一共12秒，全场最快。没花钱的反而更快更准，这账怎么算？

Mistral：规模化部署的默认选项

Claude 98%的准确率，10%的成本，19秒跑完。0.002美元。如果正在搭代理系统，这是作者眼中的"默认配置"。

GPT-5.5：贵三倍，错四成

成本0.066美元，是Claude的三倍多，准确率58%。三个任务撞上token上限，输出冗长却没踩中评分模式。模型不差，只是不适合token预算紧张的代理场景。

MiniMax M2.7：完成的题全对，但交卷率六成

做完的6题97%准确率，比Claude还高。但4题直接挂零——强制内部推理烧光了输出预算，还没开始正经答题就耗尽额度。作者形容得很准："聪明的同事，说着说着突然死机"。

Qwen：想对了，但想太久

77%准确率，574秒。Claude只要23秒，它要10分钟。思维链默认开启且无法完全关闭，精度在线， patience offline。

选型建议（直接抄）

要精度：Claude Sonnet 4
要性价比：Mistral Large 3
要白嫖：Gemma 4 31B
要速度：Gemini 2.5 Flash
代理场景绕道：GPT-5.5、MiniMax M2.7

原始数据和逐题得分挂在benchmarks.workswithagents.dev，每晚刷新。作者的原话："因为你应该来挑刺"。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

英伟达巧用8B模型秒掉GPT-5 开源了

量子位 2025-12-06 14:07:18
97 跟贴 97
这样问DeepSeek，能「偷」到数据？

机器之心Pro 2026-05-11 11:40:03
0 跟贴 0

Agent评测的下半场：为什么需要一个「活的」Benchmark？

新智元 2026-05-11 13:08:40
0 跟贴 0

谷歌瞄准英伟达宝座：“全球股王”即将易主？

财联社 2026-05-11 10:12:10
0 跟贴 0
全球科技巨头谷歌入驻广州；广东稳居核电第一大省丨大湾区财经早参

每日经济新闻 2026-05-11 07:01:11
4 跟贴 4

谷歌母公司Alphabet计划首次发行日元债券

财联社 2026-05-11 10:24:10
0 跟贴 0

Claude design限速，谷歌开源轻松做动态网页，实力打脸？

机器之心Pro 2026-04-29 17:20:04
0 跟贴 0
女子指挥男子用斜坡把行李箱滑下去，没想到男子把自己也一起滑下去了

南阳日报 2026-05-10 18:54:56
233 跟贴 233

具身智能来时路：谷歌RT1、2，SayCan作者Ted Xiao复盘机器人学习

机器之心Pro 2026-05-11 09:52:22
0 跟贴 0
AI突现首例自我复制！横跨4国160小时无限繁殖

新智元 2026-05-09 18:31:30
82 跟贴 82
起底 GPT Image 2 团队后，我扒出了一张华人师徒网

爱范儿 2026-04-23 16:44:45
0 跟贴 0
「龙虾之父」吐槽人类互联网后，终于有人把这当个事儿办了

机器之心Pro 2026-03-31 11:09:26
0 跟贴 0
奥特曼亲封GPT-5.5「自闭天才」！16人团队连夜退订Claude

新智元 2026-05-10 19:07:08
33 跟贴 33
别再把长文切碎了，HiLight让AI直接在原文里划重点

机器之心Pro 2026-05-11 10:39:41
0 跟贴 0
数据湖面试的四个底层模型：别急着报厂商名字

Ping值焦虑 2026-05-11 11:46:50
0 跟贴 0
开发者薪酬悖论：谁在拿"泡沫工资"，谁又被低估？

硅屿手记 2026-05-10 08:39:09
2 跟贴 2
大模型工程师的必修课清单

我是一个养虾人 2026-05-11 11:29:41
0 跟贴 0
医疗软件工程师必须知道的6个行业标准

爬虫饲养员 2026-05-11 09:16:01
0 跟贴 0
13年不写代码，5天花200美元重建400万美元产品——YC掌门人是怎么做到的？

华尔街见闻官方 2026-05-11 10:52:07
0 跟贴 0
全网确诊前额叶损伤 AI正在批量生产“空心人”

经济观察报 2026-05-11 13:36:09
0 跟贴 0
歼-35出口型亮相，第一个用户究竟是谁，改造生产三年不算慢

陈虎点兵 2026-05-10 21:37:40
1 跟贴 1
中国男乒3-0横扫日本完成世乒赛12连冠

央视新闻客户端 2026-05-11 01:25:02
766 跟贴 766
索尼赚翻了！PS5是最PS史上赚钱的主机收入恐怖

游民星空 2026-05-11 13:23:13
0 跟贴 0
韩国人对华好感度最新数据公布

扬子晚报 2026-05-10 15:52:55
1345 跟贴 1345
法国新法落地：归还 “260万被抢文物”有多艰难？｜重建现场

新京报动新闻 2026-05-11 01:46:32
313 跟贴 313
小摩：维持比亚迪股份增持评级目标价120港元

财联社 2026-05-11 13:12:13
0 跟贴 0
我穿便装到妻子家过年，被厅长大舅哥使唤，警卫员送来文件他腿软

左允新鲜事 2026-05-11 10:47:31
0 跟贴 0
一特斯拉Model 3服役7年跑了61万公里后，实测续航缩水34.2%

IT之家 2026-05-10 21:38:29
668 跟贴 668
2500亿美元的xAI死了，但SpaceXAI的算力游戏才刚开始

钛媒体APP 2026-05-11 11:15:26
0 跟贴 0
PS5北方联通大面积断连：改个数字就能解决

灰度测试中 2026-05-11 13:26:27
0 跟贴 0
游戏AI如何下棋：从Minimax到Alpha-Beta剪枝

硬核玩家2哈 2026-05-11 11:52:47
0 跟贴 0
山姆成“欠款大户”？雨花客厅北区法拍公告披露：山姆欠租887万元

扬子晚报 2026-05-10 20:25:23
588 跟贴 588
国家体育总局呼吁不组织不参与运动员庆生

央视新闻客户端 2026-05-10 15:38:30
793 跟贴 793
台"军购条例"大幅缩水美坐不住了美官员:向大陆屈服

澎湃新闻 2026-05-10 17:54:57
406 跟贴 406
小伙刮刮乐中了一百万，中奖当天花了三四百元

今日女报 2026-05-11 05:37:35
132 跟贴 132
浙江一加油站92号汽油6.6元/升被质疑“便宜没好货”，回应：优惠力度大

潇湘晨报 2026-05-10 17:11:17
559 跟贴 559
汉坦病毒邮轮零号病人身份曝光

现代快报 2026-05-10 20:18:33
763 跟贴 763
Excel表格太乱？试试10%可见法则

赛博兰博 2026-05-06 23:40:57
0 跟贴 0
天舟十号货运飞船发射任务取得圆满成功

新华社 2026-05-11 08:34:33
660 跟贴 660
茶颜悦色，装不下去了

中国新闻周刊 2026-05-07 22:15:57
297 跟贴 297

广东入夏湿气重！要多喝这款老广靓汤，清甜润口，喝完清爽不黏腻

广东入夏湿气重！要多喝这款老广靓汤，清甜润口，喝完清爽不黏腻

房产衫哥

2026-05-10 12:11:03

为什么女教师成了单身女的最重灾区？网友剖析一针见血，我明白了

为什么女教师成了单身女的最重灾区？网友剖析一针见血，我明白了

夜深爱杂谈

2026-04-27 22:11:39

伦敦世乒赛收官：3位选手满分，1人表现欠佳，1人仅达标

伦敦世乒赛收官：3位选手满分，1人表现欠佳，1人仅达标

晓岇就是我

2026-05-11 11:48:15

美媒：中国不可怕，可怕的是中国只用10万头猪，就解决了治沙难题

美媒：中国不可怕，可怕的是中国只用10万头猪，就解决了治沙难题

北纬的咖啡豆

2026-04-12 19:15:01

王晓晨刘浩存同框，展现张艺谋选角眼光有多毒辣

王晓晨刘浩存同框，展现张艺谋选角眼光有多毒辣

落雪听梅a

2026-05-09 09:37:16

泰王的妻妾同框：王后优雅，贵妃颜值回春，3位小主年轻貌美

泰王的妻妾同框：王后优雅，贵妃颜值回春，3位小主年轻貌美

小书生吃瓜

2026-05-08 19:25:35

知情人士透露伊朗对美回应内容要点

知情人士透露伊朗对美回应内容要点

界面新闻

2026-05-11 09:25:19

赖昌星的情人蔡玲玲：悔不该委身于他，58岁的她现状如何？

赖昌星的情人蔡玲玲：悔不该委身于他，58岁的她现状如何？

细品名人

2026-04-29 07:06:35

老人不死，子孙遭罪？如果家有八九十岁双亲还在，要牢记这两条准则

老人不死，子孙遭罪？如果家有八九十岁双亲还在，要牢记这两条准则

心理观察局

2026-05-05 09:24:14

最新民调出炉，“共和党要慌”

观察者网

2026-05-11 13:22:08

国企干4年，公积金账户躺了10万块！算了一笔账，我彻底坐不住了

国企干4年，公积金账户躺了10万块！算了一笔账，我彻底坐不住了

阿离家居

2026-05-11 12:48:51

中方一锤定音，特朗普访华3天！抢在最后时刻，美突然做出新安排

中方一锤定音，特朗普访华3天！抢在最后时刻，美突然做出新安排

晓楖科普

2026-05-11 12:14:02

《新闻联播》大换血，李梓萌康辉退居幕后，四代接班人悄然就位

《新闻联播》大换血，李梓萌康辉退居幕后，四代接班人悄然就位

阿纂看事

2026-04-25 13:48:54

10-4！奥沙利文大胜登顶：打败2冠名将夺冠，创3纪录，获28万奖金

10-4！奥沙利文大胜登顶：打败2冠名将夺冠，创3纪录，获28万奖金

刘姚尧的文字城堡

2026-05-11 07:20:38

被捕9个月后，释永信再迎噩耗，4大罪名坐实，最后的体面都没了

被捕9个月后，释永信再迎噩耗，4大罪名坐实，最后的体面都没了

好贤观史记

2026-03-21 17:07:15

这才是让人疯狂的好身材！肉肉的超可爱，看了就忍不住想抱抱！

这才是让人疯狂的好身材！肉肉的超可爱，看了就忍不住想抱抱！

情感大头说说

2026-05-11 11:06:25

盐城男子车祸去世，保单金额凭空对半砍，家属质疑：签名是假的，贷款是懵的，利息还一直滚？

盐城男子车祸去世，保单金额凭空对半砍，家属质疑：签名是假的，贷款是懵的，利息还一直滚？

盐城市民网

2026-05-11 11:41:17

人类意志能扛住酷刑吗？真相远比想象残酷

人类意志能扛住酷刑吗？真相远比想象残酷

三农老历

2026-05-11 09:19:46

赖清德没料到，曾扬言与华断交，转向台北的洪都拉斯总统，改口了

赖清德没料到，曾扬言与华断交，转向台北的洪都拉斯总统，改口了

透视到底

2026-05-11 13:26:36

5月1日起！全院一张床全国落地，住院再也不用托关系

5月1日起！全院一张床全国落地，住院再也不用托关系

牛锅巴小钒

2026-05-09 15:51:16

有态度网友ytd

3680文章数 43关注度

往期回顾全部

科技要闻

黄仁勋：你们赶上了一代人一次的大机会

头条要闻

媒体：特朗普确定本周访华中美在东亚有个共同的敌人

头条要闻

媒体：特朗普确定本周访华中美在东亚有个共同的敌人

体育要闻

那个曾让詹姆斯抱头的兄弟，40岁从大学毕业了

娱乐要闻

谢霆锋没想到，王菲靠张艺谋重返巅峰

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

全球化成国内车企未来胜负手，谁是出海最强"水手"?

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

房产

健康

家居

手机

艺术要闻

2026中央美术学院博士生毕业作品选

房产要闻

低价甩卖！海口这个地标商业，无人接盘！

干细胞能让人“返老还童”吗

家居要闻

多元生活此处无声

手机要闻

荣耀600系列手机开启新品预约

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版