网易首页 > 网易号 > 正文 申请入驻

10款大模型实测:免费版跑赢付费,谷歌黑马杀出

0
分享至

昨晚有人花了0.19美元,把10个云端大模型扔进真实的编程任务里溜了一圈。不是LeetCode那种刷题场景,是文件解析、SQL查询、正则提取、异步HTTP请求——AI代理真正会干的活。100次API调用后,结果和所有人想的不一样。

最便宜的模型拿了第二,免费的比付费的强,而那个万众期待的新版本,翻车了。


先说排名。Claude Sonnet 4以82%的准确率坐稳头把交椅,23秒完成全部任务,单次成本0.019美元。这不算意外,意外的是第二名——Google的Gemma 4 31B,准确率80%,几乎免费(0.0005美元/次),只比Claude低2个百分点。


更离谱的是Gemma的26B版本,准确率78%,和Mistral Large 3同档,价格只有后者的四分之一。测试者Vilius Vystartas说他反复核对数字,因为"看起来不合理",但数据确实成立。

免费层级的厮杀更戏剧性。Google的Gemini 2.5 Flash准确率76%,压过了OpenAI的GPT-5.4(75%)。而且Flash是最快的——10个任务总共12秒,还不要钱。

价值之王是Mistral Large 3。98%的Claude准确率,10%的成本(0.002美元),耗时19秒。Vystartas的原话:"如果你在大规模搭建代理,这就是你的默认选项。"

GPT-5.5的表现则堪称灾难。成本是Claude的3倍(0.066美元),准确率却只有58%。三个任务因为输出过于冗长,触发了token上限,完全错过评分模式。Vystartas的评价很直接:不是模型差,是不适合token预算紧张的代理场景。

MiniMax M2.7是另一个极端。完成的6个任务准确率97%,比Claude还高;但剩下4个任务彻底失败,零分。问题出在强制内部推理——还没开始输出,token预算就被烧光了。Vystartas的比喻很精准:"一个才华横溢的同事,随机在句子中间冻住。"

Qwen的问题是速度。77%的准确率不差,但574秒的耗时意味着10分钟——Claude只要23秒。链式思考(chain-of-thought)默认开启且无法完全关闭,准确率保住了,时间没了。


最终建议清单很清晰:

要准确率选Claude Sonnet 4;要性价比选Mistral Large 3;要免费选Gemma 4 31B;要速度选Gemini 2.5 Flash;代理场景避开GPT-5.5和MiniMax M2.7。

完整数据和方法论挂在benchmarks.workswithagents.dev,每晚刷新。Vystartas在文末留了一句话:"因为你应该来挑刺。"

这场测试的讽刺之处在于,我们习惯了用参数规模和发布会PPT判断模型强弱,但真实的代理场景里,token效率、输出控制和成本结构才是生死线。Gemma 4用26B参数干翻了一堆千亿级对手,MiniMax证明了"聪明"和"可用"是两回事,而GPT-5.5的翻车说明——贵,不等于对。

当模型能力进入平台期,工程细节开始决定一切。谁能用更少的token完成同样的任务,谁能在严格的上下文窗口里保持稳定输出,谁才能真正跑通商业闭环。这场0.19美元的测试,可能比任何基准排行榜都更接近真相。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

游民星空
2026-05-10 17:44:13
安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

法老不说教
2026-05-09 15:11:16
心脏决定寿命?劝告中老年别太节俭,多吃这3样,心脏越吃越年轻

心脏决定寿命?劝告中老年别太节俭,多吃这3样,心脏越吃越年轻

芹姐说生活
2026-05-11 13:29:00
2-0领先遭拖入抢五拒逆转!17岁张本美和破魔咒:王曼昱仰天长啸

2-0领先遭拖入抢五拒逆转!17岁张本美和破魔咒:王曼昱仰天长啸

颜小白的篮球梦
2026-05-10 19:01:48
夺冠后,马琳哭了!王曼昱哭了!陈熠也哭了!三人会各自续写传奇

夺冠后,马琳哭了!王曼昱哭了!陈熠也哭了!三人会各自续写传奇

老糿尾声体育解说
2026-05-11 14:01:27
年报临时改、突然戴*ST!12.5万散户被闷杀,连吃6跌停

年报临时改、突然戴*ST!12.5万散户被闷杀,连吃6跌停

财经智多星
2026-05-11 12:05:34
香港拿下世界杯转播仅1天,炸出一堆牛鬼蛇神,李嘉诚恐进退两难

香港拿下世界杯转播仅1天,炸出一堆牛鬼蛇神,李嘉诚恐进退两难

混沌录
2026-05-10 19:42:39
心理学有个发现:下等的挽回,是纠缠;中等的挽回,是断联;顶级的挽回,是让对方做这两件事

心理学有个发现:下等的挽回,是纠缠;中等的挽回,是断联;顶级的挽回,是让对方做这两件事

心理观察局
2026-05-11 09:07:16
炸锅!穆里尼奥回归皇马条件曝光,5 大球星要被扫地出门

炸锅!穆里尼奥回归皇马条件曝光,5 大球星要被扫地出门

奶盖熊本熊
2026-05-11 00:35:03
第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

澎湃新闻
2026-05-09 21:40:28
春节草原自驾游,一老牧民开口:远离年轻的寡妇,她住金色蒙古包

春节草原自驾游,一老牧民开口:远离年轻的寡妇,她住金色蒙古包

小月故事
2026-02-27 16:24:24
9500万欧蒸发!愤怒拉满,利物浦亿元强援为何集体失灵

9500万欧蒸发!愤怒拉满,利物浦亿元强援为何集体失灵

姜来不加盐
2026-05-11 15:57:21
军事 | 俄乌冲突当真要结束?普京对泽连斯基之语有点“情调”?

军事 | 俄乌冲突当真要结束?普京对泽连斯基之语有点“情调”?

新民周刊
2026-05-11 09:08:54
蒋介石晚年坦言:败退台湾无悔,此生最大不甘就是听了斯大林此言

蒋介石晚年坦言:败退台湾无悔,此生最大不甘就是听了斯大林此言

芳芳历史烩
2026-05-04 01:43:43
西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

千言娱乐记
2026-05-11 14:49:45
官宣了,特朗普即将访问中国,访问时间加长!

官宣了,特朗普即将访问中国,访问时间加长!

阿龙聊军事
2026-05-11 10:48:35
刘翔的终身合同有多牛?退役 10 年不上班,照样环游世界

刘翔的终身合同有多牛?退役 10 年不上班,照样环游世界

橙星文娱
2026-05-10 11:55:24
舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

寒士之言本尊
2026-01-28 16:12:08
菲副总统弹劾案全票通过!杜特尔特已备好后手,马科斯算盘恐落空

菲副总统弹劾案全票通过!杜特尔特已备好后手,马科斯算盘恐落空

透视到底
2026-05-11 00:38:00
赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,但素颜却没有那么美

赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,但素颜却没有那么美

阿废冷眼观察所
2026-05-11 00:49:20
2026-05-11 16:31:00
码上闲叙
码上闲叙
有态度网友ytd
3683文章数 43关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

本地
手机
时尚
教育
公开课

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

华为Mate 80系列卖爆:销量逼近600万大关 史上最火Mate实至名归

衬衫四季都能穿!简约大方适合日常穿搭,配裤子、裙子都好看

教育要闻

鸡娃放养,都不如养个“晨型人格”的孩子,他会自信又自律

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版