昨晚有人花了0.19美元,让10个云端大模型干了10件正经事——不是刷LeetCode,而是文件解析、SQL查询、正则提取、异步HTTP请求这些代理真正会碰到的活儿。100次API调用,结果让付费用户有点坐不住。
谷歌Gemma 4:第二名的成绩,白菜价的开销
![]()
80%准确率,单次运行成本0.0005美元,唯一打不过的只有Claude。26B版本拿到78%,跟Mistral Large 3同档,价格只要四分之一。作者反复核对数字,因为"看着不像真的"——但数据没崩。
![]()
免费档逆袭:Gemini 2.5 Flash干翻GPT-5.4
谷歌免费层的Gemini 2.5 Flash拿下76%,OpenAI的GPT-5.4停在75%。更扎心的是速度:10个任务一共12秒,全场最快。没花钱的反而更快更准,这账怎么算?
Mistral:规模化部署的默认选项
Claude 98%的准确率,10%的成本,19秒跑完。0.002美元。如果正在搭代理系统,这是作者眼中的"默认配置"。
GPT-5.5:贵三倍,错四成
成本0.066美元,是Claude的三倍多,准确率58%。三个任务撞上token上限,输出冗长却没踩中评分模式。模型不差,只是不适合token预算紧张的代理场景。
MiniMax M2.7:完成的题全对,但交卷率六成
![]()
做完的6题97%准确率,比Claude还高。但4题直接挂零——强制内部推理烧光了输出预算,还没开始正经答题就耗尽额度。作者形容得很准:"聪明的同事,说着说着突然死机"。
Qwen:想对了,但想太久
77%准确率,574秒。Claude只要23秒,它要10分钟。思维链默认开启且无法完全关闭,精度在线, patience offline。
选型建议(直接抄)
要精度:Claude Sonnet 4
要性价比:Mistral Large 3
要白嫖:Gemma 4 31B
要速度:Gemini 2.5 Flash
代理场景绕道:GPT-5.5、MiniMax M2.7
原始数据和逐题得分挂在benchmarks.workswithagents.dev,每晚刷新。作者的原话:"因为你应该来挑刺"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.