网易首页 > 网易号 > 正文 申请入驻

免费模型10战全胜,付费的却翻车4次

0
分享至

凌晨三点,你的AI代理又崩了。不是算法问题,是模型选错了。

一位开发者最近做了件狠事:把5个大语言模型扔进真实的代理编码场景,不是刷LeetCode,不是玩问答游戏。任务是解析JSON配置、用shell单行命令找大文件、修复有bug的合并函数、写并发HTTP抓取器——就是那种你的代理半夜三点会要的活儿。


规则很残酷:每道题按模式匹配打分,输出里有没有正确的函数名、错误处理、边界情况?75%以上算通过,50%-74%算部分通过,以下算失败。所有模型都不知道自己被测试,同样的提示词,同样的500 token上限,温度0.1,全部走OpenRouter调用。


结果让付费用户有点难受。

DeepSeek全程返回HTTP 400,是OpenRouter的兼容性问题,不是模型本身的锅,作者直接把它排除,没算零分。

真正上场的是Gemini 2.5 Flash、GPT-5.5和Claude Sonnet 4。

谷歌的Gemini 2.5 Flash拿了满分:10道题全部通过,没有一题掉下75%。总成本0.008美元——比单次GPT-5.5调用还便宜。速度是对手的6倍。免费档就能用。

OpenAI的GPT-5.5翻了4道题。毛病很一致:话太多。那道shell单行命令题,它回了500 token的散文,从find命令的历史讲到各种选项,就是没给实际命令。CSV统计题更离谱,讨论了三种方案,代码一行没写。作者的原话是:GPT-5.5是他用过推理最强的模型,但写代码时的冗长直接致命。

Anthropic的Claude Sonnet 4是最稳的:8题满分,2题部分通过,零失败。那2道部分通过的也是shell题,用的语法没错,只是没对上作者预期的模式。10道题花0.063美元,平均每道0.006美元,作者称之为"生产级代理的 premium 选择"。

给正在搭代理的人划个重点:

要性价比——Gemini 2.5 Flash。有免费额度,10战全胜,够快。

要稳妥——Claude Sonnet 4。零翻车,每道题6美分,值。


写代码别用——GPT-5.5。推理确实强,留它做架构决策,shell脚本就算了。

作者自己也说,这不是什么全面基准测试。10道题,各跑一遍,模式匹配打分,样本量有限。但关键是真实——这些题就是他的代理每天实际跑的,不是论文里那种为刷分设计的合成 benchmark。

下一步他想测错误恢复。这次5个模型都在理想路径上表现正常,但他想知道遇到部分失败、矛盾指令、损坏输入时怎么办。对代理来说,重要的不是"能不能排序",是"文件系统只读、配置丢失时能不能救回来"。

整个实验花了0.2美元。完整结果挂在 workswithagents.dev。

一个有趣的细节:作者没测DeepSeek的得分,但也没让它背锅——兼容性问题归基础设施,不归模型。这种区分在当下的AI讨论里挺少见的。

另一个值得琢磨的点:GPT-5.5的"过度解释"问题。这不是第一次有人抱怨OpenAI的模型话痨,但在编码场景里,token预算就是硬约束。500 token上限下,一篇关于find命令的散文直接挤掉了实际答案的空间。推理能力和输出效率,看来确实是两回事。

Claude的"部分通过"也很有意思——语法正确,但模式不匹配。这暴露了自动化评分的一个盲区:人的意图和机器的执行之间,永远有层翻译损耗。

最便宜的那个赢了。这在AI领域不算新闻,但每次发生,都会重新撕开一个问题:我们到底在为模型的什么能力付费?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东入夏湿气重!要多喝这款老广靓汤,清甜润口,喝完清爽不黏腻

广东入夏湿气重!要多喝这款老广靓汤,清甜润口,喝完清爽不黏腻

房产衫哥
2026-05-10 12:11:03
为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

夜深爱杂谈
2026-04-27 22:11:39
伦敦世乒赛收官:3位选手满分,1人表现欠佳,1人仅达标

伦敦世乒赛收官:3位选手满分,1人表现欠佳,1人仅达标

晓岇就是我
2026-05-11 11:48:15
美媒:中国不可怕,可怕的是中国只用10万头猪,就解决了治沙难题

美媒:中国不可怕,可怕的是中国只用10万头猪,就解决了治沙难题

北纬的咖啡豆
2026-04-12 19:15:01
王晓晨刘浩存同框,展现张艺谋选角眼光有多毒辣

王晓晨刘浩存同框,展现张艺谋选角眼光有多毒辣

落雪听梅a
2026-05-09 09:37:16
泰王的妻妾同框:王后优雅,贵妃颜值回春,3位小主年轻貌美

泰王的妻妾同框:王后优雅,贵妃颜值回春,3位小主年轻貌美

小书生吃瓜
2026-05-08 19:25:35
知情人士透露伊朗对美回应内容要点

知情人士透露伊朗对美回应内容要点

界面新闻
2026-05-11 09:25:19
赖昌星的情人蔡玲玲:悔不该委身于他,58岁的她现状如何?

赖昌星的情人蔡玲玲:悔不该委身于他,58岁的她现状如何?

细品名人
2026-04-29 07:06:35
老人不死,子孙遭罪?如果家有八九十岁双亲还在,要牢记这两条准则

老人不死,子孙遭罪?如果家有八九十岁双亲还在,要牢记这两条准则

心理观察局
2026-05-05 09:24:14
最新民调出炉,“共和党要慌”

最新民调出炉,“共和党要慌”

观察者网
2026-05-11 13:22:08
国企干4年,公积金账户躺了10万块!算了一笔账,我彻底坐不住了

国企干4年,公积金账户躺了10万块!算了一笔账,我彻底坐不住了

阿离家居
2026-05-11 12:48:51
中方一锤定音,特朗普访华3天!抢在最后时刻,美突然做出新安排

中方一锤定音,特朗普访华3天!抢在最后时刻,美突然做出新安排

晓楖科普
2026-05-11 12:14:02
《新闻联播》大换血,李梓萌康辉退居幕后,四代接班人悄然就位

《新闻联播》大换血,李梓萌康辉退居幕后,四代接班人悄然就位

阿纂看事
2026-04-25 13:48:54
10-4!奥沙利文大胜登顶:打败2冠名将夺冠,创3纪录,获28万奖金

10-4!奥沙利文大胜登顶:打败2冠名将夺冠,创3纪录,获28万奖金

刘姚尧的文字城堡
2026-05-11 07:20:38
被捕9个月后,释永信再迎噩耗,4大罪名坐实,最后的体面都没了

被捕9个月后,释永信再迎噩耗,4大罪名坐实,最后的体面都没了

好贤观史记
2026-03-21 17:07:15
这才是让人疯狂的好身材!肉肉的超可爱,看了就忍不住想抱抱!

这才是让人疯狂的好身材!肉肉的超可爱,看了就忍不住想抱抱!

情感大头说说
2026-05-11 11:06:25
盐城男子车祸去世,保单金额凭空对半砍,家属质疑:签名是假的,贷款是懵的,利息还一直滚?

盐城男子车祸去世,保单金额凭空对半砍,家属质疑:签名是假的,贷款是懵的,利息还一直滚?

盐城市民网
2026-05-11 11:41:17
人类意志能扛住酷刑吗?真相远比想象残酷

人类意志能扛住酷刑吗?真相远比想象残酷

三农老历
2026-05-11 09:19:46
赖清德没料到,曾扬言与华断交,转向台北的洪都拉斯总统,改口了

赖清德没料到,曾扬言与华断交,转向台北的洪都拉斯总统,改口了

透视到底
2026-05-11 13:26:36
5月1日起!全院一张床全国落地,住院再也不用托关系

5月1日起!全院一张床全国落地,住院再也不用托关系

牛锅巴小钒
2026-05-09 15:51:16
2026-05-11 14:03:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2486文章数 26关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:特朗普确定本周访华 中美在东亚有个共同的敌人

头条要闻

媒体:特朗普确定本周访华 中美在东亚有个共同的敌人

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

谢霆锋没想到,王菲靠张艺谋重返巅峰

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

全球化成国内车企未来胜负手,谁是出海最强"水手"?

态度原创

游戏
房产
教育
旅游
本地

71元买下上千元的手柄!日本玩家血赚操作实在太羡慕

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

教育要闻

高中持续扩招,录取位次面临“大洗牌”,家长不用慌了?

旅游要闻

核心路线!四川剑门关空气清新氧气充足,一夫当关千年一叹!

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版