网易首页 > 网易号 > 正文 申请入驻

最全横测!哪个大模型更适合养"龙虾"?GPT拉胯,MiniMax/Kimi惊喜

0
分享至

  

  
日前,Pinchbench更新了一份评测报告。

   该报告 通过标准化的 OpenClaw agent 测试任务,对不同大模型在真实任务中的成功率、成本和速度等,进行了横向对比。

  成功率指标看,排名最高的是 Google Gemini 3 Flash 系列,平均成功率达到 95.1%。紧随其后的是 MiniMax M2.1(93.6%) 和月之暗面Kimi K2.5(93.4%)。

  这三款模型都超过了 93%,说明在自动化任务执行能力上已经非常稳定。

  Anthropic Claude 系列表现也比较均衡。其中 Claude Sonnet 约 92.7%,Claude Haiku 90.8%,而 Claude Opus 4 在 88%—90% 左右。

  OpenAI 方面,GPT-5 Nano 成功率 85.8%,GPT-4o 为 85.2%,GPT-4o Mini 为 83.4%。虽然没有进入第一梯队,但稳定处于中上水平。

  国产模型里,Qwen3-Coder-Next 85.4%、GLM-4.5-Air 85.4%,整体表现也比较接近。

  

  把成本因素一起看,情况就更有意思了。

  成本榜单显示,完成一次标准任务 最便宜的模型是 GPT-5 Nano,仅约 0.03 美元。第二是 Gemini 2.5 Flash,约 0.05 美元,第三是 Mistral Devstral,约 0.10 美元。

  而高性能模型往往更贵,比如 Claude Sonnet 约 3.07 美元,Claude Opus 超过 5 美元。

  

   从“性能 vs 成本”的图来看, 最具性价比的区域集中在左上角 :成功率高,同时成本低。

  这个区域主要包括Gemini 3 Flash、MiniMax M2.1、Kimi K2.5、GPT-5 Nano

  其中 GPT-5 Nano虽然成功率不是最高,但因为价格极低,被认为是“最划算”的模型之一。

  

  速度方面则是另一套排名。

  最快的是 MiniMax M2.5,完成一次任务 约 105.96 秒。

  随后是 Gemini 2.0 Flash(106.05 秒) 和 Llama 3 系列(约 106 秒)。

  而一些性能更强的大模型明显更慢。例如GPT-4o 约 190 秒,Claude Sonnet 约 137 秒,Kimi K2.5 约 291 秒,DeepSeek V3 约 622 秒。

  这说明,模型越大、推理越复杂,速度往往越慢。

  

  综合这四个维度,可以看到大模型在养“龙虾”方面的一些特点。

  作为用户而言,通过评测结果大概可有的结论是:MiniMax-M2.1或Kimi K2.5极致性价比(成功率93%+,成本<$0.20,只是速度不太快);Claude Opus系列贵;GPT-5-Nano适合预算极低的简单任务。

  评测结果也能看到大模型的一些分化局面。

  比如,谷歌的Gemini和 Anthropic的Claude系列整体表现稳定,一如既往的靠谱。

   OpenAI 则比较让人意外 。比如在成功率上,中低端版本成绩尚可,高端的gpt-5.2却意外拉胯,未能达到预期。

   当然,其 在成本上依然有优势,GPT-5 Nano 以极低成本完成任务,是典型的高性价比模型。

   再如,MiniMax 和 Kimi 在成功率榜单中进入前三,说明国产模型在复杂任务执行能力上,已经非常接近国际顶级水平。

   还有就是,同品牌不同系列模型的适配效果差异显著,选择时需格外注意版本区别,丰俭由君。

   这也说明,不同模型的定位越来越清晰,有的追求极致性能,有的强调成本控制,还有的侧重速度,几乎没有模型能同时做到三个维度都最优。

   需要注意的是,本次评测的成绩均基于标准化测试,实际部署时还会受硬件配置、部署环境、任务类型等因素影响。

   此外,在部署OpenClaw的过程中,还需要关注官方提示的安全风险,做好权限配置、数据加密等安全防护。

  

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

阿器谈史
2026-04-02 15:33:03
山东一男婴日夜啼哭,母亲掀开被子后,将月嫂当场掐死

山东一男婴日夜啼哭,母亲掀开被子后,将月嫂当场掐死

罪案洞察者
2025-03-31 09:35:41
伊朗议长带四名遇难儿童照片赴美伊谈判,配文“我的飞行同伴们”;代表团又名“米纳卜168”;此前伊朗米纳卜市一小学遭袭,168名女童遇难

伊朗议长带四名遇难儿童照片赴美伊谈判,配文“我的飞行同伴们”;代表团又名“米纳卜168”;此前伊朗米纳卜市一小学遭袭,168名女童遇难

扬子晚报
2026-04-11 10:45:57
英媒爆料:两大突发状况出现,让大陆放弃2027武统转向和谈

英媒爆料:两大突发状况出现,让大陆放弃2027武统转向和谈

荷兰豆爱健康
2026-04-11 18:39:15
印度摊贩当街斩首货车司机! 提头照网上疯传 群众暴怒围殴酿双亡

印度摊贩当街斩首货车司机! 提头照网上疯传 群众暴怒围殴酿双亡

环球趣闻分享
2026-04-11 14:06:07
五台山高僧闭关3年,出关后说的8个字,让数千名弟子当场顿悟

五台山高僧闭关3年,出关后说的8个字,让数千名弟子当场顿悟

千秋文化
2026-03-26 21:07:48
越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:24:44
战绩联盟第一,球队老大预定MVP!挺无奈的,你们又要保底西决了

战绩联盟第一,球队老大预定MVP!挺无奈的,你们又要保底西决了

老梁体育漫谈
2026-04-12 01:03:49
她58岁仍是干净之身,至今没谈过恋爱,除非是最爱不然不会献身

她58岁仍是干净之身,至今没谈过恋爱,除非是最爱不然不会献身

小熊侃史
2026-02-15 07:30:10
广东4坏消息!关辛透露萨林杰伤情,心仪大外被抢,冲冠彻底无望

广东4坏消息!关辛透露萨林杰伤情,心仪大外被抢,冲冠彻底无望

后仰大风车
2026-04-11 07:10:23
终于知道采购吃回扣是怎么被发现的了,网友分享真实,太开眼了

终于知道采购吃回扣是怎么被发现的了,网友分享真实,太开眼了

夜深爱杂谈
2026-03-13 22:02:43
004航母核动力谜底揭开!放弃最新核反应堆,为何最终选这一动力

004航母核动力谜底揭开!放弃最新核反应堆,为何最终选这一动力

探史
2026-04-10 18:33:43
“保不住香港,我们以死谢罪!”,解密惊心动魄的香港经济保卫战

“保不住香港,我们以死谢罪!”,解密惊心动魄的香港经济保卫战

文史道
2025-02-18 20:31:56
红旗HS6 PHEV低调上市,17.88万起的中大型插混SUV到底值不值?

红旗HS6 PHEV低调上市,17.88万起的中大型插混SUV到底值不值?

EV世纪
2025-12-17 13:31:07
26.98万起+零百4.5秒!奥迪官宣:新车正式上市

26.98万起+零百4.5秒!奥迪官宣:新车正式上市

高科技爱好者
2026-04-11 22:55:58
活久见!持仓1617万,千万黄金持仓账户火爆全网,户主只买不卖…

活久见!持仓1617万,千万黄金持仓账户火爆全网,户主只买不卖…

火山詩话
2026-04-11 15:08:05
男子追求女技师被拒 反手举报浴场涉黄

男子追求女技师被拒 反手举报浴场涉黄

闪电新闻
2026-04-10 21:36:18
DJI把电机塞进自行车,1.5kg重量让传统厂商集体沉默

DJI把电机塞进自行车,1.5kg重量让传统厂商集体沉默

摸鱼算法
2026-04-11 08:15:33
俄寡头:普京将在一月内对乌发动核打击,发射一枚2万吨当量核弹

俄寡头:普京将在一月内对乌发动核打击,发射一枚2万吨当量核弹

安珈使者啊
2026-04-10 11:51:43
深圳即日起严查消防通道隐患,同步启动消防标识半年整治

深圳即日起严查消防通道隐患,同步启动消防标识半年整治

南方都市报
2026-04-10 20:15:57
2026-04-12 02:28:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
476文章数 70关注度
往期回顾 全部

数码要闻

一加Ace 6至尊版蓄势待发:榨干天玑9500 性能大爆发

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

亲子
家居
手机
本地
公开课

亲子要闻

孩子出现这些行为,不是早恋那么简单!

家居要闻

复古风格 自然简约

手机要闻

全球首款阔折叠卖爆!华为Pura X一年出货量超150万台

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版