网易首页 > 网易号 > 正文 申请入驻

最全横测!哪个大模型更适合养"龙虾"?GPT拉胯,MiniMax/Kimi惊喜

0
分享至

  

  
日前,Pinchbench更新了一份评测报告。

   该报告 通过标准化的 OpenClaw agent 测试任务,对不同大模型在真实任务中的成功率、成本和速度等,进行了横向对比。

  成功率指标看,排名最高的是 Google Gemini 3 Flash 系列,平均成功率达到 95.1%。紧随其后的是 MiniMax M2.1(93.6%) 和月之暗面Kimi K2.5(93.4%)。

  这三款模型都超过了 93%,说明在自动化任务执行能力上已经非常稳定。

  Anthropic Claude 系列表现也比较均衡。其中 Claude Sonnet 约 92.7%,Claude Haiku 90.8%,而 Claude Opus 4 在 88%—90% 左右。

  OpenAI 方面,GPT-5 Nano 成功率 85.8%,GPT-4o 为 85.2%,GPT-4o Mini 为 83.4%。虽然没有进入第一梯队,但稳定处于中上水平。

  国产模型里,Qwen3-Coder-Next 85.4%、GLM-4.5-Air 85.4%,整体表现也比较接近。

  

  把成本因素一起看,情况就更有意思了。

  成本榜单显示,完成一次标准任务 最便宜的模型是 GPT-5 Nano,仅约 0.03 美元。第二是 Gemini 2.5 Flash,约 0.05 美元,第三是 Mistral Devstral,约 0.10 美元。

  而高性能模型往往更贵,比如 Claude Sonnet 约 3.07 美元,Claude Opus 超过 5 美元。

  

   从“性能 vs 成本”的图来看, 最具性价比的区域集中在左上角 :成功率高,同时成本低。

  这个区域主要包括Gemini 3 Flash、MiniMax M2.1、Kimi K2.5、GPT-5 Nano

  其中 GPT-5 Nano虽然成功率不是最高,但因为价格极低,被认为是“最划算”的模型之一。

  

  速度方面则是另一套排名。

  最快的是 MiniMax M2.5,完成一次任务 约 105.96 秒。

  随后是 Gemini 2.0 Flash(106.05 秒) 和 Llama 3 系列(约 106 秒)。

  而一些性能更强的大模型明显更慢。例如GPT-4o 约 190 秒,Claude Sonnet 约 137 秒,Kimi K2.5 约 291 秒,DeepSeek V3 约 622 秒。

  这说明,模型越大、推理越复杂,速度往往越慢。

  

  综合这四个维度,可以看到大模型在养“龙虾”方面的一些特点。

  作为用户而言,通过评测结果大概可有的结论是:MiniMax-M2.1或Kimi K2.5极致性价比(成功率93%+,成本<$0.20,只是速度不太快);Claude Opus系列贵;GPT-5-Nano适合预算极低的简单任务。

  评测结果也能看到大模型的一些分化局面。

  比如,谷歌的Gemini和 Anthropic的Claude系列整体表现稳定,一如既往的靠谱。

   OpenAI 则比较让人意外 。比如在成功率上,中低端版本成绩尚可,高端的gpt-5.2却意外拉胯,未能达到预期。

   当然,其 在成本上依然有优势,GPT-5 Nano 以极低成本完成任务,是典型的高性价比模型。

   再如,MiniMax 和 Kimi 在成功率榜单中进入前三,说明国产模型在复杂任务执行能力上,已经非常接近国际顶级水平。

   还有就是,同品牌不同系列模型的适配效果差异显著,选择时需格外注意版本区别,丰俭由君。

   这也说明,不同模型的定位越来越清晰,有的追求极致性能,有的强调成本控制,还有的侧重速度,几乎没有模型能同时做到三个维度都最优。

   需要注意的是,本次评测的成绩均基于标准化测试,实际部署时还会受硬件配置、部署环境、任务类型等因素影响。

   此外,在部署OpenClaw的过程中,还需要关注官方提示的安全风险,做好权限配置、数据加密等安全防护。

  

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
定价仅299刀!苹果全新Mac mini Neo来了,或改写PC市场格局

定价仅299刀!苹果全新Mac mini Neo来了,或改写PC市场格局

叮当当科技
2026-04-30 13:22:13
雨雨雨+8级阵风即将抵达天津!五一最高体感温度升至30℃!

雨雨雨+8级阵风即将抵达天津!五一最高体感温度升至30℃!

天津生活通
2026-05-01 18:20:46
退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

混沌录
2026-04-22 19:51:07
在中国有100万存款,算什么水平?银行员工“直言不讳”

在中国有100万存款,算什么水平?银行员工“直言不讳”

王二哥老搞笑
2026-04-26 13:59:23
小兵救了秦始皇的命,秦问他要何赏赐?小兵:就赏我五十个美女吧

小兵救了秦始皇的命,秦问他要何赏赐?小兵:就赏我五十个美女吧

抽象派大师
2026-04-29 00:13:32
释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

江山挥笔
2026-03-23 15:40:31
“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

妍妍教育日记
2026-04-15 09:30:09
男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

诡谲怪谈
2025-04-01 17:37:59
小米汽车公布最新成绩单:4月交付量突破30000台!

小米汽车公布最新成绩单:4月交付量突破30000台!

快科技
2026-05-01 11:47:22
孙杨风波再发酵!家境被扒底朝天,父母身份曝光,马頔的话没说错

孙杨风波再发酵!家境被扒底朝天,父母身份曝光,马頔的话没说错

一盅情怀
2026-05-01 16:20:21
人到中年才明白:伴侣的“疏远”和“沉默”,看似是感情变淡,实则是生活在逼你,让你看清这2个生活的真相

人到中年才明白:伴侣的“疏远”和“沉默”,看似是感情变淡,实则是生活在逼你,让你看清这2个生活的真相

心理观察局
2026-05-01 17:36:26
海关查获7个女王凤凰螺,内藏宝珠曾卖2400万!至今人工无法养殖

海关查获7个女王凤凰螺,内藏宝珠曾卖2400万!至今人工无法养殖

狸猫之一的动物圈
2026-04-30 11:45:54
伊朗最高领袖致辞

伊朗最高领袖致辞

扬子晚报
2026-04-30 20:46:28
恒大退薪名单实锤!200多名高管排队退钱!

恒大退薪名单实锤!200多名高管排队退钱!

樱桃大房子
2026-04-30 21:58:10
深圳凌晨一声巨响炸醒全城!0点25分那一下,你被吓醒了吗?

深圳凌晨一声巨响炸醒全城!0点25分那一下,你被吓醒了吗?

据说说娱乐
2026-04-30 20:21:43
实力说话!泽连斯基态度突变非常强势

实力说话!泽连斯基态度突变非常强势

名人苟或
2026-04-30 22:35:43
女婿和岳母独自在家,半夜误进岳母房间,却看到她不为人知的秘密

女婿和岳母独自在家,半夜误进岳母房间,却看到她不为人知的秘密

林林故事揭秘
2025-04-02 16:35:44
或许我们冤枉了唐僧,三打白骨精时,孙悟空被赶走完全是咎由自取

或许我们冤枉了唐僧,三打白骨精时,孙悟空被赶走完全是咎由自取

大运河时空
2026-05-01 20:00:03
钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

削桐作琴
2025-12-10 16:53:18
央八40集现实大剧《奉陪到底》来袭!双雄飙戏,直击民生痛点

央八40集现实大剧《奉陪到底》来袭!双雄飙戏,直击民生痛点

阿废冷眼观察所
2026-05-01 19:59:56
2026-05-01 20:31:00
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
496文章数 71关注度
往期回顾 全部

数码要闻

三星T7存储卡发售:提供128GB至1TB可选,329元起

头条要闻

特朗普发了张图 伊朗外长回应:犯了个"可怕的错误"

头条要闻

特朗普发了张图 伊朗外长回应:犯了个"可怕的错误"

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

本地
旅游
房产
教育
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

旅游要闻

民宿以“蛇很多”为由劝退预订客户,官方:双倍赔付

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

教育要闻

26届高考生“撞大运”了!截至目前,今年高考已有9个好消息!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版