当地时间3月7日,OpenClaw 创始人 Peter Steinberger 在平台X上分享龙虾基准测试排行榜。PinchBench 测试了32款主流大模型,从成功率、速度、费用三个维度,测试哪个模型最适合养龙虾。
排行榜显示,谷歌(GOOGL.US)的Gemini 3 Flash Preview 以95.1% 的成功率夺冠,其次是国产模型 MiniMax M2.1,成功率93.6%,战胜 Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)等一众国际大模型。
Kimi K2.5则以93.4%的成功率紧随其后,位居第三。至此,国产双雄直接占据了 TOP3的两个席位。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.