网易首页 > 网易号 > 正文 申请入驻

Claude Sonnet 5 上线一日差评刷屏:打不过千问和 Minimax,性价比全面翻车

0
分享至


一张中文测评图把Claude Sonnet 5送上风口浪尖。

作者丨高允毅

编辑丨马晓宁

Claude Sonnet 5才发布了一天,网上已经吵翻天——几乎全是差评。

Anthropic把它定位为“迄今最具 Agent 能力的 Sonnet”,甚至直接说它在大量智能体任务上已经接近旗舰 Opus 4.8,价格只有Opus 的四折。

听起来,这就是来给开发者送温暖的:更强的Agent、更便宜的API、更长的上下文、更稳的安全对齐。

但剧情没有按官方剧本走。

发布不到 24 小时,一张来自 GitHub 的跑分截图开始在中文技术圈疯传。这个项目叫LLM Benchmark Dashboard,是个人私有题库,主要在逻辑、数学、编程、人类直觉等高难度硬核推理问题上,测模型在深度思考、长思维链(Reasoning)模式下的表现。


在这场考核中,被寄予厚望的 Sonnet 5 不仅没能碾压全场,反而暴露出一个致命弱点:极度拉胯的性价比。

经过仔细对比,我们可以看到三个关键事实:

第一,极限分数上 Sonnet 5 丢掉了绝对统治力。在这套硬核逻辑题里,MiniMax-M3 跑出了 61.95 的高分拔得头筹,而 Qwen3.7-Plus 也在极限分上与 Sonnet 5 死死打平。这意味着国产推理大模型在纯逻辑的较量上,已经有能力和硅谷顶流平起平坐。

第二,测试成本完全不在一个量级。这是对比中最刺眼的地方。Sonnet 5 跑完同一套测试花了 71.96 元,而 Qwen 只要 11.71 元,MiniMax 只要 11.64 元。Sonnet 5 的账单是国产模型的 6 倍还多。 如果真按这个比例大规模调用,企业的商业落地成本根本难以承受。

第三,耗时最短,但在这里可能并不是好事。Sonnet 5 平均耗时仅 404 秒,远快于 Qwen 的 1156 秒和 MiniMax 的 887 秒。这说明它的 Token 吐出速度确实快。

但在面对极难逻辑题时,“快”往往意味着思考不够深。显然,Sonnet 5 的思维链(CoT)堆叠得不够厚,自我纠错预算受限,导致它在真正需要“绞尽脑汁”的地方,没能靠算力把极限分拉开。

也难怪网友看完第一反应如此真实:

“这不是能力不行,这是性价比不行。”

不过也要说明,这毕竟是一家个人维护的私有题库,覆盖面和命题风格都有特定偏向。它不能代表 Sonnet 5 的全部能力,但在中文开发者关心的“纯逻辑攻坚”场景下,确实暴露了一个问题:在越来越卷的推理赛道里,Sonnet 5 不再是那个“闭眼选”的答案。


01


平替 Opus?拉倒吧

Anthropic 给 Sonnet 5 设定的官方叙事,原本非常清晰:Agent 能力大升级,价格却只要旗舰的四折。

为了拉拢开发者,官方甚至直接“发糖”:2026 年 8 月 31 日前限时特惠,API 输入只要 2 美元 / 百万 token。(活动结束后恢复 3 美元 )

面对这波疯狂暗示,全球社区的反馈却分成了“三派”。

▎“吹爆派”表示,Sonnet 5 在多步 Agent 和工程编程能力上,确实顶到了天花板

在 Reddit 的开发者社区里,大量高强度手搓代码的程序员发来贺电,惊叹于它在复杂后端开发、多文件重构上的统治力。

有开发者在体验后留下了这样一句高赞评价:“它只用了一会儿,就修复了一个把最新旗舰 Opus 4.8 卡了好几天的严重 Bug。拿到了 Opus 的智商,却只收 Sonnet 的价格。”

这种强大的自主行动力本就是它的强项。在Claude Code 终端工具全新升级后,Sonnet 5 能够自主进行工作流规划、输出自检,并能熟练调用终端和浏览器。

在极具含金量的 SWE-bench Pro 官方跑分中,Sonnet 5拿下了63.2%,直逼Opus 4.8 的 69.2%;而在主力编程工具 Cursor 发布的真实测试里,Sonnet 5 在 CursorBench 上的得分从前代 Sonnet 4.6 的 49% 一路暴涨到了 57%。

这意味着在实际研发场景中,它已经有能力在没有人类实时干预的情况下,独立搞定超过一半的多文件复杂重构任务。

还有一位中文开发者实测了三个任务,分别是跨文件配置迁移、写 API 中间件和重构 200 行工具函数。

结果前两个任务完美通关, Sonnet 5还会主动跑测试,但在第三个任务“重构 200 行工具函数”上却翻了车。但根本原因并不是代码能力不行,而是项目没写测试框架版本,模型只好“凭感觉盲开”。

当然,它离“全能”还差得远。技术大佬 Simon Willison 吐槽,Sonnet 5在组合工具调用时经常卡壳,冷知识问答也全凭运气。最逗的是代码渲染翻车现场,本想让它画一只“骑自行车的鹈鹕”,它硬是给“指鸟为鹅”,画了只大白鹅出来。

▎吐槽派则认为Sonnet 5的Max 推理模式是个“账单刺客”

如果说Sonnet 5基础能力让人惊喜,那它特意设计的Max 推理模式,直接把开发者看傻了。 官方初衷原本是希望模型进行更深度的推理。但实测发现,这玩意儿极度容易陷入高成本的“过度思考”。 有个网友神评论:“它思考了整整一个世纪,烧光了我的额度,最后就吐出那么短一句话。”

在 Agent 自主规划场景下,Sonnet 5 的调用轮次比上一代翻了 3 倍,输出 Token 膨胀了 40%。

有网友掏出计算器一算,如果按标准定价,用 Sonnet 5 完成一个长程智能任务要花 2.29 美元;而用上一代的Opus 4.8,只要 1.80 美元,直接贵了 15%。

而且,Anthropic 这次玩了个“暗度陈仓”,悄悄换了新的分词器(Tokenizer)。导致同样一段文本,现在的 Token 数量会直接膨胀最高 35%。有网友总结,“价格看着没变,账单直接涨飞了”。

当“话痨模型”遇上“计费通胀”,直接让 ToB 企业大破防。

Uber刚给 5000 名工程师开通 Claude Code 试用,结果重度用户的人均月度账单直接飙到了 500–2000 美元。短短四个月,全年的 AI 编程预算被硬生生烧光,逼得 Uber CTO 紧急踩刹车,宣布重新评估财务模型。

无独有偶,微软最核心的 Windows 与 M365 团队也扛不住了。据曝他们将在 2026 年 6 月全员停用 Claude Code,全面迁回自家的 GitHub Copilot,只为了控住那极其离谱的 Token 成本。

▎观望派表示,不如国产模型,建议跳过

在中文技术圈和 X 上,不少网友直接把它跟 GLM-5.2、MiniMax-M3、DeepSeek V4 Pro 对比。

比能力?两者几乎持平。拼价格?价差最高 56 倍。

专注 AI 基准测试的 LisanBench 创始人直接在 X 上辣评,帖子浏览量瞬间突破67万:“Sonnet 5 应该被扔进垃圾桶,它比 DeepSeek贵了整整 57 倍。”


更夸张的是一组来自国内开发者的真实跑账对比:有人用国产 DeepSeek 跑一整天工作流,Token 消耗超过 2400 万,账单仅 11.73 元人民币;而同一天用中转站调 Claude,花了 1700 元人民币。

11 块 vs 1700 块,差了 145 倍。 这已经不是“性价比”层面的较量了,这根本就是两个世界的定价体系。


02


争议核心:成也推理,败也推理

在这些争议的核心,Sonnet 5的推理能力是另一个值得关注的话题。 一方面,它在Agent场景中表现出色,展现了极强的自主规划、工具调用及多文件协作能力。它更像是能自主解决问题的“虚拟程序员”,场景越复杂,它的价值越高,展现了它在“慢思考”的真正实力。

但另一方面,它在逻辑推理和考试型任务上,无论是极限能力,还是性价比,不如国产模型。

归根结底,也是因为它的Max 推理模式“用力过猛”。 在追求最高性能时,高延迟和高成本使得在该模式下进行简单推理往往得不偿失。

Hacker News 的技术大佬 doctoboggan去扒出了 Anthropic 官方的“成本-性能散点图”后,证实了一个结论:

“在同等花销下,Opus 4.8 的表现反而更好!”


03


太“乖”也是一种翻车

除性能与定价争议外,Sonnet 5 过度保守,也成为开发者集中吐槽的一大短板。

官方不仅自曝家丑,表示为了防止潜在滥用,模型被硬生生塞进了一个“道德审查器”。面对一些技术请求,它有时不仅不帮忙,还加大了对用户的“说教”。

Anthropic还在发布会大肆宣传:看!Sonnet 5 在“编写 Firefox 漏洞利用代码(Exploit Development)”的测试中,考了零分!

结果直接把 Hacker News 上的极客工程师们看笑了,网友们纷纷无情嘲讽:

“这就像一家安全公司在骄傲地宣布:看,我们故意让这个模型变笨、变残废了,这样它就肯定不会惹麻烦。”

对于需要进行网络安全攻防演练、黑盒测试的白帽子工程师来说,这种过度安全对齐不仅没有保护任何人,反而直接让工具失去了原本该有的实用价值。

太“乖”的 Claude,也是一种翻车。


04


性价比成为共识的追求

Claude Sonnet 5 到底翻没翻车?这取决于你拿它干什么,以及你愿不愿意为它高昂的账单买单。


如果你的核心痛点是 Agent 智能体编程、复杂后端工程重构、多文件长程协同,它大概率依然会让你感到惊喜。

但如果你只是想跑一些中文硬核逻辑题、做日常知识问答、或者在预算有限的情况下追求极致性价比,那它的表现和疯狂燃烧的 Token 账单,可能完全对不起它的身价。

过去两年,所有人比拼的都是“谁更聪明、谁的基准分更高”;而现在的技术圈与企业界,大家都在拿着算盘计算“谁更划算、谁的商业落地成本更低”

当国产 DeepSeek 级别的高级推理任务综合成本只要 0.04 美元,而 Sonnet 5 在 Max 模式下要花 2.29 美元时,跑分榜上那一两分的微弱差距,已经根本无法支撑起高达56倍的恐怖价差。

大模型赛场,已经不再是Anthropic 想怎么定价,开发者就得怎么掏钱的时代了。

对于正处于算力与预算双重焦虑中的普通开发者而言,或许最想问的是:我为 AI 烧进去的每一分真金白银,真的都买到了对应价值的‘智能’吗?

希望 Claude 能好好回答这个问题。



上车,雷峰网带你看遍全球 AI 顶会精华

可独家畅览:

专家演讲PPT

大会报告全文

热门论文解读

学术新星访谈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯16强已确定10席!3个东道主全部晋级,1/8决赛5组对决出炉

世界杯16强已确定10席!3个东道主全部晋级,1/8决赛5组对决出炉

我爱英超
2026-07-02 10:09:52
意大利知名造型师评世界杯将帅穿搭,C罗得0分,“金钱买不到好品味” 梅西得8分

意大利知名造型师评世界杯将帅穿搭,C罗得0分,“金钱买不到好品味” 梅西得8分

红星新闻
2026-07-02 15:17:18
一等功臣郭兴福灭门案始末

一等功臣郭兴福灭门案始末

河山历史
2026-07-02 12:02:19
菲防长终于知道痛了,公开表示希望与中国友好沟通,中方已读不回

菲防长终于知道痛了,公开表示希望与中国友好沟通,中方已读不回

生活魔术专家
2026-07-02 18:28:42
央视披露:某机关工作人员刘某某,在境外间谍亮明身份的情况下,仍受其指挥实施间谍行为、搜集单位红头涉密文件,被依法采取强制措施

央视披露:某机关工作人员刘某某,在境外间谍亮明身份的情况下,仍受其指挥实施间谍行为、搜集单位红头涉密文件,被依法采取强制措施

政知新媒体
2026-07-02 20:44:17
西安警方通报:3人发布涉赛格坠楼事件谣言被处罚

西安警方通报:3人发布涉赛格坠楼事件谣言被处罚

现代快报
2026-07-02 21:37:08
WTT大满贯战报:再爆大冷国乒3单不敌日本5单,国乒男单5人出局了

WTT大满贯战报:再爆大冷国乒3单不敌日本5单,国乒男单5人出局了

求球不落谛
2026-07-02 10:33:07
世界杯决赛墨西哥VS葡萄牙?《辛普森一家》的“神预测”又火了

世界杯决赛墨西哥VS葡萄牙?《辛普森一家》的“神预测”又火了

红星新闻
2026-07-02 17:48:29
泰山被曝用135公里刀片刺绳隔离网围山,泰山景区最新回应:接受批评,与正常游览路线不交叉不重叠

泰山被曝用135公里刀片刺绳隔离网围山,泰山景区最新回应:接受批评,与正常游览路线不交叉不重叠

大象新闻
2026-07-02 09:55:29
人民日报怒批机关事业单位的三大怪状,引基层人员共鸣!

人民日报怒批机关事业单位的三大怪状,引基层人员共鸣!

职场资深秘书
2026-07-02 20:30:35
法国队内讧!世界杯天才当众无视主教练,德尚脸都黑了!

法国队内讧!世界杯天才当众无视主教练,德尚脸都黑了!

奶盖熊本熊
2026-07-02 01:13:00
Shams:布朗7月底可续2年1.42亿 绿军用交易表达态度

Shams:布朗7月底可续2年1.42亿 绿军用交易表达态度

北青网-北京青年报
2026-07-02 20:02:01
被大佬当“玩物”,孕期注射药物百次,最美 “三圣母”落魄至此

被大佬当“玩物”,孕期注射药物百次,最美 “三圣母”落魄至此

文刀贰
2026-07-02 23:19:57
中国男篮世预赛12人名单出炉!庞峥麟首次入选,徐昕获郭士强重用

中国男篮世预赛12人名单出炉!庞峥麟首次入选,徐昕获郭士强重用

老叶评球
2026-07-02 21:45:24
现场上座率超99%!2026世界杯改写历史,48队赛制成最大商业胜利

现场上座率超99%!2026世界杯改写历史,48队赛制成最大商业胜利

热血体育社
2026-07-02 00:47:42
罕见露脸!郭富城小女儿正脸彻底曝光,全网看清真实长相

罕见露脸!郭富城小女儿正脸彻底曝光,全网看清真实长相

东方不败然多多
2026-07-02 15:11:27
京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

知法而形
2026-07-01 23:22:31
马斯克怒了!德国女教师号召白人绝育,“让难民来填充欧洲”

马斯克怒了!德国女教师号召白人绝育,“让难民来填充欧洲”

全球吃瓜现场
2026-07-01 19:21:07
博主曝上海400元自助,海胆畅吃变限量,店长多次冷笑,网友炸锅

博主曝上海400元自助,海胆畅吃变限量,店长多次冷笑,网友炸锅

另子维爱读史
2026-07-02 20:46:17
两大死亡之组六队全灭,法国赢球却闹内讧,哈兰德86分钟封神

两大死亡之组六队全灭,法国赢球却闹内讧,哈兰德86分钟封神

枯蝶
2026-07-02 08:15:45
2026-07-02 23:48:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69966文章数 656154关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

游戏
房产
健康
数码
公开课

索尼停产实体盘遭全球玩家围剿!十多起请愿同时发起

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

这4类消化病患者 吃粘食管住嘴

数码要闻

大疆推出迷你无线麦克风DJI Mic Mini 2S,399-1199元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版