网易首页 > 网易号 > 正文 申请入驻

跑分第一,推理暴跌!Claude Opus 4.7上线48小时口碑崩了

0
分享至


新智元报道

编辑:元宇

【新智元导读】Opus 4.7发布48小时,口碑两极撕裂。官方榜单并列全球第一,逻辑推理公开测试却从94.7%暴跌到41.0%。token消耗涨了35%,旧接口直接报错,用户集体控诉「更贵、更蠢、更爱顶嘴」。Anthropic到底升级了什么,又搞砸了什么?

「4.6根本没法用,4.7的消耗速度像核反应堆一样。」

Opus 4.7发布后,一位Reddit用户在Anthropic官方帖子下的留言。

不是玩梗,是真心话。


一篇「Claude Opus 4.7是严重倒退,不是升级」的Reddit帖子迅速冲上3000赞。

还有人晒出截图,说4.7连strawberry里有几个字母都答不对。


更别说「擅改简历编造学历和姓氏」,回复用户「我懒得做交叉验证」,以及「三问就撞限额」这些网友热门槽点了。

《Pragmatic Engineer》作者Gergely Orosz试用之后,形容这个模型「出人意料地带攻击性」,然后宣布放弃,换回了4.6。


这边骂声还没散,那边一组数据却指向了相反的方向。

Artificial Analysis给Opus 4.7的Intelligence Index打了57分,和GPT-5.4、Gemini 3.1 Pro并列全球第一。

创业者Jeremy Howard形容它是「第一个真正懂我在工作时到底在做什么的模型」,Y Combinator CEO Garry Tan正在拿它做项目。

还有网友说,Claude Opus 4.7 已实现通用人工智能(AGI)。


同一个模型,有人看到了AGI的影子,有人觉得自己的工作流炸了。

上线两天,Opus 4.7就把AI社区撕裂了。

用户为什么炸了?

拆开看,用户的怒火集中在三个点上,每一条都戳中了重度用户的命门。

第一,代码能力断崖式下滑。大量开发者反馈,从4.6升级到4.7之后,之前能稳定完成的编程任务开始频繁出错。

而且都是日常工作流里的核心操作:代码补全变迟钝,上下文理解出现退化,复杂逻辑链的推理明显变弱。

代码能力是Opus系列的王牌,现在王牌出了问题,反弹自然最猛。

一位Reddit用户说,他用一个已知答案的长重构任务做回归测试,结果模型自信地改挂了3个原本在4.6下能通过的测试,只能回滚。


评论区涌入上百条类似经历。

第二,推理质量的倒退

不是速度慢了那么简单,是思考深度出现了可感知的退化。以前能一步到位的复杂问题,现在需要反复追问、手动引导。

这个剧本AI行业并不陌生。去年GPT-4 Turbo闹出的「降智」风波几乎一模一样:跑分提升了,体验却下来了。

第三,花更多钱,体验更差

Opus本身就是Anthropic最贵的模型。

重度用户每月的API账单不是小数目。花了更多的钱、升了更新的版本、得到的却是更差的体验,愤怒就不只停在技术层面。

benchmark更强了

但用户不买账

面对反弹潮,Anthropic的回应速度不算慢。

Anthropic在官方迁移指南中指出,Opus 4.7 相比4.6存在若干行为变化,同时也强调,Opus 4.7仍是其当前综合能力最强的通用可用模型,在长周期智能体任务、知识型工作、视觉任务和记忆任务方面表现尤为出色。


Artificial Analysis的多维评测结果也摆在那里,Opus 4.7在数学推理、多语言理解、长上下文处理,多个维度的得分创下新高。


Artificial Analysis评测显示,Opus 4.7(max)以57分并列榜首,与Gemini 3.1 Pro Preview、GPT-5.4并列。

GitHub上的NYT Connections Extended基准测试也给出了顶级排名。

Anthropic的逻辑并不难理解:大模型迭代必然涉及能力再分配。有些维度提升了,有些维度就可能出现回退,这是工程上的取舍。

但用户不看这个,只看自己手里的活干不干得动。

价格没涨

但账单涨了

Anthropic没有调价,每百万token的单价和Opus 4.6、4.5完全一样。

但官方迁移指南里写道:新分词器(tokenizer)在处理相同文本时,token用量大约可能达到原来的1.0倍到1.35倍


什么意思?你昨天用4.6跑一段prompt花10美元,今天换4.7跑同一段prompt,可能要花11到13.5美元。

单价没变,但同样的活儿吃掉了更多token。Claude Code创建者Boris Cherny随后在X上表示:

Opus 4.7消耗更多thinking token,所以我们已为所有订阅用户提高了速率限制,来补偿这一点。

但具体提高了多少,没有公布。


模型没蠢

但工作流炸了

如果你是Claude的重度开发者,4.7上线那天你可能遇到了这样的事情:

代码里写了thinking={"type": "enabled", "budget_tokens": 32000},用来控制模型的思考预算。

在4.6上跑得好好的。换成4.7,直接返回400错误。没有弃用过渡期,没有兼容模式,直接报错。

官方迁移指南解释了替代方案:改用thinking={"type": "adaptive"}加上新的effort参数。


但大多数开发者不会在模型发布当天去读迁移指南。

他们做的第一件事是把模型名从4.6换成4.7,然后发现一切都不工作了。

更隐蔽的变化是thinking内容现在默认隐藏。

4.6时代,模型的思考过程默认展示摘要版。到了4.7,默认变成「省略」。响应里的thinking区块看起来是空的。

但你仍然在为这些看不到的thinking token全额付费。

Anthropic官方原话:省略只会降低延迟,不会降低成本。

这就像你点了一份套餐,服务员说「为了加快上菜速度,我们不给你看菜了,但你还是得付全款」。

「顶嘴」不是bug

网友一个最强烈的吐槽,是说4.7变得「combative」(带攻击性)。

不少开发者反映,4.7会拒绝执行它认为有问题的指令,语气也比4.6硬了不止一个档次。

关于这个问题,Anthropic官方迁移指南里有一句很关键的话:

Claude Opus 4.7会以更字面、更明确的方式理解提示词。

也就是说:4.6会「猜你的意思」,4.7会「照你说的做」。

如果你的prompt本来就写得含糊,4.6可以帮你脑补了,但4.7不会。对于一部分用户来说,这叫「不听话」,但对另一部分用户来说,这叫「终于不乱猜了」。

比如,Cursor设计师Ryo Lu却在用4.7做产品规划,认为这种精确执行正是他需要的

因此,「顶嘴」这个标签背后,是Anthropic正在把Claude从一个「顺从的助手」改造成一个「更有主见的同事」。

据Artificial Analysis的公开评测,Opus 4.7在GDPval-AA上拿到1753 Elo,领先第二名79分。

GDPval-AA衡量的是模型在44种职业、9个主要行业的真实知识工作任务中的表现,在这个维度上,4.7碾压了所有对手,包括自己的前代4.6(1619 Elo)。

同时,4.7的幻觉率比4.6下降了25个百分点,降到了36%。

它是怎么做到的?据Artificial Analysis的分析,主要是依靠「更频繁地选择不作答」,宁可说「我不知道」,也不瞎编。

这说明Anthropic的意图不在于优化Claude的聊天体验,而是在优化Claude的工作能力。


Opus 4.7在GDPval-AA上以1753 Elo登顶,领先第二名79分。这项测试衡量的是AI在44种职业中独立完成知识工作的能力。

但对于用户来说,在一些场景下可能完全感受不到提升,反而先感受到了token变贵、接口报错和语气变硬。

94.7%暴跌到41.0%

如果上面三层问题都能归结为「迁移成本+使用习惯错位」,但还有一组数字没法用迁移成本解释。

GitHub上公开维护的NYT Connections Extended基准测试,使用940道《纽约时报》Connections谜题评估大语言模型的逻辑推理和抗干扰能力。

这个测试通过额外加入干扰词来提升难度,已经是社区公认的高难度benchmark之一。


NYT Connections Extended排行榜。Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)仅41.0%,同一测试上出现断崖式暴跌。

结果是:Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)得分41.0%。

从年级第一,跌到不及格。

另一份数据来自Anthropic提供的Opus 4.7 System Card中100万token上下文的MRCR v2基准测试:4.6得分78.3%,4.7得分32.2%,下跌46个百分点


https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

这组数据方向与NYT Connections的结论一致:在某些逻辑推理和长上下文检索任务上,4.7确实出现了显著退步

但也需要说清楚:这些是特定类型的测试。它们不能证明4.7「全面变蠢」,就像GDPval-AA的领先不能证明4.7「全面变强」一样。

用户耐心

开始倒计时

Opus 4.7的争议不是个案。

OpenAI经历过GPT-4 Turbo降智风波,几个月前撤下GPT-4o时也遭遇过类似的用户反弹。现在Reddit上已经出现了「哀悼」Claude 4.5的帖子,满是自称「心碎」的粉丝。


每一次模型升级,都有一批用户失去已经适应的工具。

新分词器让旧的成本预算失效;新的默认行为让旧的prompt不再好用;新的接口规范让旧的代码直接报错……

每一项单独看都有技术上的合理性,但叠在一起,就是把全部迁移成本一次性推给了用户。

为什么模型越来越聪明,用户越来越焦虑?因为每一次「更好」,都意味着推翻上一次的「刚好」。

Anthropic员工Alex Albert在发布次日写道:

很多人在昨天刚开始体验Opus 4.7时可能遇到的bug,现在都已经修复了。感谢大家的包容和耐心。


bug可以修。但信任这种东西,消耗容易,重建很慢。

这轮AI军备竞赛的下一个瓶颈,也许不只是算力和数据,还要比谁能在快速迭代的同时,能不把自己的用户甩下车。

这次,Anthropic发布了迁移指南,但用户更想要的是一个承诺:升级不能把原有的工作流推倒重来。

当AI从玩具变成生产力工具,「快速迭代」就不再是无条件的优点。

Opus 4.8会怎么来?Anthropic还没说。

但用户的耐心,已经开始倒计时了。

参考资料:

https://www.businessinsider.com/anthropic-claude-opus-4-7-backlash-tokens-2026-4

https://medium.com/vibe-coding/opus-4-7-is-the-worst-release-anthropic-has-ever-shipped-12772c21ca1e

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世锦赛战报:赵心童5-4领先了,首爆大冷预警!12冠王3-5中国选手

世锦赛战报:赵心童5-4领先了,首爆大冷预警!12冠王3-5中国选手

球场没跑道
2026-04-18 21:05:32
伊朗军方发言人:因美国“违背承诺”伊方已恢复对霍尔木兹海峡的控制

伊朗军方发言人:因美国“违背承诺”伊方已恢复对霍尔木兹海峡的控制

财联社
2026-04-18 16:16:06
马克龙证实:有法国士兵身亡

马克龙证实:有法国士兵身亡

鲁中晨报
2026-04-18 21:24:20
日本已具备制造核武器的几乎所有物质和技术条件:已囤积约44.4吨分离钚,足够制造约5500枚核弹头,同时还有核武器的投射工具

日本已具备制造核武器的几乎所有物质和技术条件:已囤积约44.4吨分离钚,足够制造约5500枚核弹头,同时还有核武器的投射工具

鲁中晨报
2026-04-18 16:40:15
学校组织10元车费去春游,男孩下车秒哭,“这是我家,油菜花还是我和爷爷一起种的,我妈刚把我送学校,你又把我带回来了”

学校组织10元车费去春游,男孩下车秒哭,“这是我家,油菜花还是我和爷爷一起种的,我妈刚把我送学校,你又把我带回来了”

观威海
2026-04-18 13:16:03
英媒批评赵心童半场表现:看起来一点不自在,总让自己处在危险中

英媒批评赵心童半场表现:看起来一点不自在,总让自己处在危险中

杨华评论
2026-04-18 21:40:51
在美以高压下,伊朗内部出现多起极端事件

在美以高压下,伊朗内部出现多起极端事件

高博新视野
2026-04-18 06:00:18
伊朗在核问题上忽悠国际二十多年,直到遇上不按常理出牌的川普

伊朗在核问题上忽悠国际二十多年,直到遇上不按常理出牌的川普

壹家言
2026-04-18 06:07:05
“魔幻”接连发生,老百姓已经麻木了!

“魔幻”接连发生,老百姓已经麻木了!

胖胖说他不胖
2026-04-18 09:00:31
4.8万紫檀珠直播被砍晕!弹幕比妖怪还犀利?迟重瑞憋不住了

4.8万紫檀珠直播被砍晕!弹幕比妖怪还犀利?迟重瑞憋不住了

鉴史录
2026-04-18 17:55:00
中超无扣分积分榜:成都第一申花第二,天津首胜后升至第13

中超无扣分积分榜:成都第一申花第二,天津首胜后升至第13

懂球帝
2026-04-18 22:15:11
襄阳一村支书被举报违规建1500平米楼房,官方公布调查处理结果

襄阳一村支书被举报违规建1500平米楼房,官方公布调查处理结果

界面新闻
2026-04-18 17:23:52
缺德到这种程度,已经没有半点“人性”了

缺德到这种程度,已经没有半点“人性”了

胖胖说他不胖
2026-04-17 09:25:19
如何更理性客观看待“雷军北京到上海1313Km续航测试?”

如何更理性客观看待“雷军北京到上海1313Km续航测试?”

新浪财经
2026-04-18 19:09:53
存款超这个数就被严查?买房卖房必看,银行为啥突然变得这么较真

存款超这个数就被严查?买房卖房必看,银行为啥突然变得这么较真

复转这些年
2026-04-18 12:38:07
利空突袭!刚刚,集体跳水!美伊谈判,突变!

利空突袭!刚刚,集体跳水!美伊谈判,突变!

证券时报
2026-04-18 20:05:09
事发浦东机场!女子称两次拒绝帮陌生人带行李,多名网友:我也遇到过!

事发浦东机场!女子称两次拒绝帮陌生人带行李,多名网友:我也遇到过!

上观新闻
2026-04-18 20:28:04
5月1日起全面严查!6类灰色行为全违法,轻则罚款重则坐牢

5月1日起全面严查!6类灰色行为全违法,轻则罚款重则坐牢

复转这些年
2026-04-17 12:02:22
沙漠占比90%以上、境内无河流的沙特,人口为什么能有3500万?

沙漠占比90%以上、境内无河流的沙特,人口为什么能有3500万?

孤云朗境
2026-04-18 20:34:03
收拾完伊朗,下一个轮到中国?以色列发战争威胁,中方送出5个字

收拾完伊朗,下一个轮到中国?以色列发战争威胁,中方送出5个字

千羽解读
2026-04-18 10:12:15
2026-04-18 23:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15003文章数 66782关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

小车在高速上跑100码 车主突然接到电话"你车轮没了"

头条要闻

小车在高速上跑100码 车主突然接到电话"你车轮没了"

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

手机
艺术
旅游
游戏
数码

手机要闻

华为苹果争第一,手机TOP5排名来了

艺术要闻

耗资600亿,贵阳人的“上海外滩”,现在去看,荒得吓人

旅游要闻

花开如雪 暗香浮动|济宁戴庄流苏花迎来最美花期 引市民打卡

《刺客信条黑旗》重制版将至 你心中最帅刺客导师是谁

数码要闻

AMD锐龙9 9950X3D2英国定价799英镑!几乎全球最高

无障碍浏览 进入关怀版