网易首页 > 网易号 > 正文 申请入驻

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

感谢OpenAI(doge)。

就在GPT-5.5发布的前后脚,Claude招了:

模型降智属实,所有使用额度均已重置。



嘴硬了一个多月,这降智bug终于从A社自己嘴里蹦出来了:

  • 推理等级偷偷从「高」调成「中」
  • 缓存bug导致每轮对话都清空思考记录
  • 一句25词限制的提示词砸了输出质量

三个bug叠在一起,Claude使用体验全面拉垮。

只能还好说友商今天及时给上了一波压力,教育用户终究不可取。



不过,说归说,更新bug当然是好事。就是这时间也太巧了,GPT-5.5刚发,Claude就开始「认怂」。

难不成是5.5帮忙debug的?

Dario啊,你该不会真的是故意让Claude变笨,好在GPT-5.5放出来的时候找画面的吧?



Bug实锤了,一共三个

先说一句,这已经不是第一次了。

去年8月,Anthropic刚发过一次类似的降智postmortem,当时影响的是Opus 4.0和4.1,官方说辞也是「我们从未有意降低模型质量」。

这次新postmortem的标题叫「A postmortem of three recent issues」。recent,意思也很明白。

不是刚刚,是最近。



之所以「最近」,是因为Claude降智这事儿,社区已经嚷嚷吵了很久了。

十多天前,AMD AI组高级总监Stella Laurenzo就在GitHub上发了一份硬核审计报告,覆盖6852份会话文件、17871个思考块、超过23万次工具调用。



分析结果显示,从2月份开始,模型的推理深度出现了断崖式下滑。

更细节的发现是,Claude开始陷入reasoning loops,而且有明显的倾向去选「最简单的修复」而不是正确的修复。

BridgeMind的BridgeBench测试也在同期炸锅,Opus 4.6准确率从83.3%掉到68.3%,排名从第2跌到第10。



虽然后来被研究者批评方法论有问题,前后测试的任务数量根本不一样,但「Claude变蠢了」的叙事已经传开了。

网友甚至造了个新词,AI shrinkflation,AI缩水通胀。同样的价格,你拿到的是稀释过的产品。

换句话说,大伙买到了A社的「儿童套餐」。

但没办法,当时Claude确实是打遍天下无敌手,不少用户边骂边用,没啥脾气。

直到GPT-5.5发了,A社终于坐不住,在官方博客上发了一篇postmortem,把过去两个月的「降智」拆成三条独立问题:

偷偷降了推理等级

3月4日,Claude Code的默认推理从high调成了medium,理由是high模式下延迟太高。但界面上还是显示「high」。用户以为自己在用满血版,实际拿到的是降档货。一个多月后才回滚。

越聊越傻

3月26日上了个缓存优化,本意是会话空闲超过一小时后清掉旧的思考记录。结果代码有bug,清除变成了每一轮都执行。

Claude继续干活,但逐渐忘了自己为什么要干这件事。健忘、重复、工具调用乱飞,就是这个bug的症状。

而且因为思考记录被反复清,每次请求都缓存未命中,token消耗反而飙升。花了15天才修好。

一句提示词砸了输出质量。

4月16日,系统提示里加了一条「工具调用之间文字不超过25个词,最终回复不超过100个词」。

Opus 4.6和4.7都掉了3%性能,四天后回滚。

三个问题影响不同用户群,在不同时间段生效。叠加起来的效果就是整个Claude Code在持续、不均匀地变差,但谁也说不清到底哪里不对。

官方推特上,ClaudeDevs发总结,Claude之父Boris Cherny也亲自下场回复,并预告Opus 4.7的bug也正在de了。



但问题是,光有bug不够解释这两个月发生的一切。

四月里,A社的骚操作一箩筐

把时间线拉开看,四月其实是A社连续三拳打在自己脸上。

4月4日,Anthropic封禁了OpenClaw等第三方agentic工具通过Pro/Max订阅运行。想继续用?去走API按token付费。

4月21日,官方定价页悄悄把Pro plan里的Claude Code去掉了,支持文档也从「Pro或Max plan」改成了「只有Max plan」。

被网友抓包后,Head of Growth Amol Avasare出来说这只是2%新用户的A/B测试。但问题是公开页面是全站更新的,口径完全对不上。几小时后灰头土脸地回滚。

连起来算一笔账。Pro用户20/月,年费240。要继续用Claude Code,得升到Max 5x,100/月起步,年费1200。五倍。Max 20x是2400,十倍。中间没有过渡档。

注意,这里单位是美元。

4月23日,就是今天,postmortem上线,补偿是重置使用额度。

有网友不客气地指出,上周Opus 4.7发布时就已经重置过一次了,所以这次的「补偿」其实就是一次正常的周期重置。

三件事连起来,味道就不是bug了,是成本焦虑全面爆发。

网友不买账

综上种种,对于Claude,网友的反应也开始分化。

有人觉得出bug可以理解,postmortem写得也算透明。Boris在HN一条一条回复,这比大多数公司做得好。



但更多人在算另一笔账。

这两个月里,所有正式渠道一声不吭。

只有几个员工在X上零星回复用户,而且被批评为「随机时间随机回复」,完全不成体系。



还有人质疑「缓存优化」的真正动机。清除思考记录的触发时间恰好卡在缓存过期的节点上,有人觉得这不是为了降延迟,是为了省成本。

同期Anthropic还对一小部分Pro用户做了A/B测试,悄悄给了不同的产品配置,信任又挨了一刀。



补偿措施是重置使用额度。有人不客气地指出,上周Opus 4.7发布时就已经重置过一次了。

BridgeMind的BridgeBench测试也在这段时间炸了锅,显示Opus 4.6准确率从83.3%掉到68.3%,排名从第2跌到第10。

虽然后来被研究者批评方法论有问题,前后测试的任务数量根本不一样,但「Claude变蠢了」的叙事已经传开了。

正如一位网友说的,不能把所有鸡蛋放在一个模型公司里。



One more thing

HN评论区里一个有意思的现象,不少人在聊自己的「迁移经历」。

有人说二月份就「下意识地」转去了Codex,直到现在才意识到大概是被Claude变差给逼的。



也有人说GPT-5.4已经比Opus4.6好了。



还有人在用MiniMax做补充,40美金4500条消息一个5小时周期,还能看到完整思考过程。



半年前「写代码就用Claude」几乎是共识。

现在Codex有400万活跃用户,GPT-5.5主打的就是编码和计算机操作能力,连OpenAI的人都直接说这个模型能当「参谋长」用。

Claude不是变差了。是别人变好了,而它在最不该出问题的时候出了问题。

留给Anthropic修bug和重建信任的窗口,比两个月前窄了不少。

GPT-5.5已经发布,DeepSeek V4俨然就位。



Gemini快来吧!就差你了。

[1]https://www.anthropic.com/engineering/april-23-postmortem

[2]https://news.ycombinator.com/item?id=47878905

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东一糖厂收购农户滞销果蔗:司机等候超24小时每吨补10元,日开销已超五万

广东一糖厂收购农户滞销果蔗:司机等候超24小时每吨补10元,日开销已超五万

潇湘晨报
2026-04-26 18:00:18
《蜜语纪》纪封输得彻底!原来,许蜜语要的不是解释,而是边界感

《蜜语纪》纪封输得彻底!原来,许蜜语要的不是解释,而是边界感

阿废冷眼观察所
2026-04-26 19:12:46
长这么好看,她是真不怕被骂啊!

长这么好看,她是真不怕被骂啊!

娱人细品
2026-04-25 21:25:48
联合国变天?秘书长候选人出现,巴西力挺,中方:不准有官僚主义

联合国变天?秘书长候选人出现,巴西力挺,中方:不准有官僚主义

阿纂看事
2026-04-25 11:12:08
郑丽文赢麻了!民进党被逼到绝路、做出3大让步,赖清德服软了?

郑丽文赢麻了!民进党被逼到绝路、做出3大让步,赖清德服软了?

岁暮的归南山
2026-04-26 05:05:34
内娱怕的雷点,又被韩国拍成了8.7分爆剧

内娱怕的雷点,又被韩国拍成了8.7分爆剧

独立鱼
2026-04-25 21:08:52
300965,重大资产重组!明天停牌!

300965,重大资产重组!明天停牌!

证券时报e公司
2026-04-26 17:29:23
谭松韵居家光脚床照美拍,大长腿,太迷人了!

谭松韵居家光脚床照美拍,大长腿,太迷人了!

情感大头说说
2026-04-26 19:21:30
普京支持率跌破战后最低后被“消音”:克宫直接下令媒体不准报道

普京支持率跌破战后最低后被“消音”:克宫直接下令媒体不准报道

桂系007
2026-04-25 17:24:36
“崩老头”现象:00后如何收割中年男性

“崩老头”现象:00后如何收割中年男性

流苏晚晴
2026-04-25 16:31:35
iPhone 18 Pro镜头4大相机升级首度曝光

iPhone 18 Pro镜头4大相机升级首度曝光

果粉易查
2026-04-24 14:55:03
放弃豪门嫁男模?深扒马英九大女儿的“跨国恋”,丈夫背景不简单

放弃豪门嫁男模?深扒马英九大女儿的“跨国恋”,丈夫背景不简单

鉴史录
2026-04-26 08:10:31
全员“梓涵”消失不见,老师崩溃!新一批烂大街名字再次来袭

全员“梓涵”消失不见,老师崩溃!新一批烂大街名字再次来袭

谭老师地理大课堂
2026-04-12 20:21:47
千年难遇的美人,太漂亮了,没有一点毛病,太完美了

千年难遇的美人,太漂亮了,没有一点毛病,太完美了

陈意小可爱
2026-04-25 06:57:01
亲手送吴亦凡入狱5年后,都美竹迎噩耗,法院出手或使其饭碗不保

亲手送吴亦凡入狱5年后,都美竹迎噩耗,法院出手或使其饭碗不保

老吴教育课堂
2026-04-25 01:00:44
男子突发腹痛、无尿,还说脚没力,医生:“死神之病”,所有人警惕!

男子突发腹痛、无尿,还说脚没力,医生:“死神之病”,所有人警惕!

听李医生说
2026-04-25 14:05:16
悲催!37岁名牌大学毕业、年薪30万女医生被技术男嫌弃,当场崩溃

悲催!37岁名牌大学毕业、年薪30万女医生被技术男嫌弃,当场崩溃

火山詩话
2026-04-24 06:14:58
太离谱!护士晒患者膀胱结石,整整一盆“鹌鹑蛋”,竟是一个人的

太离谱!护士晒患者膀胱结石,整整一盆“鹌鹑蛋”,竟是一个人的

谭谈社会
2026-04-25 10:48:04
独家对话哈巴雪山失联比利时男子家属:他本已买好回家机票 现在只能等待雪化,雪山会把他还给家人

独家对话哈巴雪山失联比利时男子家属:他本已买好回家机票 现在只能等待雪化,雪山会把他还给家人

红星新闻
2026-04-26 18:45:23
《八千里路云和月》收官,3人零差评,1人翻红,唯有一人被骂惨

《八千里路云和月》收官,3人零差评,1人翻红,唯有一人被骂惨

不似少年游
2026-04-26 14:52:47
2026-04-26 21:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12536文章数 176458关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

游戏
教育
艺术
健康
公开课

《AC黑旗RE》夯爆了!碾压同期登顶多地PS预购榜首

教育要闻

广州市一模数学试卷简析

艺术要闻

18幅 列宾美院教师Artem Tikhonov风景写生

干细胞如何让烧烫伤皮肤"再生"?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版