网易首页 > 网易号 > 正文 申请入驻

Claude变蠢了,新模型发布前的黑暗时刻?

0
分享至



Claude Opus变蠢了。

最近一段时间,越来越多用户开始有一种很难讲的感觉:虽然这个模型没有明显出错,但也不再像以前那样“聪明”。

回答更快了,推理更短了,有时候看起来像是跳过了某些本该认真完成的步骤,变得敷衍了。

如果这种情况只是个例,用户可能还会怀疑是不是自己的问题,但当相似的声音越来越多,这就不再是单纯的“感觉不对”了。

网上甚至开始出现一些视频,调侃现在的Opus就像凶猛的狮子被摘了毛圈,发现原来只是一条狗。

一个更直接的说法开始流传:Opus被削了!

这是真的吗?如果是真的,它为什么会被削呢?



01

推理深度下降67%

一开始只是零星的用户在吐槽,说 Claude Opus“变懒了”“没以前聪明了”。

可能只是偶尔犯了一些过去不会犯的低级错误,或者在复杂任务里少做了几步推理。

某种意义上,和模型的协同很像是和真人的交往,一直以来配合得很好的“同事”某天忽然变脸了,搁谁谁都得难受。

碰到这种情况,大多数人的第一反应都是怀疑自己:是不是prompt写得不够好?还是任务本来就不适合?这种情况应该只是偶然事件吧?

但很快,在Reddit的Claude社区里,类似的反馈开始密集出现,而且描述高度一致:

有人说它不再仔细读代码;有人说它更快给答案,但经常漏掉关键步骤;也有人发现,它在长任务中更容易“提前结束”,像是默认事情已经完成。



当不同用户在不同场景下开始重复同一类问题时,这件事似乎不再是所谓的“感觉不对”,更像是一种行为模式的变化。

换句话说,不是感觉错了,是模型真的在变。

真正让讨论升级的是这个数字:有人在Claude Code的使用过程中,对历史交互日志进行对比,发现模型在复杂任务中的推理过程明显缩短,自2月更新以来,推理深度下降了67%。



(参考链接:
https://github.com/anthropics/claude-code/issues/42796)

作者坦率地说明,67%是基于签名长度与思考内容长度的相关估计,而不是直接测量。还提到一月份的日志被删除了,所以基线对比不太准确。

相比之下,报告里更有说服力的,其实是那些行为层面的变化。比如read:edit(读取代码vs修改代码)的比例,从6.6下降到了2.0;3月8日之后,被stop hook捕捉到的违规行为有173次,而之前是0。



不过数字是否精确并没有那么重要,重要的是它让一件原本模糊的体感问题,第一次被量化成一个可以讨论的趋势。

于是,一个新词在社区里开始流行:“AI shrinkflation”(AI缩水式通胀)

缩水式通胀是一个经济学术语,指的是商品的大小或数量减少,而价格不变。放在这里的意思也很直接,模型实际给到用户的能力变少了,但模型看起来还是同一个名字。

02

敷衍的背后

相比社区的激烈反应,Anthropic并没有直接承认“模型变弱”。

Claude Code的开发负责人Boris给出的解释是,这些变化来自系统层的调整:包括工具调用方式、推理策略以及资源分配机制的变化,而不一定是模型本身能力的下降。

他举了个例子:在Claude Code中,一部分问题被认为源于工具链和系统prompt,而不是模型本身;与此同时,在高负载情况下,系统需要对算力、token和请求进行控制,这也会影响用户体验。

在最新版本中,Anthropic引入了一种叫“自适应推理”(adaptive thinking)的机制,模型会根据任务复杂度,动态决定是否以及使用多少推理。

也就是说,并不是模型变差了,只是模型开始“自己决定”要使用多少算力。



(参考链接:
https://news.ycombinator.com/item?id=47660925)

从工程角度看,这是一种很合理的优化,简单任务少思考,复杂任务多思考,以提升整体效率

但问题在于,效率优化和能力削弱,在用户体验上并没有区别。

当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务,用户感受到的不会是优化,而是敷衍。

而且这个自适应推理机制,从感性的角度来讲,也确实会让人不太舒服。

还是拿人际交往的那个比喻:凭什么一开始好好的,用到后面就觉得我的事情不重要了?

这种不适感很快被另一个变化放大了:Mythos还未发布就广受关注,Claude Mythos Preview直接被Anthropic称为“能力跃迁的一代”,在代码与安全任务上表现出远超以往的能力。因此它被限制性地提供给少数机构使用,用来加固“全球最关键的软件系统”。

当“更强的新模型”与“体感变差的旧模型”同时出现,一个在社区中不断被提起的猜测开始成型:把旧模型削了再抬新模型,一捧一踩,就会显得新模型有着巨大的升级。

这个逻辑没有直接证据,但它正在被越来越多用户相信。



03

模型不再稳定

实际上,类似的事情对AI来说并不陌生。

早在2023年就有研究对比了GPT-4在不同时间的表现,发现同一个模型在几个月内,推理方式和输出行为都发生了明显变化。这些变化后来被解释为多种因素叠加的结果:包括推理策略调整、安全策略收紧,以及对成本和响应速度的优化。



把阴谋论抛在一边,如果确实存在一定程度的资源倾斜,在AI行业其实算是常态:无论是OpenAI还是Google,几乎所有公司都会优先优化最新一代模型,旧模型则逐渐被边缘化。

算力是成本,也是生产力。当新模型的能力上限更高、潜在价值更大时,把更多资源投入进去,本身是一种理性的选择。

在这个过程中,旧模型的状态自然会发生变化:被“降权”、推理深度被压缩、资源分配被重新调整……这些都可以理解为一种工程上的取舍。

不过理解归理解,新模型不开放给大众使用,旧模型又在毫无征兆的情况下弄成这样,谁能轻易接受?



从用户的视角来看,最让人不满的并不是模型的“变蠢”,而是它的“不稳定”。

当模型本身从一个稳定的工具变成一个会不断变化的系统,它自己做出了“更好的调整”,没有提示,没有版本说明,也没有边界。

作为用户,你不知道它什么时候变了,不知道它具体变了什么,更不知道这种变化会不会影响你正在做的事情。

你只能感受到它变了,变得没以前好用了。

这个时候,有一个新模型放在你的面前,看起来比现在这个更稳定、更可靠,或许用起来会更顺手。

于是选择就变得微妙起来:似乎不再是你主动选择新模型,而是旧模型的变化把你推向更新的那一个。

即使你知道,新模型也可能在某一天变成下一个旧模型,可能还是会猝不及防地“优化”成让人难受的版本。

但在那一刻,差距已经摆在眼前。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2次!刻进DNA的恐惧!他被文班防到不敢投!

2次!刻进DNA的恐惧!他被文班防到不敢投!

柚子说球
2026-06-02 22:34:15
淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

磊子讲史
2026-05-29 16:17:30
大胆预测,未来10年期间,NBA将会被以下五位球员统治

大胆预测,未来10年期间,NBA将会被以下五位球员统治

生活新鲜市
2026-06-02 16:40:52
印度高温多人被热死,莫迪叫停“抗中神剧”,不敢再骂中国了?

印度高温多人被热死,莫迪叫停“抗中神剧”,不敢再骂中国了?

椰青美食分享
2026-06-02 18:35:58
王晓晨俞灏明被曝就医,王晓晨街边抽烟,全程眉头紧锁,神色焦灼

王晓晨俞灏明被曝就医,王晓晨街边抽烟,全程眉头紧锁,神色焦灼

韩小娱
2026-06-02 15:22:29
闹大了!中方驱逐美记者后,不到24小时美回击,吊销新华记者许可

闹大了!中方驱逐美记者后,不到24小时美回击,吊销新华记者许可

小陆搞笑日常
2026-06-02 19:51:48
两个乌克兰姑娘,在广州找到了第二个家

两个乌克兰姑娘,在广州找到了第二个家

捣蛋窝
2026-06-02 13:25:06
成都出台户籍新政 连续缴纳养老保险3年可申请落户

成都出台户籍新政 连续缴纳养老保险3年可申请落户

北青网-北京青年报
2026-06-02 13:02:21
腾讯微信将上线AI agent

腾讯微信将上线AI agent

AI先锋官
2026-06-02 20:35:17
村妇咬定军马吃她粟谷,石敬瑭:先杀马,找不到粟谷就把她处决了

村妇咬定军马吃她粟谷,石敬瑭:先杀马,找不到粟谷就把她处决了

历史人文2
2026-05-25 19:29:40
再次交火后,美军发现伊朗18座地下导弹基地,已被推土机修复

再次交火后,美军发现伊朗18座地下导弹基地,已被推土机修复

兵国大事
2026-06-01 22:02:55
骂声不断!被吐槽“不干正事”的全红婵却早已悄悄给自己留好后路

骂声不断!被吐槽“不干正事”的全红婵却早已悄悄给自己留好后路

翰飞观事
2026-06-02 22:57:20
雷阵雨即将抵京,伴有9级及以上短时大风和冰雹

雷阵雨即将抵京,伴有9级及以上短时大风和冰雹

新京报
2026-06-02 17:33:57
亚马尔带女友度假,颜值身材无可挑剔,18岁身家过亿,已是超巨

亚马尔带女友度假,颜值身材无可挑剔,18岁身家过亿,已是超巨

可乐谈情感
2026-06-01 13:12:28
被申请破产!又一网红品牌跌落神坛,曾在李佳琦直播间爆卖

被申请破产!又一网红品牌跌落神坛,曾在李佳琦直播间爆卖

品牌观察官
2026-06-02 17:42:26
阿斯:科纳特接近加盟皇马,双方很可能签下一份4+1合同

阿斯:科纳特接近加盟皇马,双方很可能签下一份4+1合同

懂球帝
2026-06-02 19:56:19
铭记这一刻,巴黎球迷将加布里埃尔踢飞点球的瞬间纹在小腿上

铭记这一刻,巴黎球迷将加布里埃尔踢飞点球的瞬间纹在小腿上

懂球帝
2026-06-02 11:14:56
河南民权发生一起交通事故致2人死亡

河南民权发生一起交通事故致2人死亡

新京报
2026-06-02 13:18:38
宋庆龄晚年:人民英雄永垂不朽,其实是毛主席给自己写的墓志铭

宋庆龄晚年:人民英雄永垂不朽,其实是毛主席给自己写的墓志铭

历史图鉴
2026-06-02 18:43:28
日还利息2000多万!王健林满头白发断崖衰老。

日还利息2000多万!王健林满头白发断崖衰老。

流苏晚晴
2026-06-02 18:09:41
2026-06-03 00:27:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2508文章数 8064关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

本地
家居
亲子
房产
教育

本地新闻

用剪纸的方式,打开江苏扬州

家居要闻

流线型轮廓 包容多元身形

亲子要闻

进口针一支1.7万,年生长11厘米,国人怒了

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

教育要闻

“你知道几号高考吗?”18岁纹身女孩的生日美照,诠释了物以类聚

无障碍浏览 进入关怀版