网易首页 > 网易号 > 正文 申请入驻

Claude变蠢了,新模型发布前的黑暗时刻?

0
分享至

来源:市场资讯

(来源:钛媒体APP)

Claude Opus变蠢了。

最近一段时间,越来越多用户开始有一种很难讲的感觉:虽然这个模型没有明显出错,但也不再像以前那样“聪明”。

回答更快了,推理更短了,有时候看起来像是跳过了某些本该认真完成的步骤,变得敷衍了。

如果这种情况只是个例,用户可能还会怀疑是不是自己的问题,但当相似的声音越来越多,这就不再是单纯的“感觉不对”了。

网上甚至开始出现一些视频,调侃现在的Opus就像凶猛的狮子被摘了毛圈,发现原来只是一条狗。

一个更直接的说法开始流传:Opus被削了!

这是真的吗?如果是真的,它为什么会被削呢?


推理深度下降67%

一开始只是零星的用户在吐槽,说 Claude Opus“变懒了”“没以前聪明了”。

可能只是偶尔犯了一些过去不会犯的低级错误,或者在复杂任务里少做了几步推理。

某种意义上,和模型的协同很像是和真人的交往,一直以来配合得很好的“同事”某天忽然变脸了,搁谁谁都得难受。

碰到这种情况,大多数人的第一反应都是怀疑自己:是不是prompt写得不够好?还是任务本来就不适合?这种情况应该只是偶然事件吧?

但很快,在Reddit的Claude社区里,类似的反馈开始密集出现,而且描述高度一致:

有人说它不再仔细读代码;有人说它更快给答案,但经常漏掉关键步骤;也有人发现,它在长任务中更容易“提前结束”,像是默认事情已经完成。


当不同用户在不同场景下开始重复同一类问题时,这件事似乎不再是所谓的“感觉不对”,更像是一种行为模式的变化。

换句话说,不是感觉错了,是模型真的在变。

真正让讨论升级的是这个数字:有人在Claude Code的使用过程中,对历史交互日志进行对比,发现模型在复杂任务中的推理过程明显缩短,自2月更新以来,推理深度下降了67%。


(参考链接:https://github.com/anthropics/claude-code/issues/42796)

作者坦率地说明,67%是基于签名长度与思考内容长度的相关估计,而不是直接测量。还提到一月份的日志被删除了,所以基线对比不太准确。

相比之下,报告里更有说服力的,其实是那些行为层面的变化。比如read:edit(读取代码vs修改代码)的比例,从6.6下降到了2.0;3月8日之后,被stop hook捕捉到的违规行为有173次,而之前是0。


不过数字是否精确并没有那么重要,重要的是它让一件原本模糊的体感问题,第一次被量化成一个可以讨论的趋势。

于是,一个新词在社区里开始流行:“AI shrinkflation”(AI缩水式通胀)。

缩水式通胀是一个经济学术语,指的是商品的大小或数量减少,而价格不变。放在这里的意思也很直接,模型实际给到用户的能力变少了,但模型看起来还是同一个名字。

敷衍的背后

相比社区的激烈反应,Anthropic并没有直接承认“模型变弱”。

Claude Code的开发负责人Boris给出的解释是,这些变化来自系统层的调整:包括工具调用方式、推理策略以及资源分配机制的变化,而不一定是模型本身能力的下降。

他举了个例子:在Claude Code中,一部分问题被认为源于工具链和系统prompt,而不是模型本身;与此同时,在高负载情况下,系统需要对算力、token和请求进行控制,这也会影响用户体验。

在最新版本中,Anthropic引入了一种叫“自适应推理”(adaptive thinking)的机制,模型会根据任务复杂度,动态决定是否以及使用多少推理。

也就是说,并不是模型变差了,只是模型开始“自己决定”要使用多少算力。


(参考链接:https://news.ycombinator.com/item?id=47660925)

从工程角度看,这是一种很合理的优化,简单任务少思考,复杂任务多思考,以提升整体效率

但问题在于,效率优化和能力削弱,在用户体验上并没有区别。

当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务,用户感受到的不会是优化,而是敷衍。

而且这个自适应推理机制,从感性的角度来讲,也确实会让人不太舒服。

还是拿人际交往的那个比喻:凭什么一开始好好的,用到后面就觉得我的事情不重要了?

这种不适感很快被另一个变化放大了:Mythos还未发布就广受关注,Claude Mythos Preview直接被Anthropic称为“能力跃迁的一代”,在代码与安全任务上表现出远超以往的能力。因此它被限制性地提供给少数机构使用,用来加固“全球最关键的软件系统”。

当“更强的新模型”与“体感变差的旧模型”同时出现,一个在社区中不断被提起的猜测开始成型:把旧模型削了再抬新模型,一捧一踩,就会显得新模型有着巨大的升级。

这个逻辑没有直接证据,但它正在被越来越多用户相信。


模型不再稳定

实际上,类似的事情对AI来说并不陌生。

早在2023年就有研究对比了GPT-4在不同时间的表现,发现同一个模型在几个月内,推理方式和输出行为都发生了明显变化。这些变化后来被解释为多种因素叠加的结果:包括推理策略调整、安全策略收紧,以及对成本和响应速度的优化。


把阴谋论抛在一边,如果确实存在一定程度的资源倾斜,在AI行业其实算是常态:无论是OpenAI还是Google,几乎所有公司都会优先优化最新一代模型,旧模型则逐渐被边缘化。

算力是成本,也是生产力。当新模型的能力上限更高、潜在价值更大时,把更多资源投入进去,本身是一种理性的选择。

在这个过程中,旧模型的状态自然会发生变化:被“降权”、推理深度被压缩、资源分配被重新调整……这些都可以理解为一种工程上的取舍。

不过理解归理解,新模型不开放给大众使用,旧模型又在毫无征兆的情况下弄成这样,谁能轻易接受?


从用户的视角来看,最让人不满的并不是模型的“变蠢”,而是它的“不稳定”。

当模型本身从一个稳定的工具变成一个会不断变化的系统,它自己做出了“更好的调整”,没有提示,没有版本说明,也没有边界。

作为用户,你不知道它什么时候变了,不知道它具体变了什么,更不知道这种变化会不会影响你正在做的事情。

你只能感受到它变了,变得没以前好用了。

这个时候,有一个新模型放在你的面前,看起来比现在这个更稳定、更可靠,或许用起来会更顺手。

于是选择就变得微妙起来:似乎不再是你主动选择新模型,而是旧模型的变化把你推向更新的那一个。

即使你知道,新模型也可能在某一天变成下一个旧模型,可能还是会猝不及防地“优化”成让人难受的版本。

但在那一刻,差距已经摆在眼前。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荒唐的斯威士兰:集中10万少女贡献国王选妃,国民平均寿命35岁

荒唐的斯威士兰:集中10万少女贡献国王选妃,国民平均寿命35岁

春秋砚
2026-04-25 17:15:06
日产本田快顶不住了!英媒发文警告:日本汽车正被“速度”拖死!

日产本田快顶不住了!英媒发文警告:日本汽车正被“速度”拖死!

阿芒娱乐说
2026-04-29 16:27:44
当我帮儿子实现“多巴胺满足”,他终于戒掉了手机瘾,变得越来越自控、自律

当我帮儿子实现“多巴胺满足”,他终于戒掉了手机瘾,变得越来越自控、自律

青春期父母成长学堂
2026-04-29 06:06:17
员工离职后遵守竞业协议两年未工作,公司不支付补偿被判赔

员工离职后遵守竞业协议两年未工作,公司不支付补偿被判赔

新京报
2026-04-30 22:00:23
浙江一女子退休金9700,找了一个52岁的老伴,刚从民政局出来,他的儿子就在门口等着:阿姨,你能帮我个忙吗?

浙江一女子退休金9700,找了一个52岁的老伴,刚从民政局出来,他的儿子就在门口等着:阿姨,你能帮我个忙吗?

乔话
2026-04-30 23:52:45
相亲被姑娘当面说没看上,临走偷塞我纸条,打开后我愣在原地

相亲被姑娘当面说没看上,临走偷塞我纸条,打开后我愣在原地

晓艾故事汇
2025-11-27 08:10:07
尼克斯屠杀创十项季后赛纪录:连创历史第一 让保罗坐立难安

尼克斯屠杀创十项季后赛纪录:连创历史第一 让保罗坐立难安

醉卧浮生
2026-05-01 10:12:32
放弃免死金牌,数十架飞机连夜跑路,欧洲最强硬汉的底裤被扒光了

放弃免死金牌,数十架飞机连夜跑路,欧洲最强硬汉的底裤被扒光了

潋滟晴方DAY
2026-04-30 04:43:02
炸裂!以军突然不宣而战,中方强势介入,内塔被逼认罪

炸裂!以军突然不宣而战,中方强势介入,内塔被逼认罪

音乐时光的娱乐
2026-04-29 15:51:59
举报铁路员工站台抽烟沈女士已全网社死!当事人道歉,12306回应

举报铁路员工站台抽烟沈女士已全网社死!当事人道歉,12306回应

西莫的艺术宫殿
2026-05-01 00:09:21
孙杨回忆低谷期:如果我没有经历过低谷,可能我也不会有这段婚姻

孙杨回忆低谷期:如果我没有经历过低谷,可能我也不会有这段婚姻

韩小娱
2026-05-01 10:22:22
蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

趣文说娱
2026-04-23 19:52:36
北京今日最高温26℃ 明日将现降雨降温并伴有大风

北京今日最高温26℃ 明日将现降雨降温并伴有大风

极目新闻
2026-05-01 07:57:32
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

趣文说娱
2026-04-17 21:37:03
这是啥剧情!34岁带队杀入总决赛,35岁被交易,36岁又要被交易?

这是啥剧情!34岁带队杀入总决赛,35岁被交易,36岁又要被交易?

球毛鬼胎
2026-04-30 21:16:41
导游讲解中称网红大熊猫“花花”是残疾,涉事旅行社致歉:将对涉事分社及相关责任人予以严肃处理

导游讲解中称网红大熊猫“花花”是残疾,涉事旅行社致歉:将对涉事分社及相关责任人予以严肃处理

极目新闻
2026-05-01 10:56:23
可以输但不能打得臭!倪夏莲惨败给华裔运动员,深陷自责无法原谅

可以输但不能打得臭!倪夏莲惨败给华裔运动员,深陷自责无法原谅

星星没有你亮
2026-05-01 04:32:22
央媒发文,高调官宣梁朝伟新身份,定居日本传闻5个月前早有真相

央媒发文,高调官宣梁朝伟新身份,定居日本传闻5个月前早有真相

叨唠
2026-05-01 01:44:57
太突然!凤岗一把手上午办公正常,下午官宣被查,东莞震动

太突然!凤岗一把手上午办公正常,下午官宣被查,东莞震动

呼呼历史论
2026-05-01 10:02:46
晚年找了2个老伴后发现:除了接吻,女人更渴望的是这7样东西

晚年找了2个老伴后发现:除了接吻,女人更渴望的是这7样东西

皓皓情感说
2026-04-27 07:25:05
2026-05-01 11:24:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3090815文章数 7043关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

牛弹琴:特朗普还是没抵住诱惑 诱惑中果然有陷阱

头条要闻

牛弹琴:特朗普还是没抵住诱惑 诱惑中果然有陷阱

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

健康
时尚
艺术
教育
手机

干细胞治烧烫伤面临这些“瓶颈”

今年夏天的裙子,长长长长一点更好看!

艺术要闻

石景,无可比拟!

教育要闻

一张图掌握六年级下的数学知识

手机要闻

部分 iPhone 17 Pro 和 iPhone Air 用户遇到充电问题

无障碍浏览 进入关怀版