网易首页 > 网易号 > 正文 申请入驻

我翻了6000多条日志,发现Claude推理深度暴跌67%

0
分享至

我翻了6000多条日志,发现Claude推理深度暴跌67%这不是感觉,是数据官方怎么说?一个新词火了:"AI缩水式通胀"一天中最差的时段:下午5点用户情绪崩溃:数据不会说谎那我们该怎么办?写在最后

昨天我在Reddit上刷到一个帖子,标题很简单:"Claude变蠢了?"

底下几百条回复,几乎都在说同一件事:最近用Claude,感觉它没以前聪明了。

有人说它回答更快了,但经常漏掉关键步骤。有人说它不再仔细读代码了。还有人说,它在长任务里更容易"提前结束",像是默认事情已经完成了。

我一开始觉得这可能只是个例。毕竟和AI协作这事儿,有时候确实挺玄学的——prompt写得不好,或者任务本身就不适合,都可能出问题。

但当我看到一个GitHub Issue的时候,我意识到这事儿没那么简单。

有人挖了6000多条会话日志,发现了一个让人震惊的数字:Claude的推理深度,下降了67%。

这个分析来自GitHub上的一个Issue(#42796)。

作者分析了6,852个Claude Code会话文件,包括17,871个thinking blocks和234,760次工具调用。

数据不会说谎。

推理深度的变化
- 1月底:平均约2,200字符
- 2月底:下降到约720字符
- 3月后:稳定在约600字符

下降幅度:67%。

更关键的是,这个变化不是突然发生的,而是从2月中旬开始逐步下降。

Read:Edit比例的变化
- 1月底:6.6(每编辑一次,平均读取6.6次)
- 3月后:2.0(每编辑一次,只读取2次)

这意味着什么?

以前Claude在改代码之前,会先读目标文件、读相关文件、grep搜索用法、读头文件和测试,然后才动手。现在呢?读一下当前文件,直接改。

结果就是:改错的地方、破坏周围代码、违反项目规范。

Anthropic没有直接承认"模型变弱了"。

Claude Code的开发负责人Boris给出的解释是:这些变化来自系统层的调整,包括工具调用方式、推理策略和资源分配机制。

他们引入了一个叫"自适应推理"(adaptive thinking)的机制。模型会根据任务复杂度,动态决定要用多少推理资源。

听起来挺合理的:简单任务少思考,复杂任务多思考,提升整体效率。

但问题在于:效率优化和能力削弱,在用户体验上没有区别。

当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务,用户感受到的不是优化,是敷衍。

社区里开始流行一个词:"AI shrinkflation"(AI缩水式通胀)。

这个词来自经济学术语,指商品的大小或数量减少,而价格不变。

放在AI语境下,意思很直接:模型实际给用户的能力变少了,但模型名称和价格没变。

更让人不舒服的是时间点。

4月7日,Anthropic发布了Claude Mythos Preview,被称为"能力跃迁的一代"。但这个模型不开放给公众,只授权给亚马逊、苹果、谷歌、微软等12家巨头用于网络安全。

一边是"更强的新模型"只给少数人用,一边是"体感变差的旧模型"让大众用。

于是,一个猜测开始在社区流传:把旧模型削了再抬新模型,一捧一踩,新模型的升级幅度就显得更大了。

这个逻辑没有直接证据,但它正在被越来越多用户相信。

数据分析还发现了一个有意思的现象:Claude的性能波动和时间段有关。

时段(PST): 下午5点 | 估算思考深度: 423字符 | 说明: 最差

时段(PST): 晚上7点 | 估算思考深度: 373字符 | 说明: 第二差

时段(PST): 晚上10-11点 | 估算思考深度: 759-988字符 | 说明: 恢复

下午5点PST是什么概念?是美国西海岸下班时间,东海岸晚上8点。

这个时候,平台负载最高,思考深度最低。

这说明了什么?

思考深度不再是固定的"预算",而是和平台负载挂钩。负载高的时候,模型"想得少";负载低的时候,模型"想得多"。

用户在为同样的订阅费买单,但得到的服务质量却在波动。

分析还对比了用户在变化前后的词汇使用:

词汇: "great" | 变化前: 3.00/千词 | 变化后: 1.57/千词 | 变化: -47%

词汇: "stop" | 变化前: 0.32/千词 | 变化后: 0.60/千词 | 变化: +87%

词汇: "simplest" | 变化前: 0.01/千词 | 变化后: 0.09/千词 | 变化: +642%

"simplest"这个词的使用增加了642%。这是用户在观察和命名模型的新行为:选择最简单的路径,而不是正确的路径。

正负情绪比从4.4:1下降到3.0:1,情绪崩溃了32%。

说实话,作为用户,我们能做的有限。但至少有几点可以参考:

1. 避开高峰时段

如果你发现Claude变笨了,看看时间。下午5点到晚上8点(美西时间)可能是最差的时段。深夜或清晨使用,体验可能会好一些。

2. 更明确的指令

当模型"想得少"的时候,你需要替它想得更多。把任务拆得更细,把要求说得更明确,减少它"偷懒"的空间。

3. 验证输出

不要完全信任模型的输出。尤其是复杂任务,多检查几遍。以前可能一次就对的,现在可能需要两三次迭代。

4. 考虑替代方案

如果你对Claude的表现不满意,可以试试其他模型。GPT-6刚发布,Gemini也在持续更新。不同的模型有不同的特点,找到适合你工作流的那一个。

这篇文章不是要"黑"Claude。作为一个长期使用Claude的用户,我对这个产品有感情。

但感情归感情,数据归数据。

当模型的推理深度下降67%,当Read:Edit比例从6.6降到2.0,当用户情绪崩溃32%——这不是"优化",这是退化。

更让人担心的是,这种变化是"静悄悄"的。没有版本说明,没有提前通知,用户只能在一次次失败的协作中自己发现问题。

AI行业的"缩水式通胀"可能才刚刚开始。今天Claude削了,明天会不会轮到GPT?

我们需要的不是更快的回答,而是更可靠的回答。

如果这篇文章对你有帮助,点个赞、转发给需要的朋友。有问题评论区聊,我看到都会回。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗向中方通报谈判内幕!代表团险遭美军“团灭”,全程不敢打电话

伊朗向中方通报谈判内幕!代表团险遭美军“团灭”,全程不敢打电话

小莜读史
2026-04-20 03:32:16
为什么很多离异的30-40岁女性很难再婚?网友:思想不够不开放!

为什么很多离异的30-40岁女性很难再婚?网友:思想不够不开放!

夜深爱杂谈
2026-04-19 09:48:34
调查发现:每天都走路的人,大多到了75岁后,身体或有5种变化

调查发现:每天都走路的人,大多到了75岁后,身体或有5种变化

白话电影院
2026-04-07 13:28:35
这是李鸿章妻妾的真实样貌,个个美艳身材修长,颜值不输当代女星

这是李鸿章妻妾的真实样貌,个个美艳身材修长,颜值不输当代女星

阿废冷眼观察所
2026-04-11 18:41:14
苏林坐火车回到河内,河内火车站铺了红毯,迎接人员站一排

苏林坐火车回到河内,河内火车站铺了红毯,迎接人员站一排

星星会坠落
2026-04-19 17:08:00
2-1,4-2!足坛疯狂一夜,拜仁提前四轮卫冕!阿森纳掉链子,英超冠军悬了!巴黎爆冷!

2-1,4-2!足坛疯狂一夜,拜仁提前四轮卫冕!阿森纳掉链子,英超冠军悬了!巴黎爆冷!

体坛最前线66
2026-04-20 06:18:31
抵京!首钢新外援威廉姆斯:我是全能型,会去做球队要求的一切

抵京!首钢新外援威廉姆斯:我是全能型,会去做球队要求的一切

懂球帝
2026-04-19 22:36:59
西班牙将正式提议欧盟终止与以色列联系国协议

西班牙将正式提议欧盟终止与以色列联系国协议

新京报
2026-04-19 20:40:08
八卦记者:姆巴佩与女友被拍到喝咖啡,两人关系趋于稳定

八卦记者:姆巴佩与女友被拍到喝咖啡,两人关系趋于稳定

科学发掘
2026-04-20 01:14:12
阿斯:皇马向吕迪格提供了一年续约报价,认为他最终会接受

阿斯:皇马向吕迪格提供了一年续约报价,认为他最终会接受

懂球帝
2026-04-20 05:42:05
夫妻花1100元买下上海废弃水塔住,16年后拆迁时俩人愣在原地

夫妻花1100元买下上海废弃水塔住,16年后拆迁时俩人愣在原地

小郡主讲故事
2026-04-14 09:01:06
明天谷雨,牢记:1不晒、2要躲、3不坐、4要吃,寓意五谷丰登!

明天谷雨,牢记:1不晒、2要躲、3不坐、4要吃,寓意五谷丰登!

阿龙美食记
2026-04-19 11:50:47
新任市委书记低调参加家长会,班主任嘲讽他:你儿子不配进重点班

新任市委书记低调参加家长会,班主任嘲讽他:你儿子不配进重点班

红豆讲堂
2025-10-05 16:30:07
局势恶化,日媒曝高市为战争铺路,30国已介入

局势恶化,日媒曝高市为战争铺路,30国已介入

笙歌君独幽a
2026-04-20 05:13:48
“蛋挞”不读dàn tǎ,但太多人一直这样错读,是时候改正了!

“蛋挞”不读dàn tǎ,但太多人一直这样错读,是时候改正了!

未央看点
2026-04-20 00:04:24
卡梅隆·迪亚兹:2003年那顿饭,终结了明星时代

卡梅隆·迪亚兹:2003年那顿饭,终结了明星时代

热搜摘要官
2026-04-19 05:19:52
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
许家印案最新进展:68岁认罪,前恒大歌舞团长白珊珊被曝定居澳门

许家印案最新进展:68岁认罪,前恒大歌舞团长白珊珊被曝定居澳门

鉴史录
2026-04-19 09:44:38
封锁仅3天,美军心已崩盘,调查机构开始介入,特朗普有麻烦了

封锁仅3天,美军心已崩盘,调查机构开始介入,特朗普有麻烦了

栗子熟了呀
2026-04-19 09:41:10
欧尔班威胁:下周恢复油运我们就解冻90亿欧元援助

欧尔班威胁:下周恢复油运我们就解冻90亿欧元援助

桂系007
2026-04-19 23:49:10
2026-04-20 06:52:49
AI效率笔记
AI效率笔记
专注AI工具测评与效率提升。
390文章数 10关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

健康
教育
数码
房产
亲子

干细胞抗衰4大误区,90%的人都中招

教育要闻

中国为什么不禁网络游戏?

数码要闻

华为新机发布前瞻:阔折叠X Max+影像旗舰Pura 90,都没悬念了

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

亲子要闻

孩子总打喷嚏、起疹子,时过敏吗?

无障碍浏览 进入关怀版