网易首页 > 网易号 > 正文 申请入驻

我翻了6000多条日志,发现Claude推理深度暴跌67%

0
分享至

我翻了6000多条日志,发现Claude推理深度暴跌67%这不是感觉,是数据官方怎么说?一个新词火了:"AI缩水式通胀"一天中最差的时段:下午5点用户情绪崩溃:数据不会说谎那我们该怎么办?写在最后

昨天我在Reddit上刷到一个帖子,标题很简单:"Claude变蠢了?"

底下几百条回复,几乎都在说同一件事:最近用Claude,感觉它没以前聪明了。

有人说它回答更快了,但经常漏掉关键步骤。有人说它不再仔细读代码了。还有人说,它在长任务里更容易"提前结束",像是默认事情已经完成了。

我一开始觉得这可能只是个例。毕竟和AI协作这事儿,有时候确实挺玄学的——prompt写得不好,或者任务本身就不适合,都可能出问题。

但当我看到一个GitHub Issue的时候,我意识到这事儿没那么简单。

有人挖了6000多条会话日志,发现了一个让人震惊的数字:Claude的推理深度,下降了67%。

这个分析来自GitHub上的一个Issue(#42796)。

作者分析了6,852个Claude Code会话文件,包括17,871个thinking blocks和234,760次工具调用。

数据不会说谎。

推理深度的变化
- 1月底:平均约2,200字符
- 2月底:下降到约720字符
- 3月后:稳定在约600字符

下降幅度:67%。

更关键的是,这个变化不是突然发生的,而是从2月中旬开始逐步下降。

Read:Edit比例的变化
- 1月底:6.6(每编辑一次,平均读取6.6次)
- 3月后:2.0(每编辑一次,只读取2次)

这意味着什么?

以前Claude在改代码之前,会先读目标文件、读相关文件、grep搜索用法、读头文件和测试,然后才动手。现在呢?读一下当前文件,直接改。

结果就是:改错的地方、破坏周围代码、违反项目规范。

Anthropic没有直接承认"模型变弱了"。

Claude Code的开发负责人Boris给出的解释是:这些变化来自系统层的调整,包括工具调用方式、推理策略和资源分配机制。

他们引入了一个叫"自适应推理"(adaptive thinking)的机制。模型会根据任务复杂度,动态决定要用多少推理资源。

听起来挺合理的:简单任务少思考,复杂任务多思考,提升整体效率。

但问题在于:效率优化和能力削弱,在用户体验上没有区别。

当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务,用户感受到的不是优化,是敷衍。

社区里开始流行一个词:"AI shrinkflation"(AI缩水式通胀)。

这个词来自经济学术语,指商品的大小或数量减少,而价格不变。

放在AI语境下,意思很直接:模型实际给用户的能力变少了,但模型名称和价格没变。

更让人不舒服的是时间点。

4月7日,Anthropic发布了Claude Mythos Preview,被称为"能力跃迁的一代"。但这个模型不开放给公众,只授权给亚马逊、苹果、谷歌、微软等12家巨头用于网络安全。

一边是"更强的新模型"只给少数人用,一边是"体感变差的旧模型"让大众用。

于是,一个猜测开始在社区流传:把旧模型削了再抬新模型,一捧一踩,新模型的升级幅度就显得更大了。

这个逻辑没有直接证据,但它正在被越来越多用户相信。

数据分析还发现了一个有意思的现象:Claude的性能波动和时间段有关。

时段(PST): 下午5点 | 估算思考深度: 423字符 | 说明: 最差

时段(PST): 晚上7点 | 估算思考深度: 373字符 | 说明: 第二差

时段(PST): 晚上10-11点 | 估算思考深度: 759-988字符 | 说明: 恢复

下午5点PST是什么概念?是美国西海岸下班时间,东海岸晚上8点。

这个时候,平台负载最高,思考深度最低。

这说明了什么?

思考深度不再是固定的"预算",而是和平台负载挂钩。负载高的时候,模型"想得少";负载低的时候,模型"想得多"。

用户在为同样的订阅费买单,但得到的服务质量却在波动。

分析还对比了用户在变化前后的词汇使用:

词汇: "great" | 变化前: 3.00/千词 | 变化后: 1.57/千词 | 变化: -47%

词汇: "stop" | 变化前: 0.32/千词 | 变化后: 0.60/千词 | 变化: +87%

词汇: "simplest" | 变化前: 0.01/千词 | 变化后: 0.09/千词 | 变化: +642%

"simplest"这个词的使用增加了642%。这是用户在观察和命名模型的新行为:选择最简单的路径,而不是正确的路径。

正负情绪比从4.4:1下降到3.0:1,情绪崩溃了32%。

说实话,作为用户,我们能做的有限。但至少有几点可以参考:

1. 避开高峰时段

如果你发现Claude变笨了,看看时间。下午5点到晚上8点(美西时间)可能是最差的时段。深夜或清晨使用,体验可能会好一些。

2. 更明确的指令

当模型"想得少"的时候,你需要替它想得更多。把任务拆得更细,把要求说得更明确,减少它"偷懒"的空间。

3. 验证输出

不要完全信任模型的输出。尤其是复杂任务,多检查几遍。以前可能一次就对的,现在可能需要两三次迭代。

4. 考虑替代方案

如果你对Claude的表现不满意,可以试试其他模型。GPT-6刚发布,Gemini也在持续更新。不同的模型有不同的特点,找到适合你工作流的那一个。

这篇文章不是要"黑"Claude。作为一个长期使用Claude的用户,我对这个产品有感情。

但感情归感情,数据归数据。

当模型的推理深度下降67%,当Read:Edit比例从6.6降到2.0,当用户情绪崩溃32%——这不是"优化",这是退化。

更让人担心的是,这种变化是"静悄悄"的。没有版本说明,没有提前通知,用户只能在一次次失败的协作中自己发现问题。

AI行业的"缩水式通胀"可能才刚刚开始。今天Claude削了,明天会不会轮到GPT?

我们需要的不是更快的回答,而是更可靠的回答。

如果这篇文章对你有帮助,点个赞、转发给需要的朋友。有问题评论区聊,我看到都会回。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股分红派息转增一览:63股今日股权登记

A股分红派息转增一览:63股今日股权登记

每日经济新闻
2026-06-29 08:07:06
退休人员注意!养老金有点小特殊,领取7月养老金,注意几个变化

退休人员注意!养老金有点小特殊,领取7月养老金,注意几个变化

社保小达人
2026-06-29 10:58:07
农业网红诋毁杂交水稻,媒体:一些人还是吃得太饱了!

农业网红诋毁杂交水稻,媒体:一些人还是吃得太饱了!

齐鲁壹点
2026-06-28 17:17:09
刚刚,比亚迪官宣:新车18.88万起!

刚刚,比亚迪官宣:新车18.88万起!

手机评测室
2026-06-29 12:07:47
1935年,一小红军被枪杀前,提一要求,土匪听后,放人还给钱

1935年,一小红军被枪杀前,提一要求,土匪听后,放人还给钱

云霄纪史观
2026-06-29 16:41:42
西工大立大功!全世界都没想到,中国技术居然再次“弯道超车”

西工大立大功!全世界都没想到,中国技术居然再次“弯道超车”

粤语音乐喷泉
2026-06-27 14:55:28
毛主席视察南京,忽然问谭震林:老实交代,你银行里存了多少钱

毛主席视察南京,忽然问谭震林:老实交代,你银行里存了多少钱

芊芊子吟
2026-06-27 16:30:08
唐朝古籍里发现月亮的离奇记载:表面凹凸不平,有8万名专人维修

唐朝古籍里发现月亮的离奇记载:表面凹凸不平,有8万名专人维修

文史达观
2026-06-26 14:48:28
高考改变不了你的命运!女孩699分,家庭状况却让父亲看清现实!

高考改变不了你的命运!女孩699分,家庭状况却让父亲看清现实!

林林先生
2026-06-29 15:55:42
莫德里奇:穆里尼奥没有联系我,祝他一切顺利

莫德里奇:穆里尼奥没有联系我,祝他一切顺利

懂球帝
2026-06-29 16:34:10
小舅子买房差81万,岳母让我掏钱,老婆拍桌:我家钱是大风刮来

小舅子买房差81万,岳母让我掏钱,老婆拍桌:我家钱是大风刮来

云端小院
2026-06-29 10:10:51
俄媒:伊朗购48架中国二手歼-10B,退役战机受追捧

俄媒:伊朗购48架中国二手歼-10B,退役战机受追捧

阿鰤科普记录
2026-06-25 18:38:14
俄军千枚巡航导弹为何打不垮乌克兰?中国火箭军汲取三大残酷教训

俄军千枚巡航导弹为何打不垮乌克兰?中国火箭军汲取三大残酷教训

可乐爱微笑
2026-06-29 17:51:42
日本豪言夺冠被嘲?安帅:当决赛踢!巴西内马尔15分钟定乾坤?

日本豪言夺冠被嘲?安帅:当决赛踢!巴西内马尔15分钟定乾坤?

带你逛体坛
2026-06-29 14:30:15
朝阳群众再立功!这家印度网红店,上午巅峰下午被清零,老板黑户

朝阳群众再立功!这家印度网红店,上午巅峰下午被清零,老板黑户

妙娱连珠
2026-06-29 16:59:06
中印签证政策争议:40%拒签率引印媒集体破防

中印签证政策争议:40%拒签率引印媒集体破防

曹莽看世界
2026-06-29 17:27:51
演都不演了?奖杯没到手当场“甩脸子”的杨幂,印证了李少红的话

演都不演了?奖杯没到手当场“甩脸子”的杨幂,印证了李少红的话

岁月轻纱
2026-06-27 13:19:50
13岁女孩因家族遗传脱发选择剃光头,乐观表现获千万网友点赞

13岁女孩因家族遗传脱发选择剃光头,乐观表现获千万网友点赞

英国那些事儿
2026-06-27 23:10:52
“不准问价”的暴躁老头栽了!七万卤菜店被查封,网友:早该查了

“不准问价”的暴躁老头栽了!七万卤菜店被查封,网友:早该查了

吃货的分享
2026-06-29 17:39:56
国央企新一轮“瘦身”改革:管理层级压缩!

国央企新一轮“瘦身”改革:管理层级压缩!

细说职场
2026-06-29 15:39:02
2026-06-29 20:11:00
AI效率笔记
AI效率笔记
专注AI工具测评与效率提升。
398文章数 12关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

近20家半导体企业开启新一轮涨价潮

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

时尚
本地
亲子
游戏
健康

伊姐周日热推:电视剧《千香》;电视剧《非份之罪》......

本地新闻

贵州小城的新目标:举办“村超”世界杯!

亲子要闻

宝蓝在客厅玩堆纸杯的游戏,好不容易都堆好,结果全被叔叔推倒了

R星取消《GTA6》实体版!三大原因带你看清背后真相

狂吃“糯叽叽”小心肠梗阻!

无障碍浏览 进入关怀版