网易首页 > 网易号 > 正文 申请入驻

Claude Code 更新后“翻车”,思考深度骤降67%,“无法再信任其处理复杂工程任务”!

0
分享至

Anthropic旗下AI编程工具Claude Code遭遇严重口碑危机。来自AMD的AI总监在GitHub官方仓库公开提交问题报告,基于对数万条会话日志的量化分析,指控Claude Code自今年2月起出现系统性能力退化,思考深度骤降67%,模型行为全面走样。这一报告迅速在开发者社区引爆讨论,将Anthropic推上舆论风口。

提交这份分析报告的是AMD的AI团队负责人Stella Laurenzo。她在GitHub官方仓库直接开Issue,措辞严峻:"Claude已无法被信任来执行复杂工程任务。"她表示,团队已切换至其他服务商,并警告Anthropic:"6个月前,Claude在推理质量和执行能力上独树一帜。但现在,其他竞争者需要被非常认真地关注和评估。"


这一Issue在Hacker News上迅速发酵,获得975点支持和548条评论,成为近期Claude Code相关讨论中热度最高的帖子之一。网友评论直指问题核心——"ClaudeCode曾经像一个聪明的结对编程伙伴,现在感觉像一个过于热情的实习生,不停地把事情搞砸,然后建议最简单的临时方案";"最近总跟我说'你该去睡觉了。太晚了,今天就到这吧'这类话,一开始我还以为是我不小心让Claude知道了我的deadline。"

Anthropic对此作出回应。Claude Code团队成员Boris出面澄清,称思考内容隐藏功能(redact-thinking)仅为界面层面的改动,"不会影响模型内部实际的推理逻辑本身,也不会影响思考预算或底层推理运行机制"。

他同时承认,团队在2月进行了两项实质性调整:一是2月9日随Opus 4.6发布引入"自适应思考"(adaptive thinking)机制;二是3月3日将默认effort等级从高调整为中等(Medium)。Boris建议用户通过/effort high指令或修改配置文件手动恢复高强度思考模式。

然而,这一解释并未平息社区质疑。多位开发者表示,即便将effort调至最高,"急于完成任务"的摆烂行为依然存在。用户richardjennings称:

"在输出质量断崖式下跌之前,我完全不知道默认effort已经被改成了Medium。为了纠正这些问题,我大概花了一整天的工作时间。"
数据实锤:思考深度骤降,行为全面走样

Laurenzo的分析基于其团队在~/.claude/projects/目录下积累的6852个Claude Code会话JSONL文件,覆盖17871个思考块、234760次工具调用及18000余条用户提示词,时间跨度从2026年1月底延伸至4月初,全程使用Anthropic官方API直连Opus模型。


数据揭示了一条清晰的退化时间线。在1月30日至2月8日的"优质期",Claude Code的思考深度中位值约为2200字符;到2月下旬,这一数字暴跌至约720字符,降幅达67%;3月初进一步缩水至约560字符,降幅达75%。


思考深度的崩塌直接引发了工具使用模式的根本性转变。在优质期,Claude Code修改代码前的"读改比"(每次编辑前的文件读取次数)高达6.6,遵循"先研究再修改"的严谨工作流。而到3月8日之后的"退化期",这一比率骤降至2.0,研究投入减少约70%。更触目惊心的是,退化期内每三次代码修改中,就有一次是在未读取目标文件的情况下直接进行的——这直接导致代码被插入错误位置、注释语义关联被破坏等低级错误频发。


行为层面的量化指标同样触目惊心。用于捕捉"推诿责任、提前终止、请求许可"等不良行为的终止钩子脚本(stop-phrase-guard.sh),在3月8日之前从未触发;而在此后17天内,触发次数飙升至173次,平均每天10次。用户提示词中的负面情绪占比从5.8%升至9.8%,涨幅68%;用户中断率(即用户发现模型犯错并强行终止的频率)从优质期到后期飙升了12倍。



隐藏的"思考内容隐藏"功能:退化被刻意遮蔽?

Laurenzo的分析指出,上述退化与一项名为redact-thinking-2026-02-12的功能部署时间线高度吻合。数据显示,该功能从3月5日开始灰度上线(1.5%),至3月10日至11日已覆盖逾99%的请求,3月12日起全量生效。

这一功能的作用是在API响应中剥离思考内容,使用户无法从外部观察模型的实际推理过程。Laurenzo认为,这一设计客观上使思考深度的退化对用户变得不可见——"3月初上线的隐藏功能,只是让这一退化对用户变得不可见。

她进一步指出,思考深度的下降实际上早于该功能上线,在2月中旬便已开始。这与Anthropic在2月9日推出Opus 4.6并引入"自适应思考"(adaptive thinking)模式,以及3月3日将默认思考等级调整为"Medium effort"(effort=85)的时间节点相吻合。

报告还发现,思考深度在隐藏功能上线后呈现出明显的时段波动特征——太平洋时间17:00(美国西海岸下班时段)是全天最差时段,中位估算思考深度仅423字符;19:00为第二差时段,仅373字符。


这一模式与固定预算分配不符,更接近负载敏感型动态分配系统的特征,暗示思考资源可能随平台负载实时波动。

Anthropic官方回应:设置问题,非模型退化

面对GitHub议题的快速发酵,Claude Code团队成员Boris在数小时内于GitHub和Hacker News双平台作出回应,承认了部分问题的存在并提供了技术解释。

Boris的核心澄清包括:

  • 第一、思考内容隐藏功能(redact-thinking)属于UI层改动,不影响实际推理过程,用户可通过settings.json中的showThinkingSummaries: true选项恢复显示;
  • 第二、2月下旬的思考深度下降,主要与2月9日Opus 4.6引入自适应思考机制(adaptive thinking)以及3月3日默认effort等级调整为中等有关,前者可通过CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1关闭,后者可通过/effort high或/effort max手动提升。

Boris还表示,团队计划测试将Teams和Enterprise用户的默认effort等级调整为高,并正在就部分用户反映的自适应思考机制在特定轮次分配推理不足的问题展开调查。

然而,这一解释在社区中引发广泛质疑。用户koverstreet回应称:

"问题远不止是默认思考等级被改成了中等。即便把effort调到最高,模型'急于完成任务'的摆烂行为也明显变多了。"

还有用户直接指出,原始报告的提交者在提交时已采用了所有已知的公开设置,问题并非配置不当。一位用户提出讽刺性反问:

"这是一种什么精神——告诉用户'你们调错设置了'"。
成本雪崩与用户出走

退化带来的代价不仅是质量损失,更引发了成本的灾难性膨胀。

Laurenzo的数据显示,从2月到3月,其团队的用户提示词数量几乎持平(5608条 vs 5701条),但API请求量暴涨80倍,总输入token增长170倍,输出token增长64倍,按Bedrock Opus定价估算的月度成本从345美元飙升至42121美元,涨幅达122倍。


Laurenzo解释,成本暴涨部分源于团队主动扩容并发Agent数量,但退化本身造成的无效循环、频繁中断和重试,使每单位有效工作消耗的API请求量额外放大了8至16倍。团队最终被迫关停整个Agent集群,退回到单会话人工监督模式。Laurenzo写道:

"人类投入的工作量几乎没变,但模型消耗了80倍的API请求和64倍的输出token,却产出了明显更差的结果。"

在Hacker News的讨论中,大量用户表达了类似遭遇,部分人已宣布切换至OpenAI Codex或其他替代方案。"我已经取消了订阅,切换到了Codex";"现在用Qwen3.5-27b,虽然不如两个月前的Opus那么锋利,但我们又能正常推进工作了。"

用户自救:临时应对方案

面对退化,部分开发者已摸索出若干临时应对策略。

在CLAUDE.md中明确授权是最常见的做法——通过在项目根目录的配置文件中写入"你有权编辑本项目任何文件""不要在重构时请求确认"等指令,可在实践中将安全中断频率降低约70%。

将复杂任务拆解为边界清晰的子任务,也被广泛验证有效。相比"重构整个认证系统","仅重构auth.js,完成后输出变更摘要"这类有明确边界的指令,能显著减少模型的提前终止行为。

在设置层面,将effort调至high或max,并通过CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1禁用自适应思考,是目前官方认可的最直接干预手段。

Laurenzo则在报告中提出了更系统性的诉求:Anthropic应公开思考token的分配情况,推出面向复杂工程工作流的"满额思考"专属订阅档位,并在API响应中暴露thinking_tokens字段,让用户能够自主监控推理深度是否达标。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一包中国方便面,在朝鲜为何成了普通人高攀不起的“奢侈品”?

一包中国方便面,在朝鲜为何成了普通人高攀不起的“奢侈品”?

复转这些年
2026-04-07 12:22:45
美伊停火协议细节公布!黄金直线拉升,国际油价大跳水,股市巨震

美伊停火协议细节公布!黄金直线拉升,国际油价大跳水,股市巨震

鲁中晨报
2026-04-07 07:21:14
湖北发布社会公众风险提示:强对流来袭,局地有冰雹

湖北发布社会公众风险提示:强对流来袭,局地有冰雹

界面新闻
2026-04-07 13:32:37
郑丽文刚到大陆,不到24小时,赖清德打破沉默,呼吁两岸展开对话

郑丽文刚到大陆,不到24小时,赖清德打破沉默,呼吁两岸展开对话

阿纂看事
2026-04-07 18:13:54
真护士去假医院上班,假病人却想真看病!一家没病硬看的医院,在欧洲火爆了...

真护士去假医院上班,假病人却想真看病!一家没病硬看的医院,在欧洲火爆了...

英国那些事儿
2026-04-06 23:17:24
伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

观察者小海风
2026-04-07 16:07:23
“不惜一切代价”与“不惜一切代价”

“不惜一切代价”与“不惜一切代价”

名人苟或
2026-04-07 06:09:28
因太漂亮被导演“收入囊中”的4位女星,有一位戏没拍完就怀孕了

因太漂亮被导演“收入囊中”的4位女星,有一位戏没拍完就怀孕了

雅儿姐游世界
2026-04-05 14:48:13
日媒:日本一老人在景点与女子发生争执啃咬对方手臂,被捕后短时间内死亡,警方正调查死因

日媒:日本一老人在景点与女子发生争执啃咬对方手臂,被捕后短时间内死亡,警方正调查死因

环球网资讯
2026-04-07 11:12:37
大嘴女星睡叔圈顶流养小鲜肉的瓜

大嘴女星睡叔圈顶流养小鲜肉的瓜

十锤星人
2026-04-06 23:29:43
为啥说最好不要送孩子出国?网友:希望你的孩子跟你眼界一样

为啥说最好不要送孩子出国?网友:希望你的孩子跟你眼界一样

解读热点事件
2026-04-03 00:05:08
时隔两年凯特复活节惊喜现身!7岁路易王子一条长裤就让英媒炸锅,关注点好奇怪!

时隔两年凯特复活节惊喜现身!7岁路易王子一条长裤就让英媒炸锅,关注点好奇怪!

新欧洲
2026-04-07 19:17:10
“千古奇冤”阿隆索!皇马换帅后战绩直线下滑,根源直指管理层!

“千古奇冤”阿隆索!皇马换帅后战绩直线下滑,根源直指管理层!

田先生篮球
2026-04-07 11:22:53
果然阳谋在任何面前都是无敌的!网友:把水搅混了,也是一种智慧

果然阳谋在任何面前都是无敌的!网友:把水搅混了,也是一种智慧

夜深爱杂谈
2026-04-07 17:50:08
张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

百言君
2026-04-06 23:11:58
研究表明:性生活越频繁,射精和勃起问题越少!

研究表明:性生活越频繁,射精和勃起问题越少!

黯泉
2026-04-05 20:40:12
森林狼遭遇雷霆式悲剧!为省钱抛弃自己的哈登,场均20+3才1500万

森林狼遭遇雷霆式悲剧!为省钱抛弃自己的哈登,场均20+3才1500万

你的篮球频道
2026-04-07 14:20:04
6岁女童遇害:家属含泪爆作案动机,凶手被抓后冷静异常,太愤怒

6岁女童遇害:家属含泪爆作案动机,凶手被抓后冷静异常,太愤怒

眼光很亮
2026-04-07 11:38:00
惨遭36连败!景菡一:我冒着受伤风险倾尽所有 但确实是没办法

惨遭36连败!景菡一:我冒着受伤风险倾尽所有 但确实是没办法

狼叔评论
2026-04-07 23:02:22
福建警方通报“车辆坠河致5人遇难”:陈某某(女,45岁)因操作不当意外坠河,造成车内5人死亡

福建警方通报“车辆坠河致5人遇难”:陈某某(女,45岁)因操作不当意外坠河,造成车内5人死亡

大象新闻
2026-04-07 19:45:13
2026-04-08 00:28:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
144184文章数 2653150关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普恐吓4小时摧毁伊朗 伊朗称"打穿"海法未见拦截

头条要闻

特朗普恐吓4小时摧毁伊朗 伊朗称"打穿"海法未见拦截

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

本地
房产
旅游
数码
游戏

本地新闻

跟着歌声游安徽,听古村回响

房产要闻

重磅!三亚拟出安居房新政!

旅游要闻

三天迎客超四万人次,TOP中央公园成清明假期市民“微度假”热门地

数码要闻

OPPO ColorOS共创者星球2026年第1期高票建议采纳情况公布

叫得越凶分越高!Steam"狗叫模拟器"5月1日抢先体验

无障碍浏览 进入关怀版