网易首页 > 网易科技 > 网易科技 > 正文

最强编程AI被指降智!网友吵翻天,官方紧急回应被群嘲:缩水也叫优化?

0
分享至

出品 | 网易智能

作者 | 辰辰

编辑 | 王凤枝

最强的编程AI,到底降没降智?

今年2月初,Anthropic发布Claude Opus 4.6,其凭借着深邃的推理逻辑和对复杂代码规范的精准执行,被业界奉为代码真神。

然而好景不长,发布仅数周后就不断有用户在社交媒体上声讨,称其性能出现了断崖式下跌。


不少用户声称自己付着同样高昂的月费,换来的却是一个被明显降智的缩水版本,Opus 4.6开始变得懒惰与健忘,甚至在基础逻辑里反复撞墙。

面对全网的声讨,Anthropic官方团队出面回应,他们辩称从未削弱模型,种种异常表现只是为了帮用户节省Token而做出的默认配置优化。

这种单方面的技术辩解显然无法平息开发者的怒火。

这究竟是大量用户的集体心理错觉,还是资本在算力瓶颈下精心炮制的缩水?

一、AMD高管的深度分析:6852份日志见端倪

如果说普通用户的抱怨只是体感,那么斯特拉·劳伦佐(Stella Laurenzo)的分析,则是让这件事彻底“实锤”了。

根据领英资料,劳伦佐是AMD的AI部门高级总监,目前在AMD领导一支庞大的团队为开源AI编译器开发贡献力量。她曾在谷歌担任首席软件工程师,后作为前Nod.ai工程副总裁加入AMD。

4月2日,劳伦佐在GitHub上发布了一份详尽的性能回溯报告。

作为一名顶级AI专家,她没有只凭直觉说话,而是详细分析了6852份Claude Code会话文件与17871个思考块以及超过23万次工具调用记录,堪称一份详尽的高水平个案研究。


这份基于海量数据的分析揭露了一个令人不安的真相,从今年2月份开始,Claude的推理深度就出现了断崖式下跌。

细节信息显示:

推理字数缩减:中位思考长度从2200字符缩减到了600字符。

研究退化:以前Claude在写代码前会进行多轮研究(Research),现在的模式变成了直接上手改(Edit),这导致读取与编辑的比率从6.6倍降至2.0倍。

任务早退:在短短17天内,Claude尝试放弃任务或反问我是否应该继续的次数达到了173次,而在3月8日之前这个数字是0。

自相矛盾:推理过程中的自我否定(如“哦等等,实际上……”)频率增加了三倍。

劳伦佐的结论非常冷酷,对于高级工程工作流来说,深度推理不是奢侈品而是模型可用的前提,现在Claude在复杂工程中已经靠不住了。

不过需要注意的是,劳伦佐的分析结论只是说今年2月底Claude思考长度缩短了67%,推文将思考量减少直接等同于智力下降的说法难论严谨。

二、社交媒体的证言墙:40分钟的思考与无效的账单

劳伦佐的帖子迅速引爆了社交媒体X和Reddit,无数开发者发现自己遇到的问题与这份报告高度契合。

网红开发者奥姆·帕特尔(Om Patel)直接在X上贴出了结论,有人测出了Claude变笨了多少,答案是67%。

他的论点主要集中在Opus 4.6的思考量比以前少了三分之二。他讽刺地写道,Anthropic一直保持沉默,直到这些数字被公开,他们的团队才出来灭火。

帕特尔还在推文中透露,泄露的源代码显示他们有一个内部开关,可以让模型在Anthropic员工使用时保持最佳状态。不过这一说法尚未得到独立验证,Anthropic也未对此作出回应。

他还直言,有人说Anthropic故意降低Opus的性能,是为了节省计算资源来训练他们的下一个模型Mythos。但这一推测同样缺乏直接证据。

在Reddit上,用户们的吐槽则更具具像化,也更显无奈:

坐等式思考:用户DangerousSetOfBewbs称他曾让Claude处理一个500行的文件,结果Claude进入了长达24分钟的思考中状态,只是在那里干坐着。还有网友附和,让它做研究,40分钟几乎没用什么Token,所以根本不清楚它这40分钟到底做了什么。


规则视若无睹:许多开发者习惯在CLAUDE.md中设定项目规范,但现在Claude仿佛患上了失忆症。一位用户愤怒地留言,如果你不盯着它的输出,它能分分钟毁掉你的代码库。

价格没变智力降级:这就是典型的缩水通胀。Reddit用户Firm_Meeting6350说,我今天退订了Claude Max 20并转投了Codex Pro,Claude现在给我的感觉就像在用过时的旧模型。

三、跑分迷雾:从第2名到第10名的跌落

如果用户抱怨还可以解释成主观感受,那么基准测试则似乎要拿真实数据讨说法。

4月12日,专门负责幻觉基准测试的机构BridgeMind发布了一条推文,直接将争议推向高潮。

推文指出Claude Opus 4.6被削弱了,BridgeBench刚刚证明了这一点。上周它排名第2且准确率83.3%,今天重测它掉到了第10且准确率仅剩68.3%,幻觉率增加了98%。


然而这一测试结果遭到了反驳。外部AI研究员保罗·卡尔克拉夫特(Paul Calcraft)随后指出测试中存在误导性,BridgeMind的两次测试并不是对等比较。第一次测试只涵盖了6个任务,而第二次测试扩充到了30个任务。

卡尔克拉夫特指出,如果只看那6个共同的任务,Claude的得分仅从87.6%轻微波动到85.4%,最大的偏差几乎来自于单个虚构结果,这种差异在统计学上完全可以归类为噪音。

这场跑分争议本身也说明,目前业界缺乏统一且可复现的AI性能基准测试标准,很多测试颇有先下结论后找论据的风格,用户很难从测试数据中获得确定性的答案。

然而那个跌落至第10名的数据在社交媒体上疯传,截图给人的视觉冲击力使其成为了Claude降智这一说法的最有力佐证。

四、官方回应:是优化而非削弱

面对汹汹民意,Anthropic的核心团队成员不得不公开回应。

Claude Code负责人鲍里斯·切尔尼(Boris Cherny)在劳伦佐的GitHub原文下认真解释了一通,并在X上连发数条回复,核心观点只有一个,他们没有削弱模型,只是为了响应用户反馈调低了默认的努力程度。

切尔尼表示,很多用户此前反馈Claude消耗Token太多。为了响应用户反馈,Anthropic做了以下改变:

默认努力度降级:在3月3日默认将推理努力度设置为中等,如果你想要深度推理,需要手动输入对应高级指令。

前端隐藏思考过程:改变了前端显示,不再完整展示思考块,减少了延迟,但这不影响思考预算或后端的深度推理。

自适应思考机制:在2月9日引入了动态调整机制。

Claude Code团队成员塔里克·希希帕尔(Thariq Shihipar)也力挺自己的部门老大,他连发数条推文用技术层面的解释打消用户疑虑,还坚称公司不会为了更好地满足需求而降低模型性能。


值得注意的是,切尔尼提到的默认努力度降级,恰好可以解释劳伦佐分析报告中的思考长度缩短与研究行为减少以及任务放弃频率上升等多种现象,这与推理处于中等的默认设置高度吻合。

然而官方解释并不能平息众怒,社交媒体上很多用户都认为,如果为了帮用户省钱而降低性能或者给出错误答案,那这种省钱根本毫无意义可言。

何况公司没通知就直接进行了调整,直接损害了用户的知情权。

五、幕后暗战:缓存生存时间与算力瓶颈

除了推理深度的变化,不少用户还注意到Claude变得更贵了。

GitHub上一份编号为46829的反馈指出,Claude Code的提示词缓存生存时间从原本的1小时被缩短到了5分钟。

这意味着对于长时间工作的程序员来说,你刚才跟Claude说的话,5分钟后它就忘了。为了继续工作,你需要重新上传上下文。

这不仅增加了延迟,更让用户的Token消耗量激增,使得一些订阅用户开始触及以前从未遇到的使用上限。

Anthropic工程师贾里德·萨姆纳(Jarred Sumner)承认了3月6日的这一改变,但辩称这是为了持续的缓存优化工作而不是暗中降级。在开发者眼中,这无异于证实了官方确实在后台积极调整缓存行为,而这正是大家抱怨配额消耗过快的时间段。

不管是Claude变笨也好变贵也罢,Reddit网友raven2cz的说辞堪称一语中的。

这两大问题也就是额度限制和思考能力下降都与基础设施过载密切相关,去GitHub上看看就知道了,成千上万的用户现在都在面临类似的问题,这情况感觉就像一年半前GPT发布新模型时一样。

网友Wickywire则分析了其中的根本原因,Anthropic在两个月内日活用户从400万涨到了1100万,他们完全没有准备并不得不全天候连轴转去拼命扩容,这就是所谓削弱的真相。你去对时间线,和二三月份发生的事完全吻合。

这里没有任何隐藏的意图,只是一个经历增长之痛的公司,硬件与能源的瓶颈是真实且证据确凿的。

我们知道原因所在且它们都是结构性的,所以解决办法也确实有限,在Reddit上反复纠结毫无意义。

这位网友给出的解决方法倒是立竿见影且切实可行,如果你觉得Claude表现不佳可以试试在非高峰时段使用,如果不行换别家AI服务商也行,反正又不是没有选择,真是受够了那些在论坛上抱怨使用量和性能下降的人了。

六、结语:信任危机比变笨更可怕

目前的局面是,用户在描述体感,而Anthropic在描述参数。

用户觉得它变笨了且任务失败了,官方则表示没有动权重,只是改了默认努力值与缩短了缓存以及调整了前端显示并公开披露过。

这两种描述其实并不矛盾,在AI领域即便公司认为自己没有在底层削弱模型,但微妙的设置变化和配额限制,对全天候依赖它的开发者来说体验上与变笨毫无二致。

当开发者开始怀疑一个工具的稳定性时,这种信任的裂痕是极难修复的。

尤其是在强敌环伺的当下,OpenAI的Codex正在步步紧逼,它凭借更稳定的算力输出与灵活的中阶订阅及全新的交互功能,精准收割失望的开发者。

第三方开发者调研工具显示,自今年3月底Claude降智传闻发酵以来,Codex及其相关插件的周新增用户量环比增长了约22%。

如果Anthropic无法在节省算力成本与维持深度推理之间找到真正的平衡点,那么Claude辛辛苦苦建立起的口碑恐怕将在这场风波中受到考验。

有老用户所说,我宁愿付两倍的钱买一个聪明的Claude,也不愿花同样的钱买一个只会说道歉并要求更多信息的笨蛋。

这场AI界的性能拉锯战才刚刚开始。

相关推荐
热点推荐
连2个月都没撑住,巴拿马总统对华喊话,希望中方答应一个要求

连2个月都没撑住,巴拿马总统对华喊话,希望中方答应一个要求

空天力量
2026-04-14 16:33:23
莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

每日一首古诗词
2026-04-09 06:06:47
精准预言,刘建业赛前更衣室讲话:方镜淇容易脱手,注意补射

精准预言,刘建业赛前更衣室讲话:方镜淇容易脱手,注意补射

懂球帝
2026-04-14 12:43:03
广东半场落后宁波7分!徐杰轰17+2,杜锋身体不适无法指挥

广东半场落后宁波7分!徐杰轰17+2,杜锋身体不适无法指挥

多特体育说
2026-04-14 20:26:34
《重案六组》开机,主演郭晓东谈两版“季洁”

《重案六组》开机,主演郭晓东谈两版“季洁”

红星新闻
2026-04-14 17:45:04
西班牙首相夫人正式被控多项腐败罪行

西班牙首相夫人正式被控多项腐败罪行

Nee看
2026-04-14 10:07:20
黄仁勋要造整机:NVIDIA密谋收购大型PC厂商!官方回应

黄仁勋要造整机:NVIDIA密谋收购大型PC厂商!官方回应

快科技
2026-04-14 15:42:06
在欧尔班惨败,马扎尔获胜后,俄罗斯称匈牙利为“不友好国家”

在欧尔班惨败,马扎尔获胜后,俄罗斯称匈牙利为“不友好国家”

山河路口
2026-04-13 23:57:05
欧尔班也没想到,落选17分钟后,冯德莱恩就嘲笑,来安慰的却是他

欧尔班也没想到,落选17分钟后,冯德莱恩就嘲笑,来安慰的却是他

书纪文谭
2026-04-14 13:30:01
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
巨星扎堆!法国队恐会重蹈覆辙,难逃“三个和尚没水喝”魔咒?

巨星扎堆!法国队恐会重蹈覆辙,难逃“三个和尚没水喝”魔咒?

田先生篮球
2026-04-13 20:40:32
因果循环!曾与山东泰山为敌的球队,如今集体陷入困境

因果循环!曾与山东泰山为敌的球队,如今集体陷入困境

体坛小鹏
2026-04-14 18:20:08
火箭52胜把选秀顺位打成盲盒,76人得靠抛硬币定生死

火箭52胜把选秀顺位打成盲盒,76人得靠抛硬币定生死

绿茵狂热者
2026-04-14 08:24:01
苹果赢麻了!iPhone17国内销量突破2700万台,是Mate80的五倍不止

苹果赢麻了!iPhone17国内销量突破2700万台,是Mate80的五倍不止

互联鱼
2026-04-12 18:13:54
2026年5月后 被祥瑞之气笼罩的四大星座

2026年5月后 被祥瑞之气笼罩的四大星座

别人都叫我阿螫
2026-04-13 14:06:07
被马云砸中的锦鲤女孩:支付宝中奖1个亿,挥霍1年后如今怎样了

被马云砸中的锦鲤女孩:支付宝中奖1个亿,挥霍1年后如今怎样了

云景侃记
2026-04-12 14:36:17
风向变了?马科斯时代恐结束,小杜特就职后,菲总统决定放手一搏

风向变了?马科斯时代恐结束,小杜特就职后,菲总统决定放手一搏

面包夹知识
2026-04-14 14:17:34
毛主席去南泥湾视察,王震请客吃烧鸡,饭后主席悄悄将鸡架塞兜里

毛主席去南泥湾视察,王震请客吃烧鸡,饭后主席悄悄将鸡架塞兜里

老范谈史
2026-04-14 16:37:10
明天只要关注这5大板块!

明天只要关注这5大板块!

风风顺
2026-04-14 07:10:31
孙俪在上海花展被人拍了,就一张侧脸,没开美颜,也没找角度

孙俪在上海花展被人拍了,就一张侧脸,没开美颜,也没找角度

东方不败然多多
2026-04-14 17:55:55
2026-04-14 21:04:49

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

女子丧偶后和上海婆婆反目 婆婆出钱买的房打官司输了

头条要闻

女子丧偶后和上海婆婆反目 婆婆出钱买的房打官司输了

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

手机
游戏
旅游
家居
军事航空

手机要闻

苹果iOS 26.4现Bug:捷克语键盘缺失字符致用户无法解锁手机

EWC电竞世界杯:IG横扫TES!TES将重点放在联赛上?

旅游要闻

什川古梨园绽放“花”样经济

家居要闻

现代融合 自然灵动

军事要闻

伊朗要求五个中东国家赔偿战争损失

无障碍浏览 进入关怀版
×