![]()
整理 | 褚杏娟
Anthropic 最近几个月原本处在一段少见的高光期。
一方面,Claude Code 和 Claude Cowork 的能力提升,明显拉高了外界对 Anthropic 工程能力的评价;另一方面,Claude 一直是用户心中“最会写”的模型之一。甚至在与美国国防部相关争议引发关注后,Claude 一度冲上 App Store 榜首,热度和品牌势能都达到新高。
但这种势头,很快被 Opus 4.7 的发布打断了。
在 Opus 4.6 已经被不少用户质疑被“削弱”之后,原本承担“修复口碑”期待的 Opus 4.7,并没有带来明显的升级感。相反,越来越多用户反馈称,新版本不仅没有更强,反而在准确性、稳定性、成本控制和实际可用性上暴露出更多问题。不少用户并没有感受到“升级的快乐”,反而因各种糟糕体验想回到 4.5 版本。
花更多的钱,换更差的体验
发布至今,社交媒体上已经有不少关于 Opus 4.7“翻车”的案例。
一条 Reddit 帖子标题为“Claude Opus 4.7 是一次严重退步,而不是升级”,获得了 2300 个点赞;而在 X 上,有用户表示 4.7 并没有比 4.6 更好,这条内容获得了 1.4 万点赞。这样的吐槽帖不在少数。
![]()
一些问题看起来甚至很基础。
在一个常见但非正式的 AI 测试中,Opus 4.7 甚至表示“strawberry”这个单词里有两个字母 P。还有用户截图显示,模型承认自己没有进行交叉验证,因为“有点懒”。还有用户发现,Opus 4.7 在帮他们修改简历时,会“编造”新的学校或姓氏。不少人直言,这一版本“变笨了”。
![]()
经典的洗车问题,Opus 4.7 作为公认的顶尖模型也没有答对
有人猜测问题出在模型的推理机制上。Anthropic 引入了一个新的“自适应推理”功能,让模型自行决定何时进行更长或更短时间的思考。但有用户表示,他们“根本没法让 Opus 4.7 好好思考”,甚至认为这个机制“削弱了性能”。
对此,Claude Code 的作者 Boris Cherny 回应称:“这种说法不准确。自适应思考让模型自行决定何时思考,整体效果更好。”
不过,在一些具体问题上,Anthropic 也承认还有改进空间。例如,有用户在 Claude 官网反馈自适应推理的问题后,一名产品经理回应称,团队正在“加速内部调优,很快会有更新”。
![]()
《Pragmatic Engineer》作者 Gergely Orosz 曾晒出截图,显示 Claude 不知道 OpenClaw 是什么。Cherny 询问他是否开启了“网页搜索”功能,结果并没有开启,但 Orosz 表示自己此前也从未动过这个设置。Orosz 还指出,这个模型“出乎意料地具有对抗性”,最终“放弃使用”,回到了 Opus 4.6。
还有用户反馈,模型会拒绝完成一些编码任务,或者对简单图片触发安全警告。
![]()
Opus 4.7 的另一个争议点是成本。
新模型采用了新的 tokenizer,这意味着同样的输入,token 消耗大约会比旧模型高出 1.0–1.35 倍。有用户表示,在发布后,Claude Pro 甚至问三次问题就会触及上限。还有人发现,在 GitHub Copilot 中,Opus 4.7 的价格一度达到 7.5 倍溢价(直到 4 月底)。
“那我还是先用 4.6 吧。”有用户这样评论。随后,Cherny 表示,Anthropic 已提高订阅用户的使用额度作为补偿。
![]()
一些对 Opus 4.7 不满的用户试图回到旧版本,例如 4.5,但却发现它已经下线,Reddit 上甚至出现了大量自称“心碎”“哀悼”的 4.5 用户。
这种情况并不罕见。此前 OpenAI 下线 GPT-4o 时,也曾引发类似的用户反弹,甚至有用户开始“讨价还价”:“请恢复 Opus 4.5 的支持,”一位 Reddit 用户在 Anthropic 帖子下留言,“4.6 用不了,4.7 的消耗像核反应堆一样。”
对于这个问题,Anthropic 并未作出回应。
不过,也并不是所有用户都持负面态度。有用户表示:“Opus 4.7 的 token 消耗确实离谱,但它真的很强。”一些业内人士表达了认可。创业者 Jeremy Howard 称,这是“第一个真正‘理解我在做什么’的模型”;YC CEO Garry Tan 表示自己在 OpenClaw 中使用它;Cursor 设计师 Ryo Lu 则用它来做规划。
面对争议,Anthropic 也在持续调整。“昨天大家首次试用 Opus 4.7 时可能遇到的许多 bug 现在都已修复,”Anthropic 员工 Alex Albert 周五写道。“感谢大家的耐心等待。”
![]()
但到目前为止,用户体验并没有明显改善,吐槽声依然不止。
一天前,有用户“MurkyFlan567”晒出了分别用 Opus 4.7 和 4.6 编程 3 天后的实际对比:
![]()
在该用户的使用场景中,Opus 4.7 一次就做对的比例比 4.6 更低,大概是 74.5%,而 4.6 是 83.8%,同时每次修改平均需要的重试次数几乎翻倍。
Opus 4.7 每次调用生成的内容也明显更多,大约是 800 tokens,相比之下 4.6 是 372 tokens,这也让成本明显更高:单次调用成本约 0.185 美元,4.6 是 0.112 美元。
如果按任务类型拆分来看,4.7 在编码和调试上的表现都更弱:编码的一次成功率从 84.7% 降到 75.4%,调试从 85.3% 降到 76.5%。该用户表示,4.7 每轮调用使用的工具更少,几乎不怎么把任务分配给子 agent。目前不确定这是风格变化,还是样本量导致的偏差。
是 Claude Code 把模型带笨了?
对于使用 Claude Code 的开发者来说,感受更加明显。
有开发者反馈,Claude Code 对原本能够完成的任务变得更加迟疑,甚至会在电脑排障、应用调试这类相邻任务上直接以“超出专业范围”为由拒绝继续,而 OpenAI 的 Codex 却能在几分钟内解决同类问题。
而根据 Margin Lab 的内部基准测试结果,自 3 月以来,相关模型的加权平均成绩从 57% 下降至 55%,且呈现持续下滑趋势。测试方式是用 Claude Code 跑 SWE-bench,这个结果被一些人视为 Claude 编程能力在真实工作流中持续走弱的信号。
更激烈的批评来自 AMD 的 AI 团队。其报告基于 6800 份 Claude Code 会话文件、23.5 万次工具调用和超过 1.7 万个 thinking blocks 的量化分析,结论是,Anthropic 推出的“思考内容遮蔽”(thinking content redaction)与复杂长会话工程任务中的质量回退高度相关。报告认为,随着 thinking 被逐步隐藏,模型不只是对用户“变得更不透明”,其内部思考深度本身也在下降,相关指标显示 thinking 长度较此前下降了 73%。
![]()
这直接带来一系列行为变化。报告显示,原本用于防止模型偷懒的机制,从几乎不触发,上升到每天约 10 次;用户在提示词中表现出的挫败感显著增加;模型逃避责任、需要纠正的情况明显翻倍。
更重要的是,Claude Code 的工作方式正在从“先研究再编辑”转向“先动手修改再说”。此前模型的 read-to-edit 比例约为 6.6,即读取行为远多于编辑行为,如今该比例已降至约 2,说明模型更少阅读上下文,却更频繁直接改动代码。
在很多开发者看来,这种变化比“模型偶尔答错”更危险,因为它意味着 Claude Code 正在从一个谨慎的工程助手,变成一个更冲动、更容易误改的自动化系统。
“官方名义上都是为了防止蒸馏,他们确实‘做得很好’。但问题在于,一个已经被搞得像做了脑叶切除手术一样的模型,还有谁会想偷它?”知名博主 Theo - t3․gg 评价道。
Theo - t3․gg 认为,让 Claude 全产品线持续变笨、变懒的原因是不单纯在模型上,而在于 Anthropic 的工程实现能力没有跟上。
Anthropic 工程能力不过关
![]()
Theo - t3․gg 认为,大量回退并不一定来自模型参数本身,而可能来自 harness,也就是提示词、系统规则、工具调用逻辑和产品封装层的综合设计。
按照这一说法,用户发给 Claude Code 的并不只是自然语言请求,还包括系统提示、可用工具列表、产品功能说明以及一整套额外上下文。任何一层设计不当,都会让模型表现变差。
一个典型例子是,Claude Code 强制要求模型在编辑文件前必须先读取文件内容。但在一些场景中,模型搜索到了文件,却因为 harness 不把“搜索”视为“读取”,导致更新操作连续失败,不得不额外发起读取请求后再重试。这种机制不仅浪费 token、增加 API 调用次数,也把无意义的失败步骤写进了上下文,进一步污染了后续推理过程。
类似问题在第三方基准测试中也被放大。Matt Mau 的测试结果显示,同样的模型放进不同 harness,表现会明显不同。其中,Opus 在 Claude Code 中的表现比在 Cursor 中低约 15%。在 Terminal Bench 上,Claude Code 也是使用 Opus 时表现最差的 harness 之一,得分仅 58%,而 Forge Code、Cappy 等其他 harness 可达到 75% 至 82%。
![]()
除了 harness,API 层也被认为是重要变量,其中包括内容过滤更激进、请求路由变化、工具调用链条更复杂,以及 tokenizer 的重大调整。
Anthropic 已确认,Opus 4.7 使用了新的 tokenizer,官方称其可以改善文本处理方式,但代价是相同输入会映射为更多 token,大约增加 1.0 到 1.35 倍。另有实测认为,真实增幅可能更接近 1.45 至 1.47 倍,尤其在技术文档和 Claude MD 文件这类场景中更为明显。
Theo - t3․gg 分析称,这意味着,在 Claude Code 这类高度依赖长上下文的产品中,开发者将更快撞上 token 限制,同时上下文本身也会变得更臃肿。由于模型处理的信息量被放大,历史中的无效内容、失败调用和额外系统提示更容易堆积,进一步加剧所谓的“上下文腐烂”(context rot)。这种调整本身就足以显著影响用户体验,而更具争议的一点是,Anthropic 竟然在 4.7 这种小版本更新中引入了如此大幅度的 tokenizer 变化。
底层算力调度,则是第三个被反复提及的变量。
与许多 AI 公司不同,Anthropic 并未完全押注 Nvidia GPU,而是同时使用 AWS 的 Trainium、Google TPU 以及部分 Nvidia GPU。这意味着,同一位用户在同一段 Claude Code 会话中的不同工具调用,可能被分发到不同云平台、不同芯片架构上执行。由于每次工具调用后都会重新发起 API 请求,复杂任务往往不是一次推理完成,而是由一连串请求拼接而成。理论上,这使得同一个任务流程中,不同步骤可能面对不同的服务环境,从而带来不同质量波动。
这一点也与 Anthropic 去年 9 月的一份事故复盘形成呼应。那份技术报告披露,去年 8 月至 9 月初,Claude 曾因三个基础设施 bug 发生间歇性质量退化。其中包括上下文窗口路由错误、负载均衡改动放大问题、输出损坏,以及 top-k 计算异常。引人关注的一点是,一部分 Sonnet 请求曾被错误路由到“100 万 token 上下文版本”服务器,而 Anthropic 自己也承认,这一版本在非超长上下文场景中的表现更差。
这让外界对 Anthropic 近期默认推广 100 万 token 上下文窗口的策略更加敏感。根据 Theo - t3․gg 推测,Anthropic 已将 Opus 4.6 和 Sonnet 4.6 的完整 100 万上下文窗口设为更普遍的默认能力,并且取消了长上下文额外溢价。
他带有阴谋论色彩地解释道,如果 Anthropic 想把部分流量从 Nvidia GPU 转向 AWS Trainium 和 Google TPU,那么推广 100 万上下文窗口,可能正好是一个有效的流量引导手段。因为更大的上下文窗口通常意味着不同部署方式、不同硬件需求,也可能对应不同质量表现。
虽然这一判断缺乏直接证据,但 Theo - t3․gg 指出,Claude Code 用户如今很难直接在常规界面里切换上下文窗口大小,而禁用 100 万上下文通常需要手动改环境变量。这让“默认更大的上下文,带来默认更差的体验”成为不少开发者的切实感受。
通过上述分析,Theo - t3․gg 得出结论:开发者感知到的“Claude 变笨”,可能并非单一原因导致,而是多层问题叠加的结果。这里面既有用户自身预期不断上升后的心理落差,也有真实的工程问题,包括 harness 污染上下文、API 过滤和路由策略变更、thinking redaction 影响长会话推理、tokenizer 改动放大 token 消耗,以及多硬件平台部署带来的不确定性等问题。
“你就是被坑了”,谷歌来抢市场
Theo - t3․gg 指出,相比之下,OpenAI 及 Codex 并未遭遇同等规模、同等持续性的“变笨”争议。
他曾询问开发者是否明显感受到 Codex 或 OpenAI 模型也存在类似退化,多数反馈认为偶尔有短时波动,但没有像 Anthropic 这样长期、系统性的持续讨论。甚至 OpenAI 方面还明确表示,他们确实会公开某些接口层问题的调查结果,但不会在模型发布后频繁改动模型本身或 thinking budget,而是更强调保持发布时的稳定状态。
“我一点都不羡慕 Anthropic 以及那些要去排查这些问题的人,因为覆盖面实在太大了。而且坦白讲,整套东西看起来像是被一群非常不靠谱的人拼出来的。Anthropic 的工程文化出了很大问题,而这些问题已经直接导致结果也变得一团糟。”Theo - t3․gg 直言,“如果他们真的想做出可靠的基础设施和软件,那就必须从底层开始彻底重想一遍。以现在的状态,我们无法信任 Anthropic 推出的这些东西。”
现在的 Anthropic,一边持续推出新能力、新工具和新封装,一边却没有给出足够透明的解释,也没有拿出足够稳定的工程实现,最终让用户在每月支付高额订阅费用的同时,得到的结果越来越差。
“如果你觉得自己被坑了,那不是错觉,你就是被坑了。你这几个月每个月付 200 美元订阅费,结果拿到的东西却越来越少、越来越差。这根本不可接受。”Theo - t3․gg 说道。
值得注意的是,今天 The Information 报道称,谷歌成立突击队以改进编码模型(因为 Gemini 远不如 Claude 4.5+、GPT 5.4 等)。这意味着有深厚工程经验的谷歌也开始奋力争夺 AI 编程市场。
据知情人士透露,Brin 与谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 均直接参与了这支攻坚团队的工作,足见谷歌高层对其的重视程度。在最近的一份备忘录中,Brin 向谷歌 DeepMind 员工表示,他们必须全力转向、奋起直追 AI 智能体(AI agents)。布林写道:“为了赢下这场最后的冲刺,我们必须紧急弥补智能体执行能力的差距,让我们的模型成为代码的‘主力开发者’。”
Gemini 3 已经证明了谷歌的追赶能力,模型编程能力叠加工程经验,让谷歌有潜力动摇 Anthropic 的核心编程优势。
一边拓展 Claude 能力,一边加约束
Opus 4.7 发布后,资深开发者 Simon Willison 对比了对比了 Opus 4.6 和 4.7 之间的 git diff。通过 Opus 4.7 的系统提示词变化,也体现出了 Anthropic 正在调整 Claude 的产品角色。
首先,“开发者平台”现在更名为“Claude 平台”。
系统提示词中提到的 Claude 工具列表,现在包括 Claude in Chrome(一个可以自主与网页交互的浏览智能体)、Claude in Excel (一个表格智能体)、Claude in PowerPoint ( 一个幻灯片智能体)。Claude Cowork 可以把这些都当作工具来使用,其中,Claude in PowerPoint 在 4.6 版本中并未出现。
其次,儿童安全部分被大幅扩展,并被包裹在一个新的
标签中。特别值得注意的一点是: “一旦 Claude 因儿童安全原因拒绝某个请求,那么在同一对话中的所有后续请求,都必须以极高的谨慎态度处理。”
另外,官方也在让 Claude 变得不那么“粘人”:“如果用户表示他们准备结束对话,Claude 不会再试图挽留用户或引导其继续互动,而是尊重用户停止的请求。”
新增的
部分包括:
当用户请求中只缺少一些次要细节时,用户通常希望 Claude直接给出一个合理的尝试结果,而不是先被反复追问。只有在确实无法回答的情况下(例如引用了不存在的附件),Claude 才会先提问。
如果存在可以解决歧义或补充信息的工具(例如搜索、定位用户位置、查看日历、发现可用能力等),Claude 应优先调用工具来解决问题,而不是让用户自己去查。
一旦 Claude 开始执行任务,就应该完整地完成答案,而不是中途停止。
Willison 还注意到,Claude chat 现在似乎有了一个“工具搜索机制”。
根据 API 文档以及 2025 年 11 月的一篇文章描述:在断定自己“不具备某种能力”(比如访问用户位置、记忆、日历、文件、历史对话或外部数据)之前,Claude 会先调用tool_search来确认是否存在相关但尚未启用的工具。只有在 tool_search 确认没有匹配工具之后,Claude 才可以说“我无法访问 X”。
此外还有新的约束,鼓励 Claude减少冗长表达:Claude 会保持回答聚焦且简洁,避免用过长的回复让用户产生负担。即使需要加入免责声明或补充说明,也会尽量简短,把重点放在核心答案上。
还有一些内容在 4.6 中存在,但 4.7 版本中被移除。 Willison 猜测,很可能是因为新模型已经不再出现这些问题,比如 Claude 避免使用星号中的动作或表情(除非用户明确要求这种风格)、Claude 避免使用 “genuinely”“honestly”“straightforward” 等表达。
Opus 4.7 中新增了一个关于“进食障碍”的部分(此前没有明确提及):“如果用户表现出进食障碍的迹象,Claude 不应在对话中提供具体的营养、饮食或运动建议,包括任何具体数字、目标或步骤。即使这些内容是出于帮助用户建立健康目标或提醒风险,也可能会触发或强化不良倾向。”
针对一种常见攻击(诱导模型对争议问题给出“是 / 否”答案),系统提示词也增加了防护(在
部分):“如果用户要求 Claude 对复杂或有争议的问题给出简单的‘是或否’(或单词式回答),Claude 可以拒绝这种简化回应,转而给出更有层次的解释,并说明为什么不能用简单答案回应。”
Claude 4.6 中曾有一段特别说明: “Donald Trump 是现任美国总统,并于 2025 年 1 月 20 日就职。”这是因为在此前的知识截止时间下,模型可能会错误否认这一点。Willison 发现,在 4.7 中,这段内容被移除,反映出模型的知识截止时间已更新到 2026 年 1 月,并具备更可靠的事实认知。
要真正理解 Claude chat UI 的能力,模型的“工具描述”反而是更关键的,但 Anthropic 并未给公开信息。Willison 则通过对话获得了一些信息。
他直接问 Claude:“列出你所有可用的工具,并提供完整的工具描述和参数。”根据回答结果,下面工具列表与 Opus 4.6 相比并没有发生变化:
https://www.businessinsider.com/anthropic-claude-opus-4-7-backlash-tokens-2026-4
https://www.youtube.com/watch?v=KFisvc-AMII&t=44s
https://simonwillison.net/2026/Apr/18/opus-system-prompt/
声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。
直播推荐
Q:Lab 龙虾季 Vol.1「牛马场景篇」——当老板的夺命需求遇上 AI,KimiClaw / DuMate / WorkBuddy 同步接单,实测谁能在 1 小时内让混乱 Excel、PDF 合同、Word 周报等零碎信息,变成投资人 One-Pager!
4 月 21 日 19:00-20:30 直播实测,码上预约~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.