网易首页 > 网易号 > 正文 申请入驻

跑分第一,口碑崩了,Claude 4.7到底怎么了

0
分享至

故事是这样的。先说结论三个让用户炸锅的点第一,代码能力「降智」第二,推理质量倒退第三,花更多钱,体验更差为什么会这样微软的动作很有意思这事儿意味着什么写在最后

4月16日晚,Anthropic发布了Claude Opus 4.7。科技媒体清一色「编程能力炸了」「视觉三倍升级」「白嫖式升级」。

48小时后,Reddit上一篇「Claude Opus 4.7是严重倒退,不是升级」的帖子冲上3000赞。

同一个模型,有人看到了AGI的影子,有人觉得自己的工作流炸了。

我翻了十几篇报道,又去Reddit和Twitter上看了几百条用户反馈,发现这事儿比想象中有意思。

Opus 4.7不是变蠢了,是变「轴」了。

Anthropic把Claude从一个「顺从的助手」改造成了一个「更有主见的同事」。但这个改造,把大量用户的日常工作流给掀翻了。

更关键的是,有个细节大多数媒体都没注意到——

价格没涨,但你的账单可能要涨35%。

大量开发者反馈,从4.6升级到4.7之后,之前能稳定完成的编程任务开始频繁出错。

一位Reddit用户用已知答案的长重构任务做回归测试,结果模型自信地改挂了3个原本在4.6下能通过的测试。

评论区涌入上百条类似经历。

但另一边,SWE-bench Pro基准测试显示,Opus 4.7得分64.3%,高于GPT-5.4的57.7%。

跑分更强了,但用户不买账。

为什么?

因为4.7的执行逻辑变了。官方迁移指南里有一句很关键的话——

Claude Opus 4.7会以更字面、更明确的方式理解提示词。

说人话就是,4.6会「猜你的意思」,4.7会「照你说的做」。

如果你的prompt本来就写得含糊,4.6可以帮你脑补,但4.7不会。

对一部分用户来说,这叫「不听话」。对另一部分用户来说,这叫「终于不乱猜了」。

NYT Connections Extended基准测试,使用940道《纽约时报》Connections谜题评估大语言模型的逻辑推理能力。

结果是,Opus 4.6得分94.7%,Opus 4.7仅41.0%。

从年级第一,跌到不及格。

另一份数据来自Anthropic自己的System Card,100万token上下文的MRCR v2测试,4.6得分78.3%,4.7得分32.2%。

这组数据没法用「迁移成本」解释。

某些逻辑推理和长上下文检索任务上,4.7确实出现了显著退步。

这个细节藏在Anthropic的官方迁移指南里,我估计99%的读者都跳过了。

原文是这样的——

Opus 4.7 uses an updated tokenizer that improves how the model processes text. The tradeoff is that the same input can map to more tokens—roughly 1.0–1.35× depending on the content type.

说人话就是,他们换了一把新尺子。

同一段提示词,过去量出来100个token,现在可能是130个。

定价没动,还是5美元/百万Token输入、25美元/百万Token输出。但你的token计算凭空增加了,账单自然就要变大。

假设一家公司每月在Opus 4.6上花100万美元API费。切到4.7之后,同样的工作量,账单可能会悄悄爬到135万。

每月多出来几十万美元的开销。

这就是AI时代不知不觉的暗税。

把几件事放在一起看,Anthropic的意图其实挺清晰的。

第一,幻觉率下降了25个百分点。

从61%降到36%。怎么做到的?靠「更频繁地选择不作答」。

宁可说「我不知道」,也不瞎编。

第二,GDPval-AA测试登顶。

这项测试衡量的是AI在44种职业、9个主要行业的真实知识工作中的表现。Opus 4.7拿到1753 Elo,领先第二名79分。

第三,官方博客里有句话很关键。

engineers shift from working 1:1 with agents to managing them in parallel

工程师从「和一个AI对话」,变成了「同时管着好几个AI」。

把这几件事串起来,Anthropic的战略意图就清楚了——

他们不在于优化Claude的聊天体验,而是在优化Claude的工作能力。

一个能独立完成复杂任务、不瞎编、严格按指令执行的AI,比一个「聊天很顺」的AI更有价值。

但对于习惯了4.6「猜你意思」的用户来说,这个转变太突然了。

没有过渡期,没有兼容模式,直接把全部迁移成本推给了用户。

发布当天,微软就把Opus 4.7集成到了GitHub Copilot等9大开发环境。

打破了与OpenAI的长期独家合作。

为什么这么急?

因为Opus 4.7在代码生成任务上的平均响应时间只有1.2秒,多文件代码重构任务的错误率降低了28%。

对于开发者场景,这些指标比「聊天顺不顺」重要得多。

微软看中的是「工作能力」,不是「聊天体验」。

AI厂商的商业模式,正在从「卖回答」转成「卖工时」。

过去那种AI是工具属性的。你问一句它答一句,按次计价,每次调用的边界由你来画。

现在这批AI更像是劳动力。你下一个目标,它自主工作几个小时,按token消耗计价。工作边界由AI自己决定。

OpenAI在Codex发布会上做了一个演示,让Codex自己写一款赛车游戏。整个过程烧了700万token。

对比一下,你用GPT-4问一个问题,一次大概消耗500到2000个token。

Codex一次任务就是过去单次调用的三千多倍。

这带来的影响有三个层面。

一是预算方案直接失效。

过去企业AI预算怎么算?要么按席位数乘月费,要么按API调用次数。现在呢,同一个用户、同一个调用,消耗量可以差100倍。

CFO拿到账单才知道自己花了多少钱。

二是工程师的角色边界要重新设定。

以前工程师是写代码的人,现在是管AI工作流的人。你得不停判断,这个活值不值得让AI烧100万token去干?

三是能力差距会被继续拉大。

同样的AI工具,会用的人和不会用的人,产出能差10倍。

不是AI变强了你就自动受益,你得学会怎么「管AI工时」这件事。

Opus 4.7的争议不是个案。

OpenAI经历过GPT-4 Turbo降智风波,几个月前撤下GPT-4o时也遭遇过类似的用户反弹。

每一次模型升级,都有一批用户失去已经适应的工具。

新分词器让旧的成本预算失效,新的默认行为让旧的prompt不再好用,新的接口规范让旧的代码直接报错。

每一项单独看都有技术上的合理性,但叠在一起,就是把全部迁移成本一次性推给了用户。

Anthropic员工Alex Albert在发布次日写道,很多人在刚开始体验时遇到的bug,现在都已经修复了。

Bug可以修。但信任这种东西,消耗容易,重建很慢。

当AI从玩具变成生产力工具,「快速迭代」就不再是无条件的优点。

用户的耐心,已经开始倒计时了。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本将地震震级调整至7.5级

日本将地震震级调整至7.5级

界面新闻
2026-04-20 16:30:33
伊朗万吨大船冲向美军封锁线,特朗普暴怒!美官员直接点中国的名

伊朗万吨大船冲向美军封锁线,特朗普暴怒!美官员直接点中国的名

二大爷观世界
2026-04-20 20:36:50
日本地震震级修正为7.7级

日本地震震级修正为7.7级

界面新闻
2026-04-20 18:59:43
日本央行调查:83.7%的日本家庭预计一年后价格将上涨

日本央行调查:83.7%的日本家庭预计一年后价格将上涨

财联社
2026-04-20 12:33:05
美伊停火到期前48小时“极限博弈”:伊朗手握海峡“核按钮”,特朗普威胁炸桥炸电厂

美伊停火到期前48小时“极限博弈”:伊朗手握海峡“核按钮”,特朗普威胁炸桥炸电厂

红星新闻
2026-04-20 18:03:39
浇小麦的地下水变成血红色,谁来守护我们的生存底线?

浇小麦的地下水变成血红色,谁来守护我们的生存底线?

记录刘杰
2026-04-19 21:39:47
去台湾玩了七天回来,说实在的,普通人来台湾还真有点不适应

去台湾玩了七天回来,说实在的,普通人来台湾还真有点不适应

复转这些年
2026-04-20 18:03:08
伟大的10-5!丁俊晖世锦赛开门红,创3大纪录,会师赵心童冲8强!

伟大的10-5!丁俊晖世锦赛开门红,创3大纪录,会师赵心童冲8强!

刘姚尧的文字城堡
2026-04-20 20:00:14
“爱奇艺疯了”冲上热搜第一,CEO独家回应

“爱奇艺疯了”冲上热搜第一,CEO独家回应

第一财经资讯
2026-04-20 17:24:18
62岁男子高铁上泣不成声,为赶回家见病危儿子最后一面,同车男子买来盒饭默默安慰;噩耗传来:其儿子已离世

62岁男子高铁上泣不成声,为赶回家见病危儿子最后一面,同车男子买来盒饭默默安慰;噩耗传来:其儿子已离世

极目新闻
2026-04-20 13:32:56
世锦赛战报:16强决出5席!中国2胜2负1领先,世界亚军4-10一轮游

世锦赛战报:16强决出5席!中国2胜2负1领先,世界亚军4-10一轮游

球场没跑道
2026-04-20 05:38:54
俄罗斯梁赞州向各单位下达征兵命令,翻译成中文很亲切

俄罗斯梁赞州向各单位下达征兵命令,翻译成中文很亲切

李未熟擒话2
2026-04-20 10:47:19
国际奥委会明确表态,对2036年奥运会的申办情况很是失望

国际奥委会明确表态,对2036年奥运会的申办情况很是失望

安安说
2026-04-20 11:09:20
不露面不知道,一露面吓一跳,这些明星怎么都老成这个样子了

不露面不知道,一露面吓一跳,这些明星怎么都老成这个样子了

孤城落日
2026-04-20 19:26:14
这五个号码千万不要接,一旦接听,银行卡里的钱都可能秒没

这五个号码千万不要接,一旦接听,银行卡里的钱都可能秒没

笑熬浆糊111
2026-04-20 00:05:15
普京访华行程敲定,特朗普已下命令,中国向全球通告,无惧美国

普京访华行程敲定,特朗普已下命令,中国向全球通告,无惧美国

桑启红原
2026-04-20 20:19:05
突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

新浪财经
2026-04-20 04:31:06
布伦特原油失守93美元/桶

布伦特原油失守93美元/桶

每日经济新闻
2026-04-20 21:36:07
河南一男子因病偏瘫,觉得亏欠妻子主动离婚,女儿摆酒席庆祝:他们开心就好,离婚不离家,母亲继续照顾父亲,房车等全部财产都在母亲名下

河南一男子因病偏瘫,觉得亏欠妻子主动离婚,女儿摆酒席庆祝:他们开心就好,离婚不离家,母亲继续照顾父亲,房车等全部财产都在母亲名下

洪观新闻
2026-04-20 16:20:08
美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

澎湃新闻
2026-04-20 15:42:26
2026-04-20 23:44:49
AI效率笔记
AI效率笔记
专注AI工具测评与效率提升。
392文章数 10关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

旅游
游戏
家居
房产
时尚

旅游要闻

以“Fun”为名,深圳布吉将发布全域旅游品牌IP

现在的二游BOSS战,怎么比我高考还紧张?

家居要闻

自然慢调 慢享时光

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

无障碍浏览 进入关怀版