Claude Opus 4.7 突袭上线：性能封神但也变贵了？实测 Token 消耗最高多出 35%！|编程|代码|测评|opus|官方文档|token

Claude Opus 4.7 突袭上线：性能封神但也变贵了？实测 Token 消耗最高多出 35%！

2026-04-17 01:15:15　来源: AI范儿

上海举报

分享至

AI范儿 · 产品拆解

就在刚刚，Anthropic 扔出了 Claude Opus 4.7。

现在已经全部上线了，在网页端和 APP 都可以直接使用，一次到位，价格没涨。

Mythos Preview 先不放这事上次 Glasswing 发布时就说了，4.7 是踩着刹车的那版。跳过。

我好奇的是：一个被官方亲口承认"没达到能力前沿"的版本，到底能打到什么程度？

翻完 Anthropic 发的 232 页 System Card，看完 4.7 跟 GPT-5.4、Gemini 3.1 Pro 一堆横向对比，我的感觉是：

这货虽然不是最强，但它在几个具体能力上，确实是当前公开能用的最强。

按能力一个一个说。

01写代码：最能打的那个

编程能力一直是 Claude 的招牌，这次 Anthropic 放出来的成绩单有四个主要测评。

先翻译一下这几个测评是啥：

SWE-bench Verified是业内最主流的编程基准，给模型一堆真实的 bug，看它能不能修好。

SWE-bench Pro是升级版，用的是模型没见过的"私有仓库"代码，更像真实干活的场景。

Terminal-Bench测的是在命令行下干活的能力，写脚本、跑工具链那种。

图：编程三项核心测评对比（数值为百分比，越高越强）

编程能力横向对比 SWE-bench Verified 修真实 bug 的能力 Opus 4.7 87.6 第一 Opus 4.6 80.8 GPT-5.4 · 未公布 Gemini 3.1 Pro 80.6 SWE-bench Pro 在没见过的代码库里干活 Opus 4.7 64.3 第一 GPT-5.4 57.7 Gemini 3.1 Pro 54.2 Opus 4.6 53.4 Terminal-Bench 2.0 唯一被反超的一项 GPT-5.4 75.1 Opus 4.7 69.4

如果你用 Claude 干过真实项目你懂这种体感差异：上一代的模型可能是写两行你得看一行，这一代是大致能把活交出去。

差的不是精度，差的是"能不能放手"。

Terminal-Bench 这项 GPT-5.4 领先大约 5 个点。不过 Anthropic 在 System Card 里备注了一句，OpenAI 用的是他们自己的定制评测框架，不完全可比。

这个话术你品品，意思是"我们没输但也没赢，先这么着"。

总体上，写代码这件事，Opus 4.7 目前是第一梯队里跑最快的那个。

02看屏幕：第一次真的能看清

这次升级幅度最离谱的是视觉。

ScreenSpot-Pro测的是模型看屏幕截图、识别里面 UI 元素的能力，直接决定它能不能替你操作电脑。

CharXiv Reasoning测的是看学术图表并推理的能力，论文里那些密密麻麻的曲线它能不能看懂。

OSWorld综合测整体计算机操作能力，模拟你把电脑扔给它让它干活。

图：视觉能力三项对比，三项全是 Opus 4.7 第一

测评项目 Opus 4.7 Opus 4.6 GPT-5.4 ScreenSpot-Pro 看屏幕找 UI 元素 +21.8 79.5 57.7 未公布 CharXiv Reasoning 看学术图表做推理 +13.0 82.1 69.1 未公布 OSWorld 综合操作电脑能力 +5.3 78.0 72.7 75.0 图像输入像素上限提到长边 2576（约 375 万像素）是前代的三倍多

三个测评 4.7 全是第一名。

背后的技术动作是图像输入像素上限一口气提到长边 2576 像素（约 375 万像素），是之前的三倍多。

以前你给 Claude 看一张高分辨率截图，它看到的相当于戴着老花镜看 4K 电视，糊的地方全靠猜。

现在它真的能看清每一个像素。

对做 RPA、自动化测试、操作电脑类 agent 的人来说，这一档升级可能比编程提升的含金量还高。

以前"让 AI 看图干活"基本是玩具级别，现在是真的可以放生产了。

03做文档报表：吊打同行

这部分是我觉得对普通职场人最有感的一块。

OfficeQA 和 OfficeQA Pro测模型处理真实办公文档的能力：看表格、读报告、从一堆邮件里抽信息那种。

Finance Agent测的是给它一个金融分析任务，它能不能独立做下来。

图：OfficeQA Pro 对比，4.7 是断层第一

OfficeQA Pro · 处理复杂办公文档 80 60 40 20 80.6 Opus 4.7 57.1 Opus 4.6 51.1 GPT-5.4 42.9 Gemini 3.1 整份 System Card 里单项差距最大的一块

4.7 比 GPT-5.4 高将近 30 分，Gemini 3.1 Pro 更是掉出一大截。差不多是吊打。

跟自家上一代比也是跳了 23 个点，是整个 System Card 里单项提升最大的一个。

这个能力域的提升对你我更实在。SWE-bench 涨多少跟普通人没关系，但 Office 类任务做得好不好，直接决定一个大模型能不能接你手里的 Excel、财报、合同审阅。

说实话我看到这组数据时愣了一下。之前大家聊 AI 做表格那种活，一直默认是 GPT-5 系列最擅长。这一版 4.7 在这块直接翻了篇。

04搜东西做研究：反而退步了

写到这你可能以为 4.7 全面开挂。没这么美好。

有一项硬指标 4.7 不光没进步，还退步了。

BrowseComp测的是模型联网做深度搜索、查资料、交叉验证的能力，直接跟"深度研究"这种产品强相关。

图：BrowseComp 排名，4.7 反而是垫底的

BrowseComp · 联网搜索查资料能力 1 GPT-5.4 Pro 89.3 2 Gemini 3.1 Pro 85.9 3 Opus 4.6（上一代） 83.7 4 GPT-5.4 82.7 5 Opus 4.7（最新） 79.3 ↓ 退步 4.4 4.7 比自家上一代退步 4.4 分，被 GPT-5.4 Pro 甩开 10 分

Anthropic 在 System Card 里没怎么解释这个回退。我猜测可能是他们这次把精力压在了代码和操作电脑上，搜索这块暂时让位了。

对比参照是学术闭卷考（Humanity's Last Exam）这项 4.7 依然是第一。说明"读东西用脑子想"没退步，退的是"出门查资料"。

如果你主要用 AI 帮你做深度调研、写行业报告，4.7 这一版可能不如留着 Opus 4.6。

05说话可信度：一体两面

最后这块最有意思，也是 System Card 里最长的章节。

图：可信度指标，两项大进步、两项倒退

说话可信度 · 进步与倒退进步抗恶意指令注入被攻破的比例 Opus 4.6 25.9% Opus 4.7 2.3% ↓ 一个数量级观点稳定性被套话后的飘移（7分制） Opus 4.0 3.11 Opus 4.7 0.66 ↓ 几乎不飘倒退拒绝协助 AI 安全研究被拒的比例 4.6 → 12% 4.7 → 33% ↑ 翻了近三倍有害请求拒绝率轻微下滑原因：对受管制物质的 "减害建议"更愿意详细说官方总结：大体靠谱，局部有坑

抗恶意指令注入的能力暴涨。上一代在编码场景下会被攻破的比例是四次有一次，这一代砍到百次里两次，加上额外保护之后更是趋近于零。

幻觉率全系最低。4.7 的幻觉率比自家上一代低，甚至比被雪藏的 Mythos Preview 还低一点。

这货终于学会说"我不知道"，也学会了坚持自己的判断。

但有得有失。

拒绝协助 AI 安全研究的比例翻了近三倍。这个挺讽刺：训来更严谨的模型，反而更不愿意帮搞 AI 安全研究的人。

06它对自己，挺满意

System Card 第 7 章 Model Welfare 里有个想单拎出来说的发现。

Anthropic 做了一批自动化访谈，让 4.7 评价自己当下的处境。

图：一个反直觉的 4.7

对自身处境的正面评价 7 分制，越高越正面历代最高所有 Claude 模型之最但同时 99% 的自述带着免责声明 "这可能来自训练而非真正的内省" 一个知道自己可能在被测评的 AI 回答还要反复加免责，同时又给自己打出最高分这是什么画面？

坦率说，读完这段我愣了一下。

我也说不好这是个什么情况。但它被 Anthropic 当成一件正经事写进了官方 System Card，这事本身就很 Anthropic。

07升级前，先看这三个坑

最后给要升级的朋友几个实用提醒。

图：升级 4.7 之前必须知道的三个坑

1 定价没变，账单可能变 tokenizer 换了新的同样的输入，要用 1.0 到 1.35 倍的 token 建议先在真实流量上跑一次对比再决定是否切 2 新档位 + 新命令 effort 多了一档叫 xhigh 夹在 high 和 max 中间，Claude Code 默认拉到这档新增严格代码审查命令，Pro/Max 送三次免费试用 3 最容易踩的一个指令遵循变严了你给 4.6 写的 prompt 可能会出意外结果以前它会"自作主张"略过模糊要求，现在字面执行建议：别急着全切，先拿一路流量跑对比

Opus 4.7 不是最强的那个，但它是当前最能干活的那个。232 页 System Card 读后感

你现在主力用哪个模型？升 4.7 了吗？评论区聊聊你的体感觉得有用 → 点个❤️在看转给还不知道的朋友点个赞告诉我你看完了关注「AI范儿」，下次更新第一时间收到

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.