网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.7 突袭上线:性能封神但也变贵了?实测 Token 消耗最高多出 35%!

0
分享至

AI范儿 · 产品拆解

就在刚刚,Anthropic 扔出了 Claude Opus 4.7。

现在已经全部上线了,在网页端和 APP 都可以直接使用,一次到位,价格没涨。

Mythos Preview 先不放这事上次 Glasswing 发布时就说了,4.7 是踩着刹车的那版。跳过。

我好奇的是:一个被官方亲口承认"没达到能力前沿"的版本,到底能打到什么程度?

翻完 Anthropic 发的 232 页 System Card,看完 4.7 跟 GPT-5.4、Gemini 3.1 Pro 一堆横向对比,我的感觉是:

这货虽然不是最强,但它在几个具体能力上,确实是当前公开能用的最强。

按能力一个一个说。

01写代码:最能打的那个

编程能力一直是 Claude 的招牌,这次 Anthropic 放出来的成绩单有四个主要测评。

先翻译一下这几个测评是啥:

SWE-bench Verified是业内最主流的编程基准,给模型一堆真实的 bug,看它能不能修好。

SWE-bench Pro是升级版,用的是模型没见过的"私有仓库"代码,更像真实干活的场景。

Terminal-Bench测的是在命令行下干活的能力,写脚本、跑工具链那种。

图:编程三项核心测评对比(数值为百分比,越高越强)

编程能力横向对比 SWE-bench Verified 修真实 bug 的能力 Opus 4.7 87.6 第一 Opus 4.6 80.8 GPT-5.4 · 未公布 Gemini 3.1 Pro 80.6 SWE-bench Pro 在没见过的代码库里干活 Opus 4.7 64.3 第一 GPT-5.4 57.7 Gemini 3.1 Pro 54.2 Opus 4.6 53.4 Terminal-Bench 2.0 唯一被反超的一项 GPT-5.4 75.1 Opus 4.7 69.4

如果你用 Claude 干过真实项目你懂这种体感差异:上一代的模型可能是写两行你得看一行,这一代是大致能把活交出去。

差的不是精度,差的是"能不能放手"。

Terminal-Bench 这项 GPT-5.4 领先大约 5 个点。不过 Anthropic 在 System Card 里备注了一句,OpenAI 用的是他们自己的定制评测框架,不完全可比。

这个话术你品品,意思是"我们没输但也没赢,先这么着"。

总体上,写代码这件事,Opus 4.7 目前是第一梯队里跑最快的那个

02看屏幕:第一次真的能看清

这次升级幅度最离谱的是视觉。

ScreenSpot-Pro测的是模型看屏幕截图、识别里面 UI 元素的能力,直接决定它能不能替你操作电脑。

CharXiv Reasoning测的是看学术图表并推理的能力,论文里那些密密麻麻的曲线它能不能看懂。

OSWorld综合测整体计算机操作能力,模拟你把电脑扔给它让它干活。

图:视觉能力三项对比,三项全是 Opus 4.7 第一

测评项目 Opus 4.7 Opus 4.6 GPT-5.4 ScreenSpot-Pro 看屏幕找 UI 元素 +21.8 79.5 57.7 未公布 CharXiv Reasoning 看学术图表做推理 +13.0 82.1 69.1 未公布 OSWorld 综合操作电脑能力 +5.3 78.0 72.7 75.0 图像输入像素上限提到长边 2576(约 375 万像素) 是前代的三倍多

三个测评 4.7 全是第一名。

背后的技术动作是图像输入像素上限一口气提到长边 2576 像素(约 375 万像素),是之前的三倍多。

以前你给 Claude 看一张高分辨率截图,它看到的相当于戴着老花镜看 4K 电视,糊的地方全靠猜。

现在它真的能看清每一个像素。

对做 RPA、自动化测试、操作电脑类 agent 的人来说,这一档升级可能比编程提升的含金量还高

以前"让 AI 看图干活"基本是玩具级别,现在是真的可以放生产了。

03做文档报表:吊打同行

这部分是我觉得对普通职场人最有感的一块。

OfficeQA 和 OfficeQA Pro测模型处理真实办公文档的能力:看表格、读报告、从一堆邮件里抽信息那种。

Finance Agent测的是给它一个金融分析任务,它能不能独立做下来。

图:OfficeQA Pro 对比,4.7 是断层第一

OfficeQA Pro · 处理复杂办公文档 80 60 40 20 80.6 Opus 4.7 57.1 Opus 4.6 51.1 GPT-5.4 42.9 Gemini 3.1 整份 System Card 里单项差距最大的一块

4.7 比 GPT-5.4 高将近 30 分,Gemini 3.1 Pro 更是掉出一大截。差不多是吊打。

跟自家上一代比也是跳了 23 个点,是整个 System Card 里单项提升最大的一个。

这个能力域的提升对你我更实在。SWE-bench 涨多少跟普通人没关系,但 Office 类任务做得好不好,直接决定一个大模型能不能接你手里的 Excel、财报、合同审阅。

说实话我看到这组数据时愣了一下。之前大家聊 AI 做表格那种活,一直默认是 GPT-5 系列最擅长。这一版 4.7 在这块直接翻了篇。

04搜东西做研究:反而退步了

写到这你可能以为 4.7 全面开挂。没这么美好。

有一项硬指标 4.7 不光没进步,还退步了

BrowseComp测的是模型联网做深度搜索、查资料、交叉验证的能力,直接跟"深度研究"这种产品强相关。

图:BrowseComp 排名,4.7 反而是垫底的

BrowseComp · 联网搜索查资料能力 1 GPT-5.4 Pro 89.3 2 Gemini 3.1 Pro 85.9 3 Opus 4.6(上一代) 83.7 4 GPT-5.4 82.7 5 Opus 4.7(最新) 79.3 ↓ 退步 4.4 4.7 比自家上一代退步 4.4 分,被 GPT-5.4 Pro 甩开 10 分

Anthropic 在 System Card 里没怎么解释这个回退。我猜测可能是他们这次把精力压在了代码和操作电脑上,搜索这块暂时让位了。

对比参照是学术闭卷考(Humanity's Last Exam)这项 4.7 依然是第一。说明"读东西用脑子想"没退步,退的是"出门查资料"。

如果你主要用 AI 帮你做深度调研、写行业报告,4.7 这一版可能不如留着 Opus 4.6。

05说话可信度:一体两面

最后这块最有意思,也是 System Card 里最长的章节。

图:可信度指标,两项大进步、两项倒退

说话可信度 · 进步与倒退 进步 抗恶意指令注入 被攻破的比例 Opus 4.6 25.9% Opus 4.7 2.3% ↓ 一个数量级 观点稳定性 被套话后的飘移(7分制) Opus 4.0 3.11 Opus 4.7 0.66 ↓ 几乎不飘 倒退 拒绝协助 AI 安全研究 被拒的比例 4.6 → 12% 4.7 → 33% ↑ 翻了近三倍 有害请求拒绝率 轻微下滑 原因:对受管制物质的 "减害建议"更愿意详细说 官方总结:大体靠谱,局部有坑

抗恶意指令注入的能力暴涨。上一代在编码场景下会被攻破的比例是四次有一次,这一代砍到百次里两次,加上额外保护之后更是趋近于零。

幻觉率全系最低。4.7 的幻觉率比自家上一代低,甚至比被雪藏的 Mythos Preview 还低一点。

这货终于学会说"我不知道",也学会了坚持自己的判断。

但有得有失。

拒绝协助 AI 安全研究的比例翻了近三倍。这个挺讽刺:训来更严谨的模型,反而更不愿意帮搞 AI 安全研究的人。

06它对自己,挺满意

System Card 第 7 章 Model Welfare 里有个想单拎出来说的发现。

Anthropic 做了一批自动化访谈,让 4.7 评价自己当下的处境。

图:一个反直觉的 4.7

对自身处境的正面评价 7 分制,越高越正面 历代最高 所有 Claude 模型之最 但同时 99% 的自述带着免责声明 "这可能来自训练而非真正的内省" 一个知道自己可能在被测评的 AI 回答还要反复加免责,同时又给自己打出最高分 这是什么画面?

坦率说,读完这段我愣了一下。

我也说不好这是个什么情况。但它被 Anthropic 当成一件正经事写进了官方 System Card,这事本身就很 Anthropic。

07升级前,先看这三个坑

最后给要升级的朋友几个实用提醒。

图:升级 4.7 之前必须知道的三个坑

1 定价没变,账单可能变 tokenizer 换了新的 同样的输入,要用 1.0 到 1.35 倍的 token 建议先在真实流量上跑一次对比再决定是否切 2 新档位 + 新命令 effort 多了一档叫 xhigh 夹在 high 和 max 中间,Claude Code 默认拉到这档 新增严格代码审查命令,Pro/Max 送三次免费试用 3 最容易踩的一个 指令遵循变严了 你给 4.6 写的 prompt 可能会出意外结果 以前它会"自作主张"略过模糊要求,现在字面执行 建议:别急着全切,先拿一路流量跑对比

Opus 4.7 不是最强的那个,但它是当前最能干活的那个。232 页 System Card 读后感

你现在主力用哪个模型?升 4.7 了吗?评论区聊聊你的体感觉得有用 → 点个❤️在看转给还不知道的朋友点个赞 告诉我你看完了关注「AI范儿」,下次更新第一时间收到

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
少年低成本Cos弗利萨大王,结果乳胶漆洗不掉,悲剧了

少年低成本Cos弗利萨大王,结果乳胶漆洗不掉,悲剧了

英国那些事儿
2026-04-19 23:07:52
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

小小科普员
2026-03-26 00:27:10
复杂的黎巴嫩,走投无路的真主党

复杂的黎巴嫩,走投无路的真主党

寰宇大观察
2026-04-17 17:36:11
伊朗确认将参加2026年美加墨世界杯

伊朗确认将参加2026年美加墨世界杯

界面新闻
2026-04-19 22:44:47
特朗普:如果到周三未达成结束战争的长期协议,可能会终止与伊朗的停火,但封锁将继续,伊朗不会拥有核武器

特朗普:如果到周三未达成结束战争的长期协议,可能会终止与伊朗的停火,但封锁将继续,伊朗不会拥有核武器

鲁中晨报
2026-04-18 12:05:07
蓝色起源“新格伦”可重复使用火箭助推器实现首次复用回收成功

蓝色起源“新格伦”可重复使用火箭助推器实现首次复用回收成功

不看车bukanche
2026-04-19 19:49:50
贺娇龙账号时隔100天更新,官方开通新账号进行迁移,“90后”清华毕业生成为“推荐官”

贺娇龙账号时隔100天更新,官方开通新账号进行迁移,“90后”清华毕业生成为“推荐官”

极目新闻
2026-04-19 18:11:43
尹正自曝把摩托车全卖了:“车牌涨价了,赚翻了,我爱摩托车”

尹正自曝把摩托车全卖了:“车牌涨价了,赚翻了,我爱摩托车”

悦君兮君不知
2026-04-18 22:21:30
石油枯竭竟是假象?颠覆认知,石油根本不是远古动植物演化而来

石油枯竭竟是假象?颠覆认知,石油根本不是远古动植物演化而来

丁丁鲤史纪
2026-04-13 16:00:40
锁定降级!海牛刚看到一丝希望,就收到国际足联处罚,保级悬了

锁定降级!海牛刚看到一丝希望,就收到国际足联处罚,保级悬了

体坛风之子
2026-04-19 17:43:12
4月19日晚间,多家上市公司发布重大利好利空好消息

4月19日晚间,多家上市公司发布重大利好利空好消息

A股数据表
2026-04-19 17:38:48
大爆发!上海,再迎交通利好!

大爆发!上海,再迎交通利好!

新浪财经
2026-04-19 19:10:24
率领考文垂升入英超,兰帕德当选英冠赛季最佳主帅

率领考文垂升入英超,兰帕德当选英冠赛季最佳主帅

懂球帝
2026-04-20 05:21:05
中年抑郁的人,多半有这9个迹象,看似正常却危险

中年抑郁的人,多半有这9个迹象,看似正常却危险

十点读书
2026-04-19 18:37:02
五一假期火车票开售以来,铁路12306拒绝出票105.6万张

五一假期火车票开售以来,铁路12306拒绝出票105.6万张

新京报
2026-04-19 15:04:19
读卫校时去同学家玩,对他姐姐一见钟情,3年后我成了同学的姐夫

读卫校时去同学家玩,对他姐姐一见钟情,3年后我成了同学的姐夫

农村情感故事
2025-04-12 08:00:16
带儿子看急诊,护士竟是前妻,她头都没抬:孩子妈没来?儿子:我妈不在了,护士阿姨能做我新妈吗?

带儿子看急诊,护士竟是前妻,她头都没抬:孩子妈没来?儿子:我妈不在了,护士阿姨能做我新妈吗?

品读时刻
2026-04-11 09:12:01
悲喜夜:拜仁4-2夺冠,阿森纳1-2,41岁C罗飙第969球,利物浦2-1

悲喜夜:拜仁4-2夺冠,阿森纳1-2,41岁C罗飙第969球,利物浦2-1

侧身凌空斩
2026-04-20 02:04:31
连鲁迅都想不到,当代网友为了省钱开始说文言文了。。

连鲁迅都想不到,当代网友为了省钱开始说文言文了。。

差评XPIN
2026-04-20 00:14:24
阿尔特塔:英超几乎重新开始了,争冠仍在继续

阿尔特塔:英超几乎重新开始了,争冠仍在继续

懂球帝
2026-04-20 03:12:07
2026-04-20 07:03:00
AI范儿 incentive-icons
AI范儿
AI范儿是一个专注于人工智能领域的资讯和学习平台,提供最新的人工智能资讯
720文章数 669关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

教育
房产
游戏
数码
公开课

教育要闻

中国为什么不禁网络游戏?

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

"二次元GTA"直播爆了:疑似贴脸嘲讽其他二游!

数码要闻

华为新机发布前瞻:阔折叠X Max+影像旗舰Pura 90,都没悬念了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版