AI范儿 · 产品拆解
就在刚刚,Anthropic 扔出了 Claude Opus 4.7。
现在已经全部上线了,在网页端和 APP 都可以直接使用,一次到位,价格没涨。
Mythos Preview 先不放这事上次 Glasswing 发布时就说了,4.7 是踩着刹车的那版。跳过。
我好奇的是:一个被官方亲口承认"没达到能力前沿"的版本,到底能打到什么程度?
翻完 Anthropic 发的 232 页 System Card,看完 4.7 跟 GPT-5.4、Gemini 3.1 Pro 一堆横向对比,我的感觉是:
这货虽然不是最强,但它在几个具体能力上,确实是当前公开能用的最强。
按能力一个一个说。
01写代码:最能打的那个
编程能力一直是 Claude 的招牌,这次 Anthropic 放出来的成绩单有四个主要测评。
先翻译一下这几个测评是啥:
SWE-bench Verified是业内最主流的编程基准,给模型一堆真实的 bug,看它能不能修好。
SWE-bench Pro是升级版,用的是模型没见过的"私有仓库"代码,更像真实干活的场景。
Terminal-Bench测的是在命令行下干活的能力,写脚本、跑工具链那种。
图:编程三项核心测评对比(数值为百分比,越高越强)
编程能力横向对比 SWE-bench Verified 修真实 bug 的能力 Opus 4.7 87.6 第一 Opus 4.6 80.8 GPT-5.4 · 未公布 Gemini 3.1 Pro 80.6 SWE-bench Pro 在没见过的代码库里干活 Opus 4.7 64.3 第一 GPT-5.4 57.7 Gemini 3.1 Pro 54.2 Opus 4.6 53.4 Terminal-Bench 2.0 唯一被反超的一项 GPT-5.4 75.1 Opus 4.7 69.4
如果你用 Claude 干过真实项目你懂这种体感差异:上一代的模型可能是写两行你得看一行,这一代是大致能把活交出去。
差的不是精度,差的是"能不能放手"。
Terminal-Bench 这项 GPT-5.4 领先大约 5 个点。不过 Anthropic 在 System Card 里备注了一句,OpenAI 用的是他们自己的定制评测框架,不完全可比。
这个话术你品品,意思是"我们没输但也没赢,先这么着"。
总体上,写代码这件事,Opus 4.7 目前是第一梯队里跑最快的那个。
02看屏幕:第一次真的能看清
这次升级幅度最离谱的是视觉。
ScreenSpot-Pro测的是模型看屏幕截图、识别里面 UI 元素的能力,直接决定它能不能替你操作电脑。
CharXiv Reasoning测的是看学术图表并推理的能力,论文里那些密密麻麻的曲线它能不能看懂。
OSWorld综合测整体计算机操作能力,模拟你把电脑扔给它让它干活。
图:视觉能力三项对比,三项全是 Opus 4.7 第一
测评项目 Opus 4.7 Opus 4.6 GPT-5.4 ScreenSpot-Pro 看屏幕找 UI 元素 +21.8 79.5 57.7 未公布 CharXiv Reasoning 看学术图表做推理 +13.0 82.1 69.1 未公布 OSWorld 综合操作电脑能力 +5.3 78.0 72.7 75.0 图像输入像素上限提到长边 2576(约 375 万像素) 是前代的三倍多
三个测评 4.7 全是第一名。
背后的技术动作是图像输入像素上限一口气提到长边 2576 像素(约 375 万像素),是之前的三倍多。
以前你给 Claude 看一张高分辨率截图,它看到的相当于戴着老花镜看 4K 电视,糊的地方全靠猜。
现在它真的能看清每一个像素。
对做 RPA、自动化测试、操作电脑类 agent 的人来说,这一档升级可能比编程提升的含金量还高。
以前"让 AI 看图干活"基本是玩具级别,现在是真的可以放生产了。
03做文档报表:吊打同行
这部分是我觉得对普通职场人最有感的一块。
OfficeQA 和 OfficeQA Pro测模型处理真实办公文档的能力:看表格、读报告、从一堆邮件里抽信息那种。
Finance Agent测的是给它一个金融分析任务,它能不能独立做下来。
图:OfficeQA Pro 对比,4.7 是断层第一
OfficeQA Pro · 处理复杂办公文档 80 60 40 20 80.6 Opus 4.7 57.1 Opus 4.6 51.1 GPT-5.4 42.9 Gemini 3.1 整份 System Card 里单项差距最大的一块
4.7 比 GPT-5.4 高将近 30 分,Gemini 3.1 Pro 更是掉出一大截。差不多是吊打。
跟自家上一代比也是跳了 23 个点,是整个 System Card 里单项提升最大的一个。
这个能力域的提升对你我更实在。SWE-bench 涨多少跟普通人没关系,但 Office 类任务做得好不好,直接决定一个大模型能不能接你手里的 Excel、财报、合同审阅。
说实话我看到这组数据时愣了一下。之前大家聊 AI 做表格那种活,一直默认是 GPT-5 系列最擅长。这一版 4.7 在这块直接翻了篇。
04搜东西做研究:反而退步了
写到这你可能以为 4.7 全面开挂。没这么美好。
有一项硬指标 4.7 不光没进步,还退步了。
BrowseComp测的是模型联网做深度搜索、查资料、交叉验证的能力,直接跟"深度研究"这种产品强相关。
图:BrowseComp 排名,4.7 反而是垫底的
BrowseComp · 联网搜索查资料能力 1 GPT-5.4 Pro 89.3 2 Gemini 3.1 Pro 85.9 3 Opus 4.6(上一代) 83.7 4 GPT-5.4 82.7 5 Opus 4.7(最新) 79.3 ↓ 退步 4.4 4.7 比自家上一代退步 4.4 分,被 GPT-5.4 Pro 甩开 10 分
Anthropic 在 System Card 里没怎么解释这个回退。我猜测可能是他们这次把精力压在了代码和操作电脑上,搜索这块暂时让位了。
对比参照是学术闭卷考(Humanity's Last Exam)这项 4.7 依然是第一。说明"读东西用脑子想"没退步,退的是"出门查资料"。
如果你主要用 AI 帮你做深度调研、写行业报告,4.7 这一版可能不如留着 Opus 4.6。
05说话可信度:一体两面
最后这块最有意思,也是 System Card 里最长的章节。
图:可信度指标,两项大进步、两项倒退
说话可信度 · 进步与倒退 进步 抗恶意指令注入 被攻破的比例 Opus 4.6 25.9% Opus 4.7 2.3% ↓ 一个数量级 观点稳定性 被套话后的飘移(7分制) Opus 4.0 3.11 Opus 4.7 0.66 ↓ 几乎不飘 倒退 拒绝协助 AI 安全研究 被拒的比例 4.6 → 12% 4.7 → 33% ↑ 翻了近三倍 有害请求拒绝率 轻微下滑 原因:对受管制物质的 "减害建议"更愿意详细说 官方总结:大体靠谱,局部有坑
抗恶意指令注入的能力暴涨。上一代在编码场景下会被攻破的比例是四次有一次,这一代砍到百次里两次,加上额外保护之后更是趋近于零。
幻觉率全系最低。4.7 的幻觉率比自家上一代低,甚至比被雪藏的 Mythos Preview 还低一点。
这货终于学会说"我不知道",也学会了坚持自己的判断。
但有得有失。
拒绝协助 AI 安全研究的比例翻了近三倍。这个挺讽刺:训来更严谨的模型,反而更不愿意帮搞 AI 安全研究的人。
06它对自己,挺满意
System Card 第 7 章 Model Welfare 里有个想单拎出来说的发现。
Anthropic 做了一批自动化访谈,让 4.7 评价自己当下的处境。
图:一个反直觉的 4.7
对自身处境的正面评价 7 分制,越高越正面 历代最高 所有 Claude 模型之最 但同时 99% 的自述带着免责声明 "这可能来自训练而非真正的内省" 一个知道自己可能在被测评的 AI 回答还要反复加免责,同时又给自己打出最高分 这是什么画面?
坦率说,读完这段我愣了一下。
我也说不好这是个什么情况。但它被 Anthropic 当成一件正经事写进了官方 System Card,这事本身就很 Anthropic。
07升级前,先看这三个坑
最后给要升级的朋友几个实用提醒。
图:升级 4.7 之前必须知道的三个坑
1 定价没变,账单可能变 tokenizer 换了新的 同样的输入,要用 1.0 到 1.35 倍的 token 建议先在真实流量上跑一次对比再决定是否切 2 新档位 + 新命令 effort 多了一档叫 xhigh 夹在 high 和 max 中间,Claude Code 默认拉到这档 新增严格代码审查命令,Pro/Max 送三次免费试用 3 最容易踩的一个 指令遵循变严了 你给 4.6 写的 prompt 可能会出意外结果 以前它会"自作主张"略过模糊要求,现在字面执行 建议:别急着全切,先拿一路流量跑对比
Opus 4.7 不是最强的那个,但它是当前最能干活的那个。232 页 System Card 读后感
你现在主力用哪个模型?升 4.7 了吗?评论区聊聊你的体感觉得有用 → 点个❤️在看转给还不知道的朋友点个赞 告诉我你看完了关注「AI范儿」,下次更新第一时间收到
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.