Claude Opus 4.7炸场，6美元造《我的世界》，临门AGI前强调安全，打工人却更慌了|编程|代码|agi|opus|虚幻引擎

Claude Opus 4.7炸场，6美元造《我的世界》，临门AGI前强调安全，打工人却更慌了

2026-04-17 01:47:15　来源: 鲸选AI

北京举报

分享至

Anthropic 今天正式发布 Claude Opus 4.7，官方说这是“目前最强 Opus 模型”。定价没变，还是每百万 token 输入 5 美元、输出 25 美元，但能力这次真的往上跳了一个台阶。

两个月前刚出顶模 4.6，今天 4.7 直接来了。Anthropic 这个更新节奏，真的不打算让人喘气。

在 Vals Index 综合评测中，Opus 4.7 以 71.4% 的得分拿下第一，比之前的最好成绩（67.7%）大幅跃升。它还在 Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench 和 Terminal Bench 2 等多个榜单中均位列第一。

从 4.6 到 4.7，最核心的变化是什么？一句话说清楚：它开始对自己的输出负责了。

以前你把任务扔给 Claude，它做完就交，对不对另说。4.7 不一样，它会在报告结果之前先自己验证一遍。听起来是个小事，但对于那些跑几个小时的复杂任务来说，这个改变意味着你可以真正放手，不用一直盯着它。Anthropic 原话是：“You can hand off your hardest work with less supervision.”——把最难的活交出去，不用再当保姆了。

写代码能力大涨，这是最大的升级

4.7 整体更强，尤其在“写代码”和“看图表”这两块进步明显。

处理真实工程项目的能力，提升幅度相当大。

在 SWE-bench Pro（真实 GitHub 项目 bug 修复）上，4.7 从 53.4% 跳到 64.3%，提升了差不多 11 个百分点。这个幅度相当大。处理标准编程任务（SWE-bench Verified）也从 80.8% 提升到 87.6%。

SWE-bench Pro 那个 11 个百分点的跃升，背后的含义其实挺重要的。这个测试用的都是 GitHub 上真实的开源项目，代码库大、依赖关系复杂、bug 藏得深——跟那些教科书式的干净代码完全是两回事。能在这种“脏活累活”上提升这么多，说明 4.7 在实战场景下确实更能打了。

指令执行能力也彻底想通了。

4.6 有个让人又爱又恨的毛病——它会“善意理解”你的指令。你说做 A，它觉得 B 更好，就悄悄给你做了 B，还自我感觉良好。这种“聪明反被聪明误”的问题，在复杂工作流里会直接酿成大错。

4.7 把这个逻辑翻转了：逐字执行，不自作主张。

但这把双刃剑也有代价。Anthropic 自己在发布文档里警告：针对 4.6 调好的提示词，在 4.7 上可能直接崩掉。以前那些“模糊指令靠模型脑补”的用法，现在得老老实实重写 prompt 了。

看图表、看图片理解能力大涨

4.7 支持解析长边最大 2576 像素的图像，大约 3.75MP，是之前所有 Claude 版本的三倍多。

视觉推理能力从 69.1% 跳到 82.1%（不用工具的情况下）。跳了 13 个百分点。拿一张报表、一张架构图丢给它，它能看懂的概率明显更高了。

这个数字背后的意义，对普通用户来说很直接：密密麻麻的截图能读了，复杂图表能提取了，高分辨率设计稿能分析了。做 PPT、做界面、做文档，4.7 的审美和精度都跟着上来了。

代码审查工具 CodeRabbit 的测试数据显示，切换到 4.7 之后，最难发现的 bug 召回率提升了 10% 以上，而误报率没有上升。

对打工人来说，最直接的感受可能是：以前截图发给 Claude，它说“图片不够清晰看不清”——这个问题，基本上消失了。

电脑操作能力也提升了。

操作电脑能力（OSWorld）从 72.7% 提升到 78.0%。就是那种“帮我打开浏览器、点一下、填个表”的 Agent 类任务，做得更稳了。

研究生级别的硬核推理能力，GPQA 从 91.3% 提升到 94.2%，已经接近天花板了。

小幅进步的地方

除了上面那些大升级，4.7 在一些细节上也有改进：

终端里写代码：65.4% → 69.4%
复杂学科推理（人类最后的考试）：40% → 46.9%
金融分析：60.1% → 64.4%
多语言问答：91.1% → 91.5%（几乎没动）
工具调用：75.8% → 77.3%

退步了的地方

网页搜索能力反而下降。

BrowseComp 从 83.7% 掉到 79.3%，掉了 4 个百分点。如果你的业务里大量依赖 Claude 去网上搜资料、做 research，这个版本可能不如 4.6。

写代码、跑 Agent、处理图片图表这些场景，4.7 的提升是实打实的，闭眼升就行。但如果你的工作严重依赖 Claude 去网上大量检索信息、做深度研究，那 4.6 可能还是更稳妥的选择，至少先观望一下实际表现再决定。

网络安全漏洞复现能力也下降了——从 73.8% 降到 73.1%，基本没变，略微退步。

这个退步不是偶然的，而是 Anthropic 主动为之。

6美元造《我的世界》和GTA-5

国外很多网友已经开始用上4.7，有人用6美元的API调用成本，从零“造出一个我的世界”！

开发者Angaisb通过自然语言描述，让AI模型一步步生成完整的Minecraft风格沙盒游戏，包括方块世界、挖掘建造、资源采集等核心机制。整个过程AI自动迭代调试，最终输出可直接运行的完整游戏。

而在开发者Bridgemind的直播中，他用“Vibe Coding”模式，仅通过描述就让AI一气呵成，在单个HTML文件中构建出一个包含多种武器的第一人称射击游戏（FPS）。

游戏支持敌人波次、不同武器切换和流畅的3D射击手感，直播时吸引了1500多人在线围观。开发者甚至放话，下一步目标直指GTA 6！这充分展现了4.7实时生成复杂互动应用的能力，从想法到可玩游戏，只需“随性编码”几句提示。

Claude Code 这次也跟着动了

跟 4.7 同步上线的，还有几个 Claude Code 的新功能，值得单独说一下。

新增了/ultrareview命令，专门用来做代码审查——不是普通的 review，是专门盯着错误和设计问题的那种深度审查。Pro 和 Max 用户每月免费三次。

Claude Code 的默认推理强度从 high 升级到了 xhigh，这是一个介于 high 和 max 之间的新档位，理解成“思考更深但不烧最多钱”就行。

与此同时，任务预算（task budgets）进入公测，开发者可以在长任务中精确控制 token 消耗，不用再担心一个任务跑完账单爆炸。

自动模式也扩展到了 Claude Code Max 用户——Claude 可以在任务执行中自主做决策，比完全放开权限的“yolo 模式”更可控，比每步都问你确认的模式更省心。

Reddit 上有个 Claude Code（Opus 4.6）vs. Codex（GPT-5.4）的对比很有意思，经历 8 万行 Python/TypeScript 代码，2800 个测试用例的数据分析应用深度对比。结论是：“Claude 需要一位技术精湛、专注投入的‘驾驶员’，而 Codex 对使用者的实时介入要求更低。”

来源：@shao__meng

还有一件更离谱的事

就在 4.7 发布的今天，X 上另一条消息也传开了：有人给 Claude Code 加了一个文言文提示词模式（wenyan mode），用古典汉语来写 prompt，直接把提示词大小压缩了 60%。

@amaanbuilds 发推感叹：“Using a 2000 yr old language as a compression layer for tokens is just insane lol”——用 2000 年前的语言做 token 压缩层，这操作真的离谱。

但你仔细想想，文言文本来就是极度压缩的信息载体，“有朋自远方来”六个字，白话文要写一段。古人用它省竹简，现代人用它省 token，逻辑上一脉相承，只是这个用法确实没人想到过。

安全防护加强了，但打工人更慌了

4.7 的发布，还有一个容易被忽略但非常重要的背景：Anthropic 在临门 AGI 前，开始主动给模型“降能力”了。

上周 Anthropic 刚刚公布了 Project Glasswing 项目，专门研究 AI 模型在网络安全领域的风险和收益。他们明确表示，会限制 Claude Mythos Preview 的发布范围，并在能力较弱的模型上先测试新的网络安全防护机制。

4.7 就是第一个“试验品”。

Anthropic 在训练 4.7 的时候，主动实验了差异化降低网络安全能力的方法。所以你会看到，4.7 在网络安全漏洞复现能力上从 73.8% 降到 73.1%——这不是训练失误，而是有意为之。

与此同时，4.7 内置了自动检测和拦截机制，能识别并阻止那些涉及禁止用途或高风险网络安全操作的请求。

Anthropic 还专门推出了“网络安全验证计划”（Cyber Verification Program），允许安全专业人士申请使用 4.7 进行合法的漏洞研究、渗透测试和红队演练。

这个逻辑很清楚：模型越来越强，但不能无限制地强下去。在接近 AGI 的路上，安全防护必须跟上。

但对普通打工人来说，这个消息有点慌。

你想想，连 Anthropic 都开始主动给自己的模型“削弱能力”了，Mythos的编程和图表的能力并没有完全释放，长文本比4.6还有退步，这说明什么？说明他们内部已经看到了某些能力边界，看到了失控的可能性。

更直接的影响是：Anthropic 同步宣布开始推行身份验证，合作方是 Persona，需要护照加自拍。

这个消息在中文区引发了不少讨论，毕竟能用上 Claude 的路本来就不宽，现在又多了一道门。

Anthropic 现在的状态，有点吓人

发布 4.7 的背景，是 Anthropic 正在经历一段几乎所有人都没预料到的增速。

过去一年，Claude 的流量增长了大约 5 倍。今年 2 月，Anthropic 完成了 300 亿美元融资，估值 3800 亿美元。

企业端的数据更夸张——根据企业支出追踪平台 Ramp 的数据，今年 1 月和 2 月，Ramp 上付费使用 Anthropic 服务的企业占比连续两个月大幅增长，而 OpenAI 的份额同期下滑。

“现在每四家 Ramp 上的企业就有一家在付费用 Anthropic，一年前这个比例是二十五分之一。”Ramp 经济学家 Ara Kharazian 这样说。

企业年消费超过 10 万美元的客户数量，一年内增长了 7 倍。Claude Code 的年化营收，在今年 2 月已经跑到了 25 亿美元。到本月，Anthropic 整体年化营收据报道已经超过 300 亿美元，首次超过了 OpenAI。

这个背景下，4.7 的发布不只是一次常规迭代。它是 Anthropic 在企业市场全面提速的缩影——每一个“更精准执行指令”、“更稳定跑长任务”的改进，都直接对应着企业客户最真实的痛点。

最后说一句

还有一个更强的模型 Claude Mythos Preview 还在路上，目前只对少数安全和企业合作伙伴开放。

4.7 某种程度上是在给 Mythos 铺路——新的网络安全防护机制，先在 4.7 上跑通，再推到 Mythos 的大规模发布。

所以，现在的 4.7，只是个开始。

但这个开始，已经让人既兴奋又有点不安了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.