网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.7炸场,6美元造《我的世界》,临门AGI前强调安全,打工人却更慌了

0
分享至



Anthropic 今天正式发布 Claude Opus 4.7,官方说这是“目前最强 Opus 模型”。定价没变,还是每百万 token 输入 5 美元、输出 25 美元,但能力这次真的往上跳了一个台阶。

两个月前刚出顶模 4.6,今天 4.7 直接来了。Anthropic 这个更新节奏,真的不打算让人喘气。

在 Vals Index 综合评测中,Opus 4.7 以 71.4% 的得分拿下第一,比之前的最好成绩(67.7%)大幅跃升。它还在 Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench 和 Terminal Bench 2 等多个榜单中均位列第一。


从 4.6 到 4.7,最核心的变化是什么?一句话说清楚:它开始对自己的输出负责了。

以前你把任务扔给 Claude,它做完就交,对不对另说。4.7 不一样,它会在报告结果之前先自己验证一遍。听起来是个小事,但对于那些跑几个小时的复杂任务来说,这个改变意味着你可以真正放手,不用一直盯着它。Anthropic 原话是:“You can hand off your hardest work with less supervision.”——把最难的活交出去,不用再当保姆了。

写代码能力大涨,这是最大的升级

4.7 整体更强,尤其在“写代码”和“看图表”这两块进步明显。

处理真实工程项目的能力,提升幅度相当大。

在 SWE-bench Pro(真实 GitHub 项目 bug 修复)上,4.7 从 53.4% 跳到 64.3%,提升了差不多 11 个百分点。这个幅度相当大。处理标准编程任务(SWE-bench Verified)也从 80.8% 提升到 87.6%。

SWE-bench Pro 那个 11 个百分点的跃升,背后的含义其实挺重要的。这个测试用的都是 GitHub 上真实的开源项目,代码库大、依赖关系复杂、bug 藏得深——跟那些教科书式的干净代码完全是两回事。能在这种“脏活累活”上提升这么多,说明 4.7 在实战场景下确实更能打了。


指令执行能力也彻底想通了。

4.6 有个让人又爱又恨的毛病——它会“善意理解”你的指令。你说做 A,它觉得 B 更好,就悄悄给你做了 B,还自我感觉良好。这种“聪明反被聪明误”的问题,在复杂工作流里会直接酿成大错。

4.7 把这个逻辑翻转了:逐字执行,不自作主张。

但这把双刃剑也有代价。Anthropic 自己在发布文档里警告:针对 4.6 调好的提示词,在 4.7 上可能直接崩掉。以前那些“模糊指令靠模型脑补”的用法,现在得老老实实重写 prompt 了。


看图表、看图片理解能力大涨

4.7 支持解析长边最大 2576 像素的图像,大约 3.75MP,是之前所有 Claude 版本的三倍多。

视觉推理能力从 69.1% 跳到 82.1%(不用工具的情况下)。跳了 13 个百分点。拿一张报表、一张架构图丢给它,它能看懂的概率明显更高了。

这个数字背后的意义,对普通用户来说很直接:密密麻麻的截图能读了,复杂图表能提取了,高分辨率设计稿能分析了。做 PPT、做界面、做文档,4.7 的审美和精度都跟着上来了。

代码审查工具 CodeRabbit 的测试数据显示,切换到 4.7 之后,最难发现的 bug 召回率提升了 10% 以上,而误报率没有上升。

对打工人来说,最直接的感受可能是:以前截图发给 Claude,它说“图片不够清晰看不清”——这个问题,基本上消失了。

电脑操作能力也提升了。

操作电脑能力(OSWorld)从 72.7% 提升到 78.0%。就是那种“帮我打开浏览器、点一下、填个表”的 Agent 类任务,做得更稳了。

研究生级别的硬核推理能力,GPQA 从 91.3% 提升到 94.2%,已经接近天花板了。

小幅进步的地方

除了上面那些大升级,4.7 在一些细节上也有改进:

  • 终端里写代码:65.4% → 69.4%

  • 复杂学科推理(人类最后的考试):40% → 46.9%

  • 金融分析:60.1% → 64.4%

  • 多语言问答:91.1% → 91.5%(几乎没动)

  • 工具调用:75.8% → 77.3%

退步了的地方

网页搜索能力反而下降。

BrowseComp 从 83.7% 掉到 79.3%,掉了 4 个百分点。如果你的业务里大量依赖 Claude 去网上搜资料、做 research,这个版本可能不如 4.6。

写代码、跑 Agent、处理图片图表这些场景,4.7 的提升是实打实的,闭眼升就行。但如果你的工作严重依赖 Claude 去网上大量检索信息、做深度研究,那 4.6 可能还是更稳妥的选择,至少先观望一下实际表现再决定。

网络安全漏洞复现能力也下降了——从 73.8% 降到 73.1%,基本没变,略微退步。

这个退步不是偶然的,而是 Anthropic 主动为之。

6美元造《我的世界》和GTA-5

国外很多网友已经开始用上4.7,有人用6美元的API调用成本,从零“造出一个我的世界”!

开发者Angaisb通过自然语言描述,让AI模型一步步生成完整的Minecraft风格沙盒游戏,包括方块世界、挖掘建造、资源采集等核心机制。整个过程AI自动迭代调试,最终输出可直接运行的完整游戏。

而在开发者Bridgemind的直播中,他用“Vibe Coding”模式,仅通过描述就让AI一气呵成,在单个HTML文件中构建出一个包含多种武器的第一人称射击游戏(FPS)。


游戏支持敌人波次、不同武器切换和流畅的3D射击手感,直播时吸引了1500多人在线围观。开发者甚至放话,下一步目标直指GTA 6!这充分展现了4.7实时生成复杂互动应用的能力,从想法到可玩游戏,只需“随性编码”几句提示。

Claude Code 这次也跟着动了

跟 4.7 同步上线的,还有几个 Claude Code 的新功能,值得单独说一下。

新增了/ultrareview命令,专门用来做代码审查——不是普通的 review,是专门盯着错误和设计问题的那种深度审查。Pro 和 Max 用户每月免费三次。

Claude Code 的默认推理强度从 high 升级到了 xhigh,这是一个介于 high 和 max 之间的新档位,理解成“思考更深但不烧最多钱”就行。

与此同时,任务预算(task budgets)进入公测,开发者可以在长任务中精确控制 token 消耗,不用再担心一个任务跑完账单爆炸。

自动模式也扩展到了 Claude Code Max 用户——Claude 可以在任务执行中自主做决策,比完全放开权限的“yolo 模式”更可控,比每步都问你确认的模式更省心。

Reddit 上有个 Claude Code(Opus 4.6)vs. Codex(GPT-5.4)的对比很有意思,经历 8 万行 Python/TypeScript 代码,2800 个测试用例的数据分析应用深度对比。结论是:“Claude 需要一位技术精湛、专注投入的‘驾驶员’,而 Codex 对使用者的实时介入要求更低。”


来源:@shao__meng

还有一件更离谱的事

就在 4.7 发布的今天,X 上另一条消息也传开了:有人给 Claude Code 加了一个文言文提示词模式(wenyan mode),用古典汉语来写 prompt,直接把提示词大小压缩了 60%。


@amaanbuilds 发推感叹:“Using a 2000 yr old language as a compression layer for tokens is just insane lol”——用 2000 年前的语言做 token 压缩层,这操作真的离谱。

但你仔细想想,文言文本来就是极度压缩的信息载体,“有朋自远方来”六个字,白话文要写一段。古人用它省竹简,现代人用它省 token,逻辑上一脉相承,只是这个用法确实没人想到过。

安全防护加强了,但打工人更慌了

4.7 的发布,还有一个容易被忽略但非常重要的背景:Anthropic 在临门 AGI 前,开始主动给模型“降能力”了。

上周 Anthropic 刚刚公布了 Project Glasswing 项目,专门研究 AI 模型在网络安全领域的风险和收益。他们明确表示,会限制 Claude Mythos Preview 的发布范围,并在能力较弱的模型上先测试新的网络安全防护机制。

4.7 就是第一个“试验品”。

Anthropic 在训练 4.7 的时候,主动实验了差异化降低网络安全能力的方法。所以你会看到,4.7 在网络安全漏洞复现能力上从 73.8% 降到 73.1%——这不是训练失误,而是有意为之。


与此同时,4.7 内置了自动检测和拦截机制,能识别并阻止那些涉及禁止用途或高风险网络安全操作的请求。

Anthropic 还专门推出了“网络安全验证计划”(Cyber Verification Program),允许安全专业人士申请使用 4.7 进行合法的漏洞研究、渗透测试和红队演练。

这个逻辑很清楚:模型越来越强,但不能无限制地强下去。在接近 AGI 的路上,安全防护必须跟上。

但对普通打工人来说,这个消息有点慌。

你想想,连 Anthropic 都开始主动给自己的模型“削弱能力”了,Mythos的编程和图表的能力并没有完全释放,长文本比4.6还有退步,这说明什么?说明他们内部已经看到了某些能力边界,看到了失控的可能性。

更直接的影响是:Anthropic 同步宣布开始推行身份验证,合作方是 Persona,需要护照加自拍。

这个消息在中文区引发了不少讨论,毕竟能用上 Claude 的路本来就不宽,现在又多了一道门。

Anthropic 现在的状态,有点吓人

发布 4.7 的背景,是 Anthropic 正在经历一段几乎所有人都没预料到的增速。

过去一年,Claude 的流量增长了大约 5 倍。今年 2 月,Anthropic 完成了 300 亿美元融资,估值 3800 亿美元。

企业端的数据更夸张——根据企业支出追踪平台 Ramp 的数据,今年 1 月和 2 月,Ramp 上付费使用 Anthropic 服务的企业占比连续两个月大幅增长,而 OpenAI 的份额同期下滑。


“现在每四家 Ramp 上的企业就有一家在付费用 Anthropic,一年前这个比例是二十五分之一。”Ramp 经济学家 Ara Kharazian 这样说。

企业年消费超过 10 万美元的客户数量,一年内增长了 7 倍。Claude Code 的年化营收,在今年 2 月已经跑到了 25 亿美元。到本月,Anthropic 整体年化营收据报道已经超过 300 亿美元,首次超过了 OpenAI。

这个背景下,4.7 的发布不只是一次常规迭代。它是 Anthropic 在企业市场全面提速的缩影——每一个“更精准执行指令”、“更稳定跑长任务”的改进,都直接对应着企业客户最真实的痛点。

最后说一句

还有一个更强的模型 Claude Mythos Preview 还在路上,目前只对少数安全和企业合作伙伴开放。

4.7 某种程度上是在给 Mythos 铺路——新的网络安全防护机制,先在 4.7 上跑通,再推到 Mythos 的大规模发布。

所以,现在的 4.7,只是个开始。

但这个开始,已经让人既兴奋又有点不安了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浇小麦的地下水变成血红色,谁来守护我们的生存底线?

浇小麦的地下水变成血红色,谁来守护我们的生存底线?

记录刘杰
2026-04-19 21:39:47
震惊世界  美国校园枪击惨案  一共 13 人死亡

震惊世界 美国校园枪击惨案 一共 13 人死亡

那些看得见的老照片
2026-04-20 07:00:08
美伊停火到期前48小时“极限博弈”:伊朗手握海峡“核按钮”,特朗普威胁炸桥炸电厂

美伊停火到期前48小时“极限博弈”:伊朗手握海峡“核按钮”,特朗普威胁炸桥炸电厂

红星新闻
2026-04-20 18:03:39
选择大于努力?看32岁凯恩与“降级教头”如何在慕尼黑重写命运!

选择大于努力?看32岁凯恩与“降级教头”如何在慕尼黑重写命运!

落夜足球
2026-04-20 16:22:33
《八千里路云和月》遭痛批,抗战剧要的是接地气,不是“接地府”

《八千里路云和月》遭痛批,抗战剧要的是接地气,不是“接地府”

星宿影视鸭
2026-04-20 16:24:42
欧尔班下台,这个欧洲国家却可能再次拥抱一位亲俄领导人

欧尔班下台,这个欧洲国家却可能再次拥抱一位亲俄领导人

上观新闻
2026-04-20 15:58:42
美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

澎湃新闻
2026-04-20 15:42:26
日本地震震级修正为7.7级

日本地震震级修正为7.7级

界面新闻
2026-04-20 18:59:43
宁波男子收到陌生账号转账8万余元,三天后奢侈品牌商家找来:员工误将其收款码给客户

宁波男子收到陌生账号转账8万余元,三天后奢侈品牌商家找来:员工误将其收款码给客户

齐鲁壹点
2026-04-20 07:19:18
国际油价飙涨7%,黄金白银、美股期指全线下挫,加密货币16万人爆仓,美军向伊朗商船开火

国际油价飙涨7%,黄金白银、美股期指全线下挫,加密货币16万人爆仓,美军向伊朗商船开火

21世纪经济报道
2026-04-20 06:46:08
连续炮击轮机舱,美军扣押伊朗货船!正在打仗的美军吃不饱饭了?

连续炮击轮机舱,美军扣押伊朗货船!正在打仗的美军吃不饱饭了?

鹰眼Defence
2026-04-20 16:02:26
亲戚一家五口旅游要求接待,咋拒绝?网友:直接表达的态度

亲戚一家五口旅游要求接待,咋拒绝?网友:直接表达的态度

带你感受人间冷暖
2026-04-19 23:11:39
5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

另子维爱读史
2026-04-19 19:37:43
小学生拒绝借车遭殴打搜家,一名施暴者及家长上门道歉,教育局称校园欺凌专干介入,警方:“入室抢劫案”仍在调查

小学生拒绝借车遭殴打搜家,一名施暴者及家长上门道歉,教育局称校园欺凌专干介入,警方:“入室抢劫案”仍在调查

极目新闻
2026-04-20 16:20:59
后悔了!皇马最大错误浮现,高层内部质疑老佛爷,不该放走真核

后悔了!皇马最大错误浮现,高层内部质疑老佛爷,不该放走真核

祥谈体育
2026-04-20 19:47:56
19岁女孩挪用自家1700万当“榜一大姐” 亲爹带女儿自首:坐牢才有可能追回钱款

19岁女孩挪用自家1700万当“榜一大姐” 亲爹带女儿自首:坐牢才有可能追回钱款

封面新闻
2026-04-20 17:48:14
局面尴尬!伊朗明确不参与第二轮谈判,拒绝任何最后通牒

局面尴尬!伊朗明确不参与第二轮谈判,拒绝任何最后通牒

山河路口
2026-04-20 20:42:59
张敬轩凉透了!霍汶希被牵连,英皇瑟瑟发抖!成都文旅连夜割席!

张敬轩凉透了!霍汶希被牵连,英皇瑟瑟发抖!成都文旅连夜割席!

东方不败然多多
2026-04-21 00:21:59
看哭了!张雪车队64号频频摔车垫底,原来他的职责根本不是拿奖

看哭了!张雪车队64号频频摔车垫底,原来他的职责根本不是拿奖

人间烟火记事本
2026-04-21 00:57:18
特朗普:如未能达成协议“几无可能”再延长停火

特朗普:如未能达成协议“几无可能”再延长停火

界面新闻
2026-04-20 23:21:47
2026-04-21 02:48:49
鲸选AI incentive-icons
鲸选AI
最新AI产品化与商业化案例速递
149文章数 38关注度
往期回顾 全部

游戏要闻

魔兽世界:时光服组队难度增加,开团数量飙升,刷子转行当团长?

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

科技要闻

HUAWEI Pura X Max发布 售价10999元起

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

旅游
游戏
数码
亲子
艺术

旅游要闻

以“Fun”为名,深圳布吉将发布全域旅游品牌IP

大司马回归两个月,某音人气稳居顶流行列,道出风光背后心酸现状

数码要闻

REDMI 显示器 G Pro 27U 2026轻体验:电竞利器 桌面上的“小钢炮”

亲子要闻

【孤独症科普】啥是孤独症,哪些孩子易发生,如何应对?

艺术要闻

沙特官宣:全球最大单体建筑,延期十年!网友:又是画饼?

无障碍浏览 进入关怀版