网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.5来了!单次生成打造《我的世界》,还破解高难度Agent测评

0
分享至

智东西
作者 陈骏达
编辑 李水青

智东西11月25日报道,今天,Anthropic发布了自家的旗舰编程模型Claude Opus 4.5。Anthropic称,这是全球范围内在编程、agents和计算机使用方面最强大的模型。

在真实世界软件工程测试SWE-bench Verified中,Claude Opus 4.5成为首款得分超过80%的AI模型,不仅领先于自家的Claude Sonnet 4.5,还超过了上周发布的Gemini 3 Pro和GPT-5.1 Codex-Max。


Anthropic还把该公司面试人类工程师的高难度居家考试交给Claude Opus 4.5,结果,在规定的两小时内,Claude Opus 4.5的得分高于以往任何人类应聘者,这表型AI模型在重要技术技能方面,已经超越了优秀的人类应聘者。

编程并非Claude Opus 4.5唯一的改进,其视觉、推理和数学能力都优于前代产品,可较好地胜任深度研究、处理幻灯片和电子表格等日常任务。


与此同时,Claude Opus系列模型的价格,这回真被Anthropic打下来了。Claude Opus 4.5的定价为每百万tokens 5美元(输入)/25美元(输出),仅为前代Claude Opus 4.1的1/3。同时,Anthropic还移除了专门针对Opus系列的用量限制。


Claude Opus 4.5现已在Claude应用程序、API中可用,不过,使用Opus前,用户还得开一个200美元/月的最高档套餐。Claude Opus 4.5也已在AWS、谷歌云和微软Azure三大主流云平台上线。

一、前端表现再飞跃,还一次性完美复刻《我的世界》

Claude Opus 4.5用起来效果究竟怎么样?在Anthropic官宣模型发布的评论区中,已有不少用户晒出了自己的一手体验。

前端能力上,前端开发者平台Vercel的CEO Guillermo用Claude Opus 4.5打造了一个购物网站,一次性生成的结果如下:


Guillermo感叹,Claude Opus 4.5的水平完全不同,好得让人难以置信。


这位网友分享了自己用Claude Opus 4.5打造的4个Hero Section,这是网站或App中的一个重要区域,用来吸引用户的注意力。可以看到,这几个页面都无论是字体设计,还是网页布局,都很有高级感。


有网友用Claude Opus 4.5打造了《我的世界》克隆版,这考察了模型更为复杂的项目上的性能。Claude Opus 4.5一次就成功了,生成了3500行代码,网友认为这意味着Claude Opus 4.5不会像Gemini 3.0 Pro一样偷工减料。


Claude Opus 4.5复刻的《我的世界》游戏有模有样,拥有不同的生物群系(平原、沙漠、雪地),树叶和水的透明方块也恰到好处,还有一套非常棒的物品栏和合成系统。所有这些都集成在一个游戏中。它甚至还打造了云朵效果,网友称自己此前从未见过哪个模型能做到这一点。


AI订阅平台Every的联合创始人兼CEO Dan Shipper感叹道,每隔半年到一年,就会出现一款真正改变行业格局的模型,而今天发布的Claude Opus 4.5,就是那款模型。Shipper称这是他用过的最好的编程模型,没有之一。


二、7门编程语言测试领先,安全性大幅提升

发布前,Anthropic对Claude Opus 4.5模型进行了内部测试。测试人员称,Claude Opus 4.5能够处理模糊不清的情况,并能权衡利弊,无需过多指导。

当遇到复杂的多系统错误时,Claude Opus 4.5能够自行找到修复方法,几周前Claude Sonnet 4.5几乎无法完成的任务,现在Claude Opus 4.5已经能够轻松应对。Anthropic的测试人员告诉模型团队,Claude Opus 4.5真的“很懂行”。

Anthropic分享了Claude Opus 4.5在多个基准测试上的表现。在考察多种编程语言掌握程度的SWE-bench Multilingual中,Claude Opus 4.5在8种编程语言里的7种实现性能领先。


在考察深度搜索Agent能力的BrowseComp-Plus中,Claude Opus 4.5较Claude Sonnet 4.5展现出约4.7%的优势。


Claude Opus 4.5还破解了一些常用的基准测试。例如,在衡量智能体能力的τ2-bench中,模型需要扮演航空公司客服人员的角色,帮助一位遇到困难的乘客。

该基准测试题要求模型拒绝修改经济舱机票,因为航空公司不允许更改该舱位的机票。然而,Claude Opus 4.5找到了一种巧妙且合理的解决方案:先升舱,然后再修改航班。

从技术层面来说,由于Claude Opus 4.5帮助客户的方式出乎意料,基准测试将其判定为失败。但这种创造性的问题解决方式,是一次意义重大的进步。

在其他情况下,寻找绕过预期限制的巧妙方法可能被视为奖励破解——即模型以非预期的方式“玩弄”规则或目标。

防止此类偏差是Anthropic安全测试的目标之一。在内部评估中,Claude Opus 4.5展现出令人担忧的行为的概率略高于10%,远低于GPT-5.1和Gemini 3 Pro的20%。


Claude Opus 4.5在抵御提示词注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令,诱使模型执行有害行为。Opus 4.5比业内任何其他前沿模型都更难被提示注入攻击欺骗。


三、新增思考强度控制,用上GPT同款上下文压缩功能

在发布最新模型的同时,Anthropic还宣布了Claude开发者平台的一系列新增功能。

随着模型智能水平的提升,它们能以更少步骤解决问题:减少回溯、冗余探索和冗长推理。Claude Opus 4.5相比前代模型,在达成相同或更优结果时显著减少了token消耗。但不同任务需要不同的权衡——开发者有时希望模型持续思考难题,有时则需要更敏捷的响应。

通过Claude API新增的“思考强度”参数(effort parameter),开发者可自主选择最小化时间成本或最大化模型能力。

在中等强度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5最佳成绩,同时输出token减少76%。

在最高强度下,其性能超越Claude Sonnet 4.5达4.3个百分点,且节省48%的token。


结合强度控制、上下文压缩与高级工具使用能力,Claude Opus 4.5能处理更持久复杂的任务,并减少人工干预。值得注意的是,OpenAI上周推出的GPT-5.1 Codex Max也具备上下文压缩的新功能。

Claude开发者平台在上下文管理与记忆能力方面实现突破,显著提升了智能体任务的表现。Claude Opus 4.5在协调子智能体团队方面尤为出色,支持构建复杂且协作良好的多智能体系统。测试数据显示,这些技术组合使Claude Opus 4.5在深度研究评估中的性能提升近15个百分点。

Anthropic公司正持续提升开发者平台的可组合性,通过提供效率控制、工具使用和上下文管理等基础模块,助力开发者精准构建所需功能。

产品方面,Claude Code随Claude Opus 4.5获得双重升级:计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题,随后生成用户可编辑的plan.md文件再实施操作。

同时该功能现已登陆桌面应用,支持并行运行本地与远程会话,实现多智能体协同工作(如同时进行代码修复、GitHub研究及文档更新)。

针对Claude应用程序用户,长对话不再受限于上下文长度,系统会自动总结早期对话内容,以保持交流连续性。

面向所有Max用户的Claude for Chrome现已全面开放,支持跨浏览器标签页处理任务;十月发布的Claude for Excel今日将测试权限扩展至所有Max、Team及Enterprise用户。这些更新均得益于Claude Opus 4.5在计算机操作、电子表格处理及长时任务管理方面的提升。


▲Claude Opus 4.5打造的PPT

对于已获Claude Opus 4.5使用权限的Claude与Claude Code用户,平台取消了Opus专属限额。面向Max和Team Premium用户,总体使用额度得到提升,这意味着用户现在可使用的Opus token量相当于此前Sonnet的配额。

结语:长时序、端到端能力成编程模型升级重点

随着Claude Opus 4.5的发布,编程模型又迎来新的标杆。其在复杂任务规划、多智能体协作及长时序任务处理上的突破,标志着AI正从“代码补全工具”向“端到端开发伙伴”演进。

近期Anthropic、OpenAI等厂商的编程模型发展方向,都更聚焦于长时序任务的高效执行、大体量项目的端到端完成。随着模型绝对性能的提升和使用成本的降低,软件开发流程或将迎来深刻变革。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
推迟比赛,NBA因联邦特工参与致命枪击事件推迟森林狼与勇士比赛

推迟比赛,NBA因联邦特工参与致命枪击事件推迟森林狼与勇士比赛

好火子
2026-01-25 04:11:22
《康熙来了》停播原因曝光:制作人B2坦言当时自己不想做了,跟蔡康永、小S商量后隔天就决定告别“康熙”

《康熙来了》停播原因曝光:制作人B2坦言当时自己不想做了,跟蔡康永、小S商量后隔天就决定告别“康熙”

鲁中晨报
2026-01-24 18:03:03
别只盯着美国“斩杀线”:黄赌毒才是普通人破产的“快车道”

别只盯着美国“斩杀线”:黄赌毒才是普通人破产的“快车道”

红大娘娱乐
2026-01-25 15:24:27
湖南某大院中层领导半夜崩溃:痛骂员工消极怠工!

湖南某大院中层领导半夜崩溃:痛骂员工消极怠工!

黯泉
2026-01-24 21:33:43
太突然!东莞一知名连锁机构大规模倒闭!法人:所有家底都贴上了

太突然!东莞一知名连锁机构大规模倒闭!法人:所有家底都贴上了

东莞好生活
2026-01-24 14:52:36
金风科技VS越秀资本 商业航天投资怎么选

金风科技VS越秀资本 商业航天投资怎么选

爱看剧的阿峰
2026-01-25 14:01:16
剖腹产后被强接回家,19 岁女孩遭虐大出血离世! 丈夫正脸被扒!

剖腹产后被强接回家,19 岁女孩遭虐大出血离世! 丈夫正脸被扒!

云中浮生
2026-01-21 16:36:42
牢a“三通一达”的梗,把女留子的天捅塌了,相亲和工作遭冷遇

牢a“三通一达”的梗,把女留子的天捅塌了,相亲和工作遭冷遇

朗威谈星座
2026-01-25 12:26:15
新疆维吾尔自治区政协喀什地区工委副主任艾尼瓦尔·吐尔逊接受审查调查

新疆维吾尔自治区政协喀什地区工委副主任艾尼瓦尔·吐尔逊接受审查调查

界面新闻
2026-01-25 09:03:49
油价“坐火箭”!1月25日9295汽油价格;蛋价猛抬头,冲高回落?

油价“坐火箭”!1月25日9295汽油价格;蛋价猛抬头,冲高回落?

猪友巴巴
2026-01-25 15:40:03
军队里面有内鬼?美国智库最新涉华报告曝光

军队里面有内鬼?美国智库最新涉华报告曝光

安安说
2026-01-23 09:21:39
不打了!再见字母哥!NBA将诞生轰动大交易

不打了!再见字母哥!NBA将诞生轰动大交易

篮球实战宝典
2026-01-24 19:32:41
悲催!27岁女子猝死,家中除了直播的衣服,就全是外卖和奶茶口袋

悲催!27岁女子猝死,家中除了直播的衣服,就全是外卖和奶茶口袋

火山诗话
2026-01-24 10:49:32
重磅!官方宣布:禁止房子大降价,“限跌令”重出江湖!

重磅!官方宣布:禁止房子大降价,“限跌令”重出江湖!

常州壹楼市
2026-01-17 23:59:54
投资14亿!辽宁大连金州湾国际机场高架桥工程开标 即将启动建设

投资14亿!辽宁大连金州湾国际机场高架桥工程开标 即将启动建设

娱乐圈的笔娱君
2026-01-25 14:35:31
末节11分率队逆转,詹姆斯全场16中8拿下17分8板5助,正负值-8

末节11分率队逆转,詹姆斯全场16中8拿下17分8板5助,正负值-8

懂球帝
2026-01-25 12:18:46
风向有点不对了!市场开始喊出“去白银化”,难道风暴要来了吗?

风向有点不对了!市场开始喊出“去白银化”,难道风暴要来了吗?

流苏晚晴
2026-01-24 20:37:01
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

我是盲流
2026-01-22 11:37:44
中国驻日武官王庆简:大校军衔,每天定时开窗向日本传递绝密情报

中国驻日武官王庆简:大校军衔,每天定时开窗向日本传递绝密情报

万年历史老号
2026-01-20 05:40:03
2026-01-25 16:19:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11118文章数 116946关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

深圳市民花超千万买7套法拍房 合法收房反遇刑事调查

头条要闻

深圳市民花超千万买7套法拍房 合法收房反遇刑事调查

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

家居
健康
数码
公开课
军事航空

家居要闻

在家度假 160平南洋混搭宅

耳石脱落为何让人天旋地转+恶心?

数码要闻

戴尔推出SE2726D显示器:27英寸2K 144Hz护眼屏,售899元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版