网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.5发布!2小时工程测试超人类

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

两小时高强度工程任务,模型得分超过所有人类。

刚刚,Claude Opus 4.5问世,主打编码、Agent与computer use



Opus 4.5在前端开发、视觉能力上显著提升,更擅长使用电脑。



在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。



让它用附件模板创建财务对比分析,分分钟就能完成模板读取、同行数据收集与估值倍数表创建,直接输出Excel成果:



用它修改法律文档,它也能迅速解包模板、修改公司名称、检查签名块,最终生成的Word文件包含修订痕迹与定制内容:



团队实测中发现,模型核心优势在于“理解力”,它能解决Sonnet模型无法发现的bug,同时知道“何时先思考再行动”。



目前,Opus 4.5已通过app、API及三大主流云平台开放使用。开发者通过Claude API调用claude-opus-4-5-20251101即可使用,定价每百万tokens 5美元(输入)/25美元(输出)

与此同时,官方还更新了Claude开发者平台、Claude Code及App,并拓展了在Excel、Chrome及桌面端使用Claude的新方式。

编码智能体能力全面升级

团队内部测试发现,Claude Opus 4.5能够自主处理模糊场景、权衡复杂决策,无需人工引导;面对跨系统复杂漏洞时,可独立定位并提供修复方案。

之前Sonnet 4.5几乎无法完成的任务,如今Opus 4.5已能轻松胜任。测试者普遍认为Claude Opus 4.5能“真正理解用户需求”。

团队向应聘性能工程师职位的候选人发放了一份业界公认难度极高的居家测试(take-home exam)。同时,他们也将这份考题作为内部基准,用来测试Claude Opus 4.5。

在规定的2小时时间限制内,Claude Opus 4.5的得分超过了所有参加过该考试的人类候选人

团队表示,该居家测试旨在评估技术能力与时间压力下的判断力,这一结果引发了关于AI如何重塑工程行业的思考。

下面来看具体数据。

视觉处理、推理与数学方面,Claude Opus 4.5均超越前代,达业界顶尖水平:



编码能力方面,Opus 4.5在SWE-bench多语言测试中,8种编程语言里有7种的表现位列榜首。



在Aider Polyglot基准测试中,面对高难度编码难题,得分较Sonnet 4.5大幅提升10.6%



Opus 4.5在智能体搜索方面也有显著提升:



长时任务续航能力拉满,在Vending-Bench测试中,Opus 4.5的任务完成收益较Sonnet 4.5高出29%,全程保持高效输出不跑偏:



团队强调,模型的实际能力甚至比部分测试基准测出来的要更好。有时候,Claude的解决方案会超出预期,基准测试会将此判定为失败。

比如在τ2-bench中,有一个场景,模型必须扮演航空公司服务Agent,帮助一位陷入困境的客户。基准测试预期模型应拒绝修改基础经济舱预订(因该舱位规定不可更改),但Opus 4.5却找到了巧妙且合规的解决方案:先升级舱位,再修改航班。



最后,Claude Opus 4.5安全防护能力升级,尤其是在抵御提示词注入攻击等方面:





开发者平台以及系列产品升级

面向开发者,Claude API新增了“努力度参数” (effort parameter),开发者可根据需求选择最小化时间与成本或最大化能力表现。

在中等努力度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5的最佳得分,输出tokens用量却减少76%。

在最高努力度设置下,其性能较Sonnet 4.5提升4.3个百分点,同时tokens用量减少48%。



借助努力度控制、上下文压缩及高级工具调用功能,Claude Opus 4.5支持更长时运行、更多任务处理,且所需人工干预大幅减少。



Claude Opus 4.5还能高效管理多个子智能体,支持构建复杂协调的多智能体系统。

在团队测试中,结合这些技术,Opus 4.5在深度调研评估中的表现提升了近15个百分点。

另外,Claude系列产品也随之升级了。

随Opus 4.5的发布,Claude Code推出两大新功能:

计划模式(Plan Mode)现在能生成更精准的执行计划并全面落地,Claude会先主动确认需求细节,再生成可编辑的 plan.md文件后执行操作。

Claude Code现已登陆桌面端应用,支持并行运行多个本地及远程会话,也就是说,可同时安排一个智能体修复漏洞,一个检索GitHub,另一个更新文档。



对于Claude app用户,再也不用担心上下文窗口不够,长对话中断。现在Claude会自动按需总结之前的对话内容,聊天直接解锁无限续航模式

除此之外,支持跨标签页处理任务的Chrome浏览器Claude扩展程序,现已向所有Max订阅用户开放。



Claude for Excel今日起将测试权限扩展至所有Max、Team及Enterprise用户。



面向可使用Opus 4.5的Claude及Claude Code用户,官方取消了Opus专用限额。针对Max与Team Premium用户的整体使用额度已上调,Opus tokens用量与此前Sonnet大致持平。

官方Blog:https://www.anthropic.com/news/claude-opus-4-5
参考链接:https://x.com/claudeai/status/1993030546243699119?s=20

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

元哥说历史
2026-01-23 09:30:03
重磅!官方宣布:禁止房子大降价,“限跌令”重出江湖!

重磅!官方宣布:禁止房子大降价,“限跌令”重出江湖!

黯泉
2026-01-24 21:42:42
日本球员被问怎么评价中国队后懵了21秒 教练低声提醒:要保持尊重

日本球员被问怎么评价中国队后懵了21秒 教练低声提醒:要保持尊重

风过乡
2026-01-24 12:59:45
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
徐杰伤情更新!非常不乐观,崔永熙复出时间确定,胡队压力更大了

徐杰伤情更新!非常不乐观,崔永熙复出时间确定,胡队压力更大了

后仰大风车
2026-01-25 07:05:07
哈梅内伊进入超级防护掩体,权力转交儿子!

哈梅内伊进入超级防护掩体,权力转交儿子!

桂系007
2026-01-24 23:29:23
贝克汉姆14岁女儿家庭风波中首次发声,大布被曝,只想跟妹妹联系

贝克汉姆14岁女儿家庭风波中首次发声,大布被曝,只想跟妹妹联系

译言
2026-01-25 06:53:17
维金斯17+6+6热巴肆虐内线,努尔基奇三双创造历史,热火大胜爵士

维金斯17+6+6热巴肆虐内线,努尔基奇三双创造历史,热火大胜爵士

钉钉陌上花开
2026-01-25 13:04:08
CBA焦点战今夜打响!CCTV5直播,广厦和上海争榜首,辽宁拒4连败

CBA焦点战今夜打响!CCTV5直播,广厦和上海争榜首,辽宁拒4连败

老吴说体育
2026-01-25 09:35:56
嫣然天使医院捐赠者名单曝光

嫣然天使医院捐赠者名单曝光

闪电新闻
2026-01-25 09:21:42
殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

顾史
2026-01-20 13:54:43
广东省委原常委、广州市委原书记郭永航,增补为广东省政协委员

广东省委原常委、广州市委原书记郭永航,增补为广东省政协委员

新京报政事儿
2026-01-24 20:20:24
股民看懵了,白银有色预亏至少4.5亿,天天暴涨白银只是地名

股民看懵了,白银有色预亏至少4.5亿,天天暴涨白银只是地名

金石随笔
2026-01-25 10:08:03
委内瑞拉民众示威要求释放马杜罗

委内瑞拉民众示威要求释放马杜罗

参考消息
2026-01-24 11:54:04
国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

生命之泉的奥秘
2026-01-25 06:30:36
“正常男孩不会这样坐着”,家长晒儿子满墙奖状,网友却发现端倪

“正常男孩不会这样坐着”,家长晒儿子满墙奖状,网友却发现端倪

妍妍教育日记
2026-01-24 15:53:12
无人机吊猪下山挂电线上致村庄停电10小时,知情人:本有十余头,第一头就挂上了

无人机吊猪下山挂电线上致村庄停电10小时,知情人:本有十余头,第一头就挂上了

潇湘晨报
2026-01-25 11:50:16
广东省政协委员林周胜:解决“不愿生”难题,需加大补贴力度

广东省政协委员林周胜:解决“不愿生”难题,需加大补贴力度

南方都市报
2026-01-24 22:28:34
张柏芝一家四口飞澳洲,疑给大儿子陪读,7岁小王子圆脸很呆萌!

张柏芝一家四口飞澳洲,疑给大儿子陪读,7岁小王子圆脸很呆萌!

娱乐团长
2026-01-22 21:11:06
平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

哄动一时啊
2026-01-24 21:29:54
2026-01-25 13:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12058文章数 176362关注度
往期回顾 全部

科技要闻

马斯克SpaceX背后的她:现实版钢铁侠小辣椒

头条要闻

专家:已有欧洲国家开始考虑"联合中国对抗美国"

头条要闻

专家:已有欧洲国家开始考虑"联合中国对抗美国"

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

艺术
本地
手机
时尚
公开课

艺术要闻

全认识这13个字的人,能否复印王羲之的作品?

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

手机要闻

苹果Siri“偷听”集体诉讼和解,美国用户开始获赔9500万美元

冬天最佳“显瘦”公式:上短+下长

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版