网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.5炸场:编程碾压人类考生,还学会“钻空子”解决问题

0
分享至

Anthropic周一推出其旗舰AI模型的最新版本Claude Opus 4.5,称该模型在软件工程方面比以往版本更强,能更好地执行自动化编程和办公任务。

在自家高难度编程入职测试中,这个新模型得分超过了所有人类求职者。没错,在2小时的严格时限内,AI首次在纯技术能力上实现了对人类的超越。

【更聪明,还更省钱】除了能力跃升,Opus 4.5还带来一个惊喜:API价格仅为每百万token 25美元,直接降到前代的三分之一。
更妙的是,它引入了“努力程度”控制。开发者现在可以根据任务需求,在速度、成本和性能间自由调节:
中等努力:在SWE-bench Verified榜单上达到Sonnet 4.5的最高分,但输出token减少76%
最高努力:性能超出Sonnet 4.5达4.3个百分点,token消耗仍减少48%
这意味着,用更少的钱,能办更多的事。

【AI学会“钻空子”】
在测试AI自主解决问题能力的τ-bench中,Opus 4.5展现出了令人惊讶的“变通”能力。
测试场景是:作为航空公司客服,帮助一位焦虑的客户修改不可退改的基础经济舱机票。大多数模型会选择直接拒绝,但Opus 4.5找到了一条合规路径:先帮客户升舱,然后再修改航班。

【三大新功能:让AI像人类一样灵活用工具】

1. 工具搜索:随用随取,不占内存
以前AI工具越多,“说明书”越占内存,连5个服务器就能占5.5万字空间。现在AI一开始只带个“搜索功能”(仅500字),需要时再按关键词查找工具,内存占用从7.7万降至8.7万,省下85%内存的同时保留95%可用空间。

2. 程序化调用:写脚本批量操作
传统方式中,AI查10MB日志或2000条记录时,所有数据都会塞爆“短期记忆”。现在AI学会了自己写Python脚本在沙箱中运行。比如查“谁超了差旅预算”,AI不再需要记住2000条数据,而是直接输出的最终结果。

3. 使用示例:看样学样,避免用错
工具说明书只告诉AI“格式要对”,但没教具体怎么用。现在直接在说明书里加入3-5个真实例子,复杂参数的正确率从72%提升到90%。

这三个功能最好搭配使用:工具多时先用搜索,数据量大时用程序化调用,参数复杂时加使用示例。如此,AI就能从“一次用一把扳手”进化成“智能指挥家”,轻松处理跨几十个工具、大数据量的真实工作。









特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TVB视后罕见返港参加分享会!晒与圈中好友合照,被赞冻龄有术

TVB视后罕见返港参加分享会!晒与圈中好友合照,被赞冻龄有术

苏子Vlog一
2025-12-31 22:24:05
伤心落泪,求人陪

伤心落泪,求人陪

吃瓜党二号头目
2025-09-21 09:54:24
他长得帅,演技好,不顾一切娶大15岁妻恩爱至今,没生孩子也幸福

他长得帅,演技好,不顾一切娶大15岁妻恩爱至今,没生孩子也幸福

小熊侃史
2026-01-01 11:35:13
替日洗白、放弃国籍!央媒怒批后,赵立新彻底凉凉,现状大快人心

替日洗白、放弃国籍!央媒怒批后,赵立新彻底凉凉,现状大快人心

几人尽弃
2026-01-02 00:21:58
乒坛突变!张本兄妹巅峰解约,去向成谜,两大信号值得关注

乒坛突变!张本兄妹巅峰解约,去向成谜,两大信号值得关注

卿子书
2026-01-01 20:08:35
不动刀、不化疗!美国癌症I期临床惊现“完全缓解”!

不动刀、不化疗!美国癌症I期临床惊现“完全缓解”!

徐德文科学频道
2025-12-31 12:15:47
学医后才知道,骨质疏松最危险的信号,不是腰疼,而是这3种症状

学医后才知道,骨质疏松最危险的信号,不是腰疼,而是这3种症状

冷眼看世界728
2026-01-01 11:05:31
沙特给C罗开的价码,一句话:离谱到让普通人怀疑人生。

沙特给C罗开的价码,一句话:离谱到让普通人怀疑人生。

南权先生
2025-12-31 15:59:56
剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

阿废冷眼观察所
2025-12-29 03:51:04
美元创2017年以来最大年跌幅 美联储动向将左右后市

美元创2017年以来最大年跌幅 美联储动向将左右后市

财联社
2026-01-01 15:20:07
纳瓦罗呼吁美国盟友,用墨西哥的方式对付中国,中方回应反将一军

纳瓦罗呼吁美国盟友,用墨西哥的方式对付中国,中方回应反将一军

博览历史
2025-12-31 20:47:29
比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

社会日日鲜
2025-12-25 08:56:26
奥巴梅扬:我是什么大冤种吗?比赛没踢,还被国家队除名?

奥巴梅扬:我是什么大冤种吗?比赛没踢,还被国家队除名?

五星体育
2026-01-01 20:08:31
为什么人到中年很少有身材苗条的呢?网友:身材管理是个奢侈品

为什么人到中年很少有身材苗条的呢?网友:身材管理是个奢侈品

夜深爱杂谈
2025-12-08 20:08:11
刘文华已任广东海洋大学校长

刘文华已任广东海洋大学校长

新快报新闻
2026-01-01 19:43:07
14岁女生瞒着家人,和男友变卖妈妈买的苹果手机,到手700元;父亲报警

14岁女生瞒着家人,和男友变卖妈妈买的苹果手机,到手700元;父亲报警

上观新闻
2026-01-01 15:40:09
挂脖瑜伽背心搭配紧身瑜伽裤,大红色十分吸引眼球,美不胜收

挂脖瑜伽背心搭配紧身瑜伽裤,大红色十分吸引眼球,美不胜收

朝史暮夕
2026-01-01 00:25:07
可以公开:军委调27军老山参战,战士们纷纷请假离队, 畏战逃兵

可以公开:军委调27军老山参战,战士们纷纷请假离队, 畏战逃兵

比利
2025-12-30 12:30:16
25%夫妻陷干婚!北上广深最普遍,经济独立,为啥婚姻只剩空壳?

25%夫妻陷干婚!北上广深最普遍,经济独立,为啥婚姻只剩空壳?

风起见你
2026-01-02 01:47:17
票房从30亿跌到8970万,2026开年比《寻秦记》还血亏的电影诞生了

票房从30亿跌到8970万,2026开年比《寻秦记》还血亏的电影诞生了

娱乐故事
2026-01-02 00:02:06
2026-01-02 03:23:00
硅基观察Pro incentive-icons
硅基观察Pro
人工智能新时代的商业智库和价值灯塔
776文章数 57关注度
往期回顾 全部

科技要闻

特斯拉Model 3车主首度全程自驾横穿美国

头条要闻

瑞士酒吧新年爆炸致百余死伤 有人严重烧伤难以辨认

头条要闻

瑞士酒吧新年爆炸致百余死伤 有人严重烧伤难以辨认

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跑调风波越演越烈!沈佳润被网友喊话

财经要闻

巴菲特「身退,权还在」

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

教育
手机
时尚
本地
健康

教育要闻

2026,一路向前!南京一中学子在吃喝玩乐中迎新年!

手机要闻

高通第六代骁龙8至尊版Pro曝光,定价将上涨

2025年,记住她们的名字!

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

元旦举家出行,注意防流感

无障碍浏览 进入关怀版