Anthropic又一次推出了其最新模型Claude Opus 4.5,使公司重新回到了基准排名的顶端,成为人工智能软件编码的佼佼者。
Opus 4.5在广泛使用的SWE-bench上得分超过80%,该基准测试评估软件工程技能。上周推出的Gemini 3 Pro以76.2%的得分短暂夺得最高分,给人留下了深刻印象。
Anthropic的Claude产品负责人Scott White表示,该模型在公司给工程职位候选人的工程作业测试中得分甚至超过了所有人类。
当然,Opus 4.5 不仅仅是编码。 Anthropic 表示,它也是为 AI 代理提供支持和操作计算机的“全球最佳模型”,并且在深度研究、处理幻灯片和电子表格等任务上,表现显著优于其他模型。
Opus 4.5 在几个其他关键基准测试中也取得了最佳的分数,包括“智能代理编码 SWE-bench 验证”、“智能代理工具使用 T-2 bench”和“新颖问题解决的 ARC-AGI-2。”
在实际工作环境中应用人工智能的一个主要挑战是模型应对复杂性和模糊性的能力。怀特表示,Anthropic 的客户觉得 Opus 4.5 在处理不确定性和权衡时比早期模型更好,而不需要人类工作人员过多的干预。
怀特提到,越来越多的企业客户开始使用 Anthropic 模型来自动化办公室任务、进行财务建模和创建文档。基础研究实验室报告说,使用新模型的 Excel 自动化任务准确性提高了 20%,效率提高了 15%。
Anthropic在过去几个月里一直在快速迭代,发布了Claude Sonnet 4.5和Haiku 4.5,以及Claude Skills、Claude Code等新产品,以及针对金融服务和生命科学的特定行业版本。
Opus 4.5将成为高端订阅计划的新默认模型,并将作为Pro、Standard、Team和Enterprise用户的下拉菜单选项可供选择。它还通过公司的API(应用程序编程接口)向开发者客户提供,并可以通过Amazon Bedrock、Google Vertex和Microsoft Azure的云服务访问。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.