网易首页 > 网易号 > 正文 申请入驻

地表最强编程 AI:Claude 4 系列登场,自动写代码 7小时刷新纪录

0
分享至

IT之家 5 月 23 日消息,Anthropic 公司在北京时间今天(5 月 23 日) 0 点 30 分举办的活动中,推出了 Claude Opus 4 和 Claude Sonnet 4 新一代语言模型,在结构化推理、软件工程和自主代理行为等领域实现重大进步。

Claude Opus 4:复杂推理与软件开发的巅峰之作

IT之家援引博文介绍,Claude Opus 4 被定位为 Anthropic 迄今最强大的模型,专为处理复杂的推理流程和软件开发场景设计。

测试数据显示,该模型在 SWE-bench 基准测试(评估模型解决真实 GitHub 问题的能力)中准确率达到 72.5%;在 TerminalBench 测试(在多步骤终端代码生成任务中验证模型表现)中准确率为 43.2%。

更令人瞩目的是,Opus 4 在软件环境中展现出强大的自主行为,得益于改进的内存管理、更广泛的上下文保留以及更强大的内部规划机制,据 Rakuten 测试数据,可连续进行近 7 小时的代码生成和任务执行,刷新AI世界纪录,远超前代 Claude 3 Opus(不到 1 小时)。

Anthropic 声称,其 AI 模型不是为了消除工作岗位,而是一种将日常工作自动化的工具。不过 marktechpost媒体认为,Claude 4系列问世后,将改变AI的使用方式,让AI从完成单一任务的辅助工具,转换为具备更强、更广泛功能的“AI同事”,可以自动工作几乎一个完整的工作班次。

Claude Sonnet 4:平衡性能与成本的通用选择

Claude Sonnet 4 取代了前代 Claude 3.5 Sonnet,以更稳定的架构提升速度与质量,同时未显著增加计算成本。该模型针对中规模部署优化,适合需要在成本与性能间权衡的场景。

尽管推理能力不及 Opus 4,但 Sonnet 4 继承了许多架构升级,支持多文件代码导航、中间工具使用和结构化文本处理,延迟表现更佳。它成为 Claude.ai 免费用户的默认模型,并通过 API 提供服务,适用于轻量开发工具、用户助手和分析流程。

技术亮点与部署方式

两款模型均具备混合推理能力,提供“快速模式”(Fast Mode)用于低延迟的简短对话任务,以及“扩展思考模式”(Extended Thinking Mode)用于需要深度推理和多轮代理行为的复杂任务。

这种双模式策略让用户能根据任务复杂度灵活分配计算资源。此外,Claude Opus 4 和 Sonnet 4 可通过 Anthropic 的 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 等多个云平台访问,支持从自主代理到代码分析等多种企业应用场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
FIFA急疯了!除了中国,还有这么多国家不给世界杯买单了

FIFA急疯了!除了中国,还有这么多国家不给世界杯买单了

泠泠说史
2026-05-05 19:53:46
喊了六声“停下”,椅子还在动:享界S9零重力座椅爆“夹娃”事件

喊了六声“停下”,椅子还在动:享界S9零重力座椅爆“夹娃”事件

听心堂
2026-05-05 21:49:02
男子开车返沪路上看懵:旁边的车里,主驾副驾2个女孩在睡觉?头都歪在一边,主驾的手不在方向盘上,腿还蜷缩着

男子开车返沪路上看懵:旁边的车里,主驾副驾2个女孩在睡觉?头都歪在一边,主驾的手不在方向盘上,腿还蜷缩着

新民晚报
2026-05-05 20:20:14
谷爱凌穿“会吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5万颗玻璃泡泡,制作耗时2550小时

谷爱凌穿“会吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5万颗玻璃泡泡,制作耗时2550小时

鲁中晨报
2026-05-05 16:26:17
美伊还没停战,出现了第二个伊朗,对华突然改观,反向收割中企

美伊还没停战,出现了第二个伊朗,对华突然改观,反向收割中企

共工之锚
2026-05-06 00:24:08
哈佛提醒:防肌肉流失别只补蛋白!这6种营养才是关键

哈佛提醒:防肌肉流失别只补蛋白!这6种营养才是关键

橘子约定
2026-05-05 20:49:53
和售后斗智斗勇后,我发现80%燃气灶故障,都可以通过两根针解决

和售后斗智斗勇后,我发现80%燃气灶故障,都可以通过两根针解决

装修秀
2026-05-05 12:00:08
一代饮品传奇跌落神坛,巅峰营收50亿,如今身背21亿债务黯然退市

一代饮品传奇跌落神坛,巅峰营收50亿,如今身背21亿债务黯然退市

小兰聊历史
2026-04-26 06:09:36
社保缴费变了!2026年5月1日起执行

社保缴费变了!2026年5月1日起执行

读本书
2026-05-04 21:55:09
河北邢台“一家五口被害案”凶手已被执行死刑,家属:独自在5位家人坟前告慰,伤痛永远无法消失

河北邢台“一家五口被害案”凶手已被执行死刑,家属:独自在5位家人坟前告慰,伤痛永远无法消失

极目新闻
2026-05-05 14:33:25
姆巴佩慌了!皇马新帅头号热门,竟是他当年赶走的死对头

姆巴佩慌了!皇马新帅头号热门,竟是他当年赶走的死对头

澜归序
2026-05-06 01:32:04
连底漆都刷不满,地球的水只占0.02%,凭什么撑起了整片海洋?

连底漆都刷不满,地球的水只占0.02%,凭什么撑起了整片海洋?

半解智士
2026-05-05 12:58:23
别再拿“唱歌好听”糊弄!央媒连发长文点名刀郎,遮羞布该扯下了

别再拿“唱歌好听”糊弄!央媒连发长文点名刀郎,遮羞布该扯下了

娱乐圈的笔娱君
2026-05-05 14:42:01
刚刚,全体默哀!已致26死61伤!自5月4日19时起,长沙市所有烟花爆竹生产企业,全面停产整顿

刚刚,全体默哀!已致26死61伤!自5月4日19时起,长沙市所有烟花爆竹生产企业,全面停产整顿

浙江之声
2026-05-05 15:50:01
记者:姆巴佩和皇马裂痕始于阿隆索下课,他不满老佛爷的决定

记者:姆巴佩和皇马裂痕始于阿隆索下课,他不满老佛爷的决定

懂球帝
2026-05-06 02:23:49
吴宜泽:奥沙利文在决赛关键时刻给我发短信,让我试着打出自己的风格

吴宜泽:奥沙利文在决赛关键时刻给我发短信,让我试着打出自己的风格

懂球帝
2026-05-05 21:25:07
女邻居让我帮她接电线,黑暗中我们抱到了一起,但她没有松手

女邻居让我帮她接电线,黑暗中我们抱到了一起,但她没有松手

千秋文化
2026-05-04 18:34:54
美国披露MU5735空难报告:飞行中燃油供应被切断

美国披露MU5735空难报告:飞行中燃油供应被切断

法经社
2026-05-05 17:13:58
浏阳爆炸烟花厂附近居民:多名中老年妇女在厂内工作,一女性从围墙洞口逃生

浏阳爆炸烟花厂附近居民:多名中老年妇女在厂内工作,一女性从围墙洞口逃生

鸡蛋bot
2026-05-05 15:44:51
特朗普:美国正从委内瑞拉获得数亿桶石油,与委方“关系良好”,大型能源企业已入委开发资源!已卖了1亿桶委石油,赚回出兵成本的37倍

特朗普:美国正从委内瑞拉获得数亿桶石油,与委方“关系良好”,大型能源企业已入委开发资源!已卖了1亿桶委石油,赚回出兵成本的37倍

每日经济新闻
2026-05-05 12:32:23
2026-05-06 04:04:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
342597文章数 607189关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

教育
艺术
本地
时尚
家居

教育要闻

告别焦虑!南师附中官方:11位特长生上岸者首度分享:试题难在哪?如何准备?

艺术要闻

AI应用“豆包”要收费,第一批“韭菜”是谁?

本地新闻

用青花瓷的方式,打开西溪湿地

衣服不用准备太多,找到一些实用的单品才最重要,百搭又有性价比

家居要闻

灵动实用 生活艺术场

无障碍浏览 进入关怀版