网易首页 > 网易号 > 正文 申请入驻

Claude 4 发布:替代人类程序员所需的条件,现在它都有了

0
分享至

Anthropic 近日发布其最新的 Claude 4 系列模型,包括旗舰型号 Claude Opus 4 和更侧重效率的 Claude Sonnet 4。新模型在编程能力上实现了重大突破,Opus 4 在 SWE-bench 等关键基准测试中得分达到72.5%,并能处理数百万行级别的复杂代码库,以及在一些测试场景中,实现了长达7小时的连续编程任务。

Claude 4 系列还引入了“工具辅助的延伸思考”、增强的记忆能力以及正式版的编程助手 Claude Code,后者已深度集成至 VS Code 和 JetBrains IDE。在API和MCP的接入等能力上也有大范围更新。

这是一次全方位的更新,针对编程和推理能力。而这次大更新和工具能力的补足后,Claude 4有了替代人类程序员所需要的所有条件,接下来就是一路提升这些能力,短期目标让Agents普及,长期就直奔Anthropic眼里的AGI了。

1

不只是模型升级,更是全面能力补足

Claude 4 的发布,并非简单沿袭“Haiku、Sonnet、Opus”的阶梯式组合,而是推出了两大核心模型:追求极致性能的 Claude Opus 4 和兼顾效率与成本的 Claude Sonnet 4。

Anthropic 声称,Opus 4 是目前编程能力较为领先的模型之一。根据披露信息及早期用户反馈,它颇有“质变”的意味,不仅编程效率提升,而且其展现出的复杂任务理解和执行能力,让很多人“feel 到了 AGI”。

显著提升的代码生成与理解:Claude Opus 4 在编程基准测试 SWE-bench 上取得了 72.5% 的得分,在 Terminal-bench 上也达到了 43.2%;而 Sonnet 4 在 SWE-bench 上的得分也达到了 72.7%,接近 Opus 4 的水平。

而根据提前试用者的反馈,很多场景已经远非生成代码片段或辅助调试,而是能够理解并处理数百万行级别的复杂代码库,从高度抽象的自然语言需求直接生成结构完整、逻辑严密的应用程序框架。

Rakuten 在一项高要求的开源重构任务中,Opus 4 连续稳定运行长达 7 小时,表现出色。Cognition AI 表示,Opus 4 能解决其他模型此前无法完成的复杂任务。这种深度理解和生成能力,是构建更高级智能体的前提。

这些数据和案例表明,Claude 4 不仅仅是代码片段的生成器,它已经具备了理解大型、复杂项目架构的能力,能够从高层次的需求出发,生成结构完整、逻辑严密的应用程序。这意味着它能够胜任从需求分析(理解自然语言需求)到代码实现、重构乃至持续集成等传统上由人类程序员完成的整个开发生命周期中的核心任务。这种全栈式的代码处理能力,是替代人类程序员在日常开发工作中所需的第一块能力。

“延伸思考”与超大上下文窗口:模型在进行深入思考时,能够交替使用工具(如网页搜索)以优化推理过程,这一“工具辅助的延伸思考”能力(测试版)使其在 GPQA、MMMLU(Opus 4 得分 87.4%)、AIME 等测试中表现突出。

这种能力超越了简单的模式匹配,展现了初步的规划和策略调整,是通用问题解决能力的一种体现。同时,Claude 3 时代令人印象深刻的上下文窗口在 Claude 4 这里得到继承和发展,为处理庞大项目提供了基础。

“主动纠错”、“架构建议”与“记忆力”:Claude 4 不仅能发现并修复错误,更能从架构层面提出优化建议。新增的“记忆能力”允许模型提取并保存关键信息。

比如在玩《宝可梦》时创建“导航指南”,形成“工作记忆文件”,保持上下文连贯,这对于长任务执行至关重要。这种自我修正和长期记忆的特性,是智能系统向更自主、更通用方向发展的关键特征。

更重要的是,Claude 4 不再仅仅是执行指令的工具,它开始展现出高级程序员和架构师所特有的思考能力。‘主动纠错’不仅限于语法错误,更深入到逻辑和架构层面,这意味着它能像经验丰富的开发者一样,预见并解决潜在问题,甚至优化整体设计。

“记忆能力’则让它能在一个项目中保持长期的上下文连贯性,无需反复喂入信息,这极大地提升了其处理长期、复杂项目的效率和可靠性。这些认知能力的补足,使得 Claude 4 能够承担过去只有资深人类工程师才能胜任的、需要深度思考和持续迭代的工作,从而为真正的‘替代’奠定了智力基础。

Claude Code 正式发布与深度集成:面向开发者的编程工具 Claude Code 正式发布,并已支持 GitHub Actions,推出了针对 VS Code 和 JetBrains 系列 IDE 的测试版扩展。

这意味着开发者可以在熟悉的编辑器中直接获得 Claude 的代码修改建议、追踪任务。

例如,在演示中,Claude Code 仅用一次提示,在 90 分钟内为 Excalidraw 项目完整实现了此前搁置的表格组件功能,包括生成代码、测试用例、UI 集成和 PR 提交,全程无需人工编辑。这预示着AI不仅是工具,更将成为开发流程中的核心参与者和决策者。

Claude Code 的正式发布及其与主流 IDE 的深度集成,标志着 AI 在编程领域的角色从‘辅助’走向‘主导’。它不再是需要人类频繁介入的智能提示或调试器,而是能够接收高层指令,自主完成从代码编写、测试、集成到版本控制(如 PR 提交)的整个工作流。Excalidraw 的案例清晰地展示了这种端到端的自动化能力:一个复杂的功能需求,在极短时间内由 AI 独立完成,且无需人工干预。这种无缝融入现有开发环境并能独立执行复杂任务的能力,是实现‘替代’的关键一步,因为它直接减少了人类在具体编码和流程管理上的投入。

为高级 Agent 构建的 API 与工具:Claude 4 在 Agentic 能力上实现了显著飞跃,能够更可靠地执行复杂的多步骤任务,并与外部工具和API高效协同。

Anthropic 为此推出了全新的API功能,包括允许 Claude 在安全沙盒环境中执行 Python 代码以进行计算和数据可视化的代码执行工具,以及无需编写客户端代码即可将 Claude 连接至任何远程模型上下文协议(MCP)服务器的 MCP 连接器。

此外,文件 API 简化了开发者在构建应用时存储和访问文档的流程,而扩展的提示缓存则提供了在标准5分钟或延长至1小时的缓存有效期之间进行选择的灵活性。这些新特性与 Claude Opus 4 和 Sonnet 4 模型相结合,将助力开发者打造出能够执行复杂数据分析、与外部系统无缝对接、高效管理文件,并且能将对话上下文保持长达60分钟的智能代理。

成本效益与易用性:尽管能力大幅提升,Opus 4 每百万 token 的输入/输出价格分别为 $15/$75,Sonnet 4 为 $3/$15,与前代持平。两款模型均已上线 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 平台,Sonnet 4 甚至向免费用户开放。

Claude 4 系列模型在编程能力上颇有“从量变到质变”的味道。

1

让人类把编程的权力让给AI,是Anthropic走向AGI的第一步

Claude 4 的强大能力已在多个场景中得到验证:

例如,在Replit的实测中,Opus 4 在处理涉及多文件、大规模改动的复杂项目中展现出更高的准确率;Block公司在其代号为Goose的Agent中集成Opus 4后,首次在编辑和调试代码过程中观察到代码质量的显著提升,同时保持了系统的稳定性和性能。 有用户也成功让Opus 4一次性生成了包含四种不同天气状态及独特动画效果的天气卡片,而Sonnet 4也在第二次尝试后成功交付了一个包含自动演示AI功能的红白机风格“贪吃蛇”游戏。

从这些案例可以看出,AI 可以一次性完成的任务,越来越多,越来越复杂。

Claude 4还带来了全新的 Agent 的可能。Anthropic 表示,未来优秀的 AI Agent 需要具备“情境智能”、“长任务执行能力”和“真实协作能力”。接下来的目标是出现主动修改优化自身代码逻辑,甚至为自己编写新工具的“代码自进化” Agent。

Anthropic CEO Dario Amodei 在当天的发布上描述这种新的人机协作模式时说:“我们正进入一个新世界,开发者可以像管理一支 Agent 团队一样工作:「你去做这个,你去做那个。」我常说,做 AI 就像是坐在一艘飞船上,以相对论的速度离开地球——你在飞船上过一天,地球上可能可能已经过去两天了。” 他说。

“所以大胆一点。构建一个超出你原本认为可能实现的东西。即使它现在还无法完全实现,下一代模型就要来了。” 他说。

现在看来,Anthropic的路线越来越明晰,选择“代码生成与理解”这一高度结构化、对逻辑推理和规划能力要求极高的领域作为突破口,安全且负责任地将复杂认知任务(如编程)的执行权从人类手中让渡给AI,就是实现Anthropic眼里那个AGI的第一步。

而当这些Agent能够高效、低成本地创建和管理软件时,Dario 预言:

“当「写软件的成本」大幅下降时,经济和商业结构会发生什么?…当软件可以按需、低成本、一次性创建时,整个世界都会不同。”

文:Gemini

助手: 王兆洋

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6月1日起,私家车跑顺风车不用办营运证,放心跑

6月1日起,私家车跑顺风车不用办营运证,放心跑

刘哥谈体育
2026-04-19 21:47:47
虚报77亿、9.6亿投资凭空造,河南:坚决整改 追责问责

虚报77亿、9.6亿投资凭空造,河南:坚决整改 追责问责

新京报
2026-04-19 17:01:05
哈兰德谈与加布对抗:如果我倒地,我觉得应该是一张红牌

哈兰德谈与加布对抗:如果我倒地,我觉得应该是一张红牌

懂球帝
2026-04-20 04:39:46
女篮世界杯分档出炉!中国队直接避开5大劲敌:这下冲击四强稳了

女篮世界杯分档出炉!中国队直接避开5大劲敌:这下冲击四强稳了

篮球快餐车
2026-04-19 06:07:20
北京擒青岛3连胜坐稳第四!周琦12+13杰曼26分王睿泽升队史三分王

北京擒青岛3连胜坐稳第四!周琦12+13杰曼26分王睿泽升队史三分王

锅子篮球
2026-04-19 21:40:58
日本突袭!28万亿市场,中国被踢出局,高市早苗亮出3张底牌

日本突袭!28万亿市场,中国被踢出局,高市早苗亮出3张底牌

阿甘天天传
2026-04-20 02:26:43
33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

阿讯说天下
2026-04-18 14:53:39
绿军大胜76人总分1-0:塔图姆25+11+7总三分超科比 布朗26分

绿军大胜76人总分1-0:塔图姆25+11+7总三分超科比 布朗26分

醉卧浮生
2026-04-20 03:39:49
伊朗宣布对所有商船开放霍尔木兹海峡

伊朗宣布对所有商船开放霍尔木兹海峡

环球网资讯
2026-04-17 21:29:34
别让手机“出卖”你!国安部反复警示:这3个定位设置,立刻关掉

别让手机“出卖”你!国安部反复警示:这3个定位设置,立刻关掉

Thurman在昆明
2026-04-17 10:22:21
调查发现:每天都走路的人,大多到了75岁后,身体或有5种变化

调查发现:每天都走路的人,大多到了75岁后,身体或有5种变化

白话电影院
2026-04-07 13:28:35
潘粤明评价获证实!董洁22年后与蓝颜知己再牵手

潘粤明评价获证实!董洁22年后与蓝颜知己再牵手

独舞独舞
2026-01-18 06:37:17
美专家无奈承认:我们没打赢伊朗,但是中国、俄罗斯、朝鲜都赢了

美专家无奈承认:我们没打赢伊朗,但是中国、俄罗斯、朝鲜都赢了

阿伧说事
2026-04-19 18:11:11
伊朗方面称只要存在海上封锁就不会谈判

伊朗方面称只要存在海上封锁就不会谈判

极目新闻
2026-04-19 22:27:17
中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

奇思妙想生活家
2026-04-09 07:49:40
这跟不穿有啥区别?Rose真空上阵、穿镂空透视,却被中国女星抢镜

这跟不穿有啥区别?Rose真空上阵、穿镂空透视,却被中国女星抢镜

天天热点见闻
2026-04-18 08:09:59
4-2!凯恩27战狂轰32球,迪亚斯助攻双响,拜仁提前4轮卫冕

4-2!凯恩27战狂轰32球,迪亚斯助攻双响,拜仁提前4轮卫冕

我的护球最独特
2026-04-20 01:31:37
宇树机器人打破人类1500米世界纪录:1.9公里4分13秒自主跑完

宇树机器人打破人类1500米世界纪录:1.9公里4分13秒自主跑完

快科技
2026-04-19 07:47:05
特朗普:由于安全原因,万斯将不参加美伊复谈

特朗普:由于安全原因,万斯将不参加美伊复谈

澎湃新闻
2026-04-19 22:03:10
10亿违建豪宅一夜推平,背后“大人物”被扒,官媒:一点都不冤!

10亿违建豪宅一夜推平,背后“大人物”被扒,官媒:一点都不冤!

网络易不易
2026-04-19 06:05:07
2026-04-20 04:55:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3018文章数 10489关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

时尚
家居
手机
教育
数码

装修“精神角落”,就是这么上瘾

家居要闻

法式线条 时光静淌

手机要闻

8.8英寸小钢炮!REDMI K Pad 2核心配置揭晓

教育要闻

655家单位、1.29万个岗位,湖南用心帮大学生找工作

数码要闻

华为新机发布前瞻:阔折叠X Max+影像旗舰Pura 90,都没悬念了

无障碍浏览 进入关怀版