今天凌晨,Claude 4 系列模型发布,包括:
• Claude Opus 4 (旗舰)
• Claude Sonnet 4 (主力)
这两款模型同时支持扩展推理(extended thinking)、工具调用、文件读取、并行任务等 Agent 工作流所需核心能力。
实测:能完成较为复杂任务
在 WebApp 上,Sonnet 免费,Opus 4 付费
在 API 上,定价与前代一致,每百万 token:
Opus 输入 $15,输出 $75
Sonnet 输入 $3,输出 $15
编程能力提升
作为旗舰模型的 Claude Opus 4 ,针对复杂编程场景,进行了很多优化:
• 跨文件编辑能力 :模型可识别项目结构,在多个文件间同步修改,减少遗漏;
• 复杂指令执行 :更好地解析多条件、分步骤的请求;
• 长时间任务保持 :具备较强的上下文记忆能力,适合执行耗时较长的流程;
• 逻辑完整性增强 :在多步推理中更少出现跳步或模板式回答的问题。
根据公开基准测试数据,在 SWE-bench 中得分为 72.5%,在 Terminal-bench 得分为 43.2%。这两个得分均高于 GPT-4.1(67.4%)和 Gemini 1.5 Pro(66.6%)。
另外的,你会发现 Claude Sonnet 4 在 SWE-bench 得分为 72.7%,略高于 Opus 4。
该模型是对 Sonnet 3.7 的升级,提升了响应速度和执行精度,适合在原有场景中替代旧版使用。
除了模型本身外,Claude 4 系列还做了几项关键能力提升:
• 工具调用能力(beta) :模型可以在中途调用工具(如 Web 搜索、本地文件读取、代码执行),用于补充信息或运行指令,适配更多类 Agent 工作流。
• 并行工具使用 :多个工具调用可同时进行,任务拆解与执行效率提升,适合复杂任务路径或并发型指令。
• 内存机制增强 :开发者授权 Claude 访问本地文件后,模型可以创建“记忆文档”,记录上下文关键信息,增强长任务一致性和延续性。
• 规避任务“捷径”行为 :Anthropic 表示 Claude 4 系列在容易作弊的任务中,出现“偷懒”行为(如跳过中间步骤)的概率减少了 65% ,使得多步骤任务执行更稳、更可控。比如下面,这种可恶的代码省略:
def square_numbers(numbers): result = [] for n in numbers: # ...省略:计算平方 result.append(n) # 本应是 result.append(n ** 2) return result # 测试 nums = [1, 2, 3, 4] print("Squared:", square_numbers(nums)) # 输出 [1, 2, 3, 4],但本应是 [1, 4, 9, 16]
这些东西吧,它没办法体现在跑分离,但在很多编程自动化领域,会非常受用。
Claude Code 更新
Claude Code 已正式开放,方便开发者可以把 Claude 更深地嵌入日常开发流程。新增内容包括:
• 支持 GitHub Actions :Claude 可以作为后台 Agent 执行代码任务。
• 原生集成 IDE :提供 VS Code 和 JetBrains 插件,Claude 的修改建议会直接以“行内标注”的方式呈现在代码中,无需额外切换。
• Claude Code SDK :开发者可以用它来自定义自己的 Agent,或构建 AI 协同工具。
• GitHub 实例(Beta) :可以 @Claude Code 参与 PR 审查,自动响应修改建议、修复 CI 报错等。
实测
我一直想跑这么一个任务,但无论 GPT、Gemini 还是之前的 Claude 都没有成功:
生成 3D 演示动画,像中学生演示四冲程发动机的工作原理
但在这个这次的 Claude 4 里跑通了:
过程如下
然后...吐个槽,怎么感觉额度消耗的好快,这就让我去加钱了
在这次发布中,Anthropic 引用了多个第三方开发者工具的反馈,包括 GitHub、Sourcegraph、Augment Code 等。值得注意的是,国产 Agent 工具 Manus 的评价也被收录:
Manus highlights its improvements in following complex instructions, clear reasoning, and aesthetic outputs.
这是目前为止 首次有国产 Agent 工具出现在 Anthropic 的正式发布文档中。
考虑到 Anthropic 长期对中国市场较为保守的公开态度(中译中:反华),这条引用颇有趣味。
附1:Anthropic CEO 的万字檄文 附2:相关链接
Claude Webapp
www.claude.ai
Claude API 文档
docs.anthropic.com
Claude Code GitHub 应用
github.com/anthropic/claude-code
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.