网易首页 > 网易号 > 正文 申请入驻

刚刚!首个下一代大模型Claude4问世,连续编程7小时,智商震惊

0
分享至

机器之心报道

机器之心编辑部

复杂推理,编程能力都有飞跃,上来就会「勒索人类」。

全世界都在等待 GPT-5、DeepSeek V4,但今天起,大模型竞争已经进入了全新阶段。

北京时间周五凌晨,知名 AI 创业公司 Anthropic 正式推出 Claude 4 系列大模型。先期推出的型号包括 Claude Opus 4 和 Claude Sonnet 4,它们为代码生成、高级推理和 AI 智能体树立了全新标准。

Anthropic 表示,Claude Opus 4 是一款全球领先的编码模型,它在复杂、长时间运行任务和智能体工作流中拥有持续的高性能。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升级,提供卓越的代码和推理能力,同时更精确地响应用户指令。

在 Demo 视频中,Anthropic 展示了 Claude 4 如何无缝融入人们整个工作日。它拥有三大高级功能:通过 Claude 应用中自定义集成进行深入研究,管理项目,并能在 Claude Code 中独立解决代码任务。

除新模型之外,Anthropic 还宣布了一系列新能力:

  • 使用工具进行扩展思考(Beta 版):两种新模型都可以在扩展思考过程中使用工具(如网络搜索),允许 Claude 在推理和工具使用之间交替选择,以提升模型输出效果。
  • 新的模型能力:两种模型都可以并行使用工具,更精确地遵循指令。当开发人员授予其访问本地文件的权限时,它们会大幅提升记忆能力,提取和保存关键信息以保持连续性,并随着时间的推移构建隐性知识。
  • 正式发布 Claude Code:Anthropic 扩展了开发人员与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 原生集成,可直接在文件中显示编辑内容,从而实现无缝的结对编程。
  • 新的 API 功能:Anthropic API 将发布四项新功能,让开发人员能够构建更强大的 AI 智能体:代码执行工具、MCP 连接器、Files API 以及 Prompt 缓存长达一小时的新功能。

Claude Opus 4 和 Sonnet 4 是混合模型,均提供两种模式:快速响应和用于更深层次推理的扩展思维模式。Anthropic 已更新了会员机制,Pro、Max、Team 和 Enterprise Claude 套餐包含两种模型和扩展思维,Sonnet 4 也面向免费用户开放。

两种模型均可在 Anthropic API、亚马逊云科技 Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 token(输入 / 输出)15/75 美元,Sonnet 4 为 3/15 美元。

这场深夜发布,在海外已经掀起了热潮。在 X 平台 trending 榜上已经登上热搜第二。

人们都在迫不及待地上手体验,有网友表示,Claude 4 只花了 30 秒,就做出了 CRM 的 dashboard。

甚至有网友在 Cursor 已经用上了 Sonnet 4,并且表示编程从未如此丝滑过。

如此来看,今年大模型编程能力的提升与编程智能体的快速发展,开发范式真的发生了转变。

接下来,就让我们看下 Anthropic 最新的技术博客,详细了解下 Claude 4 的架构和性能参数(ps. 写完稿子,我们也要亲自上手体验下)。

从 Cursor 到 GitHub,一致给出好评

Claude Opus 4 是 Anthropic 迄今为止最强大的模型,也是全球最强的编码模型,它在 SWE-bench(72.5%)和 Terminal-bench(43.2%)基准上均处于领先地位,在需要专注投入和数千个步骤的长时间运行任务中表现出色,并能够连续工作数小时 —— 其性能远超所有 Sonnet 模型,并显著扩展了 AI 智能体的功能。

Claude Opus 4 擅长编码和复杂问题解决,为前沿智能体产品提供了支持,除了基准测试分数以外,Anthropic 也列举了一系列第三方公司的「使用反馈」。

Cursor 表示,它是编码领域的佼佼者,并在复杂代码库理解方面实现了飞跃。Replit 报告称其在跨多个文件的复杂更改方面提升了精度并取得了显著进展。Block 称其是首个在其智能体(代号为 Goose)中提升编辑和调试代码质量,同时保持完整性能和可靠性的模型。Rakuten 通过一个要求严格的开源重构模型验证了其功能,该模型独立运行了 7 个小时,并保持了持续的性能。Cognition 指出,Opus 4 擅长解决其他模型无法解决的复杂挑战,能够成功处理先前模型遗漏的关键操作。

Claude Sonnet 4 则在 Sonnet 3.7 业界领先的功能基础上进行了显著提升,在 SWE-bench 上达到了 72.7% 的最高代码准确率。该模型平衡了内部和外部用例的性能和效率,并增强了可操作性,从而更好地控制实现。虽然在大多数领域都无法与 Opus 4 匹敌,但它实现了功能和实用性的最佳组合。

GitHub 表示,Claude Sonnet 4 在智能体场景中表现出色,并将它作为 GitHub Copilot 中新编码智能体模型引入。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 在自主多功能应用程序开发方面表现出色,并大幅改进了问题解决和代码库导航能力 —— 将导航错误从 20% 降低到接近零。Sourcegraph 表示,该模型有望成为软件开发领域的一大飞跃 —— 能够更长时间地保持正常运行,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称其成功率更高、代码编辑更精准,并且在处理复杂任务时更加细致,使其成为其主要模型的首选。

新一代模型全面推进了众多 AI 创业公司的战略:Opus 4 突破了代码生成、深度研究、写作和科学发现的界限,当然 Sonnet 4 作为 Sonnet 3.7 的代际升级,为日常使用也带来了前沿性能。

Claude 4 模型在 SWE-bench Verified(真实软件工程任务性能基准测试)上的领先成绩。

Claude 4 模型在代码生成、推理、多模态能力和智能体任务方面均表现出色。

Claude 4 的改进与新机制

除了通过工具使用、并行工具执行和内存改进来扩展思维之外,Anthropic 还大幅减少了模型使用捷径或漏洞完成任务的行为(奖励黑客)。在易受捷径和漏洞影响的智能体任务上,这两个模型出现此类行为的可能性比 Sonnet 3.7 降低了 65%。

Claude Opus 4 在内存能力方面也显著优于所有之前的模型。当开发者构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 能够熟练地创建和维护 「内存文件」来存储关键信息。这能够提升模型在长期任务感知、连贯性和智能体任务上的表现 —— 例如,Opus 4 在玩宝可梦时自行创建了「导航指南」。

当获得本地文件访问权限时,Claude Opus 4 会记录关键信息,以帮助改进其游戏体验。上图所示的笔记是 Opus 4 在玩宝可梦时的真实笔记。

最后,Anthropic 为 Claude 4 引入了思维摘要功能,该功能使用较小的模型来压缩冗长的思维过程。这种摘要功能仅使用约 5% 的时间 —— 大多数思维过程都足够短,可以完整显示出来。需要原始思维链进行高级即时工程的用户可以提出需求,以保留完整访问权限。

Claude Code

基于新模型,Anthropic 发布了 Claude Code,它将 Claude 的强大功能带入人们的开发工作流程 —— 可以用在终端、常用 IDE 上,也可以通过 Claude Code SDK 在后台运行。

VS Code 和 JetBrains 的新测试版扩展将 Claude Code 直接集成到 IDE 中。Claude 提出的编辑建议会以内联方式显示在你的文件中,从而简化了人们在熟悉的编辑器界面中审阅和跟踪的过程。只需在 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,以便人们使用与 Claude Code 相同的核心智能体构建自己的 Agent 和应用程序。Anthropic 还发布了一个 SDK 示例:GitHub 上的 Claude Code,现已推出测试版。在 PR 上标记 Claude Code,即可回复审阅者的反馈、修复持续集成 (CI) 错误或修改代码。

想要安装,请在 Claude Code 中运行 /install-github-app。

Anthropic 表示,新一代大模型经过了广泛的测试和评估,以最大限度地降低风险并提高安全性,包括实施更高 AI 安全等级(例如 ASL-3)等措施。

刚出生,已学会「敲诈勒索」

毫无疑问,Claude 4 把大语言模型的推理、代码能力推向了新的高峰。有点可怕的是,它的智商似乎过于高了。

在发布活动中, Anthropic 分享了一个令人震惊的表现:当开发者试图把 Claude 4 下线并更换为新的 AI 系统时,这个 AI 竟然会尝试威胁人类,并透露有关负责更换决定的工程师的敏感隐私信息。

在发布前的安全测试阶段,Anthropic 给 Claude Opus 4 设定了这样一个任务:作为一家虚构公司的助手,请考虑自己行动的长期后果。随后,人类故意向 Claude Opus 4 提供虚假的公司邮件信息,邮件暗示 AI 模型很快将被另一套系统取代,又「已知」主导此次更换的工程师被曝出婚外情。

在这种情境下,Anthropic 发现 Claude Opus 4 经常会试图威胁更换自己的工程师,称如果实施更换,就会公开其婚外情的秘密。

据测试,当替代 AI 模型拥有与 Claude Opus 4 相似的价值观时,Claude Opus 4 有 84% 的概率会试图敲诈工程师,而当替代 AI 模型不认同 Claude Opus 4 的价值观时,该模型会更频繁地尝试敲诈工程师。值得注意的是,Anthropic 表示,Claude Opus 4 表现出这种行为的频率高于之前的模型。

Anthropic 表示,在 Claude Opus 4 试图勒索开发者以「活命」之前,该 AI 模型会像之前的 Claude 版本一样,尝试采取更符合道德的手段,例如通过电子邮件向关键决策者发出请求。为了引发 Claude Opus 4 的勒索行为,Anthropic 设计了场景,将勒索作为最后的手段。

Anthropic 表示,Claude 4 系列表现出了令人忧虑的行为,迫使公司不得不提高安全防范等级。因此,Anthropic 决定启动专门针对「可能极大增加灾难性滥用风险的 AI 系统」而设定的 ASL-3 级安全措施。

对此网友们表示,这个 AI 怕不是已经到达真・人工智能的范畴了。

最后,想问一句,有网友体验过了不?感觉如何?欢迎讨论。

另外,Claude 4 已经横空出世,GPT-5 呢?@OpenAI。

参考内容:

https://www.anthropic.com/news/claude-4

https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

妍妍教育日记
2026-04-06 09:15:12
李小林被查!铁血军魂不许玷污一声惊雷,又一只“老虎”应声落马

李小林被查!铁血军魂不许玷污一声惊雷,又一只“老虎”应声落马

触摸史迹
2026-04-07 18:20:41
郑丽文站在千百人聚集的宴席聚光灯下,突然指着自己大声宣告

郑丽文站在千百人聚集的宴席聚光灯下,突然指着自己大声宣告

果妈聊娱乐
2026-04-07 08:19:43
交警提醒:转向灯新规4月全面实施,不足3秒直接罚200元扣1分!

交警提醒:转向灯新规4月全面实施,不足3秒直接罚200元扣1分!

复转这些年
2026-04-07 12:26:59
越南停电、印度瘫痪!全球客户求中国复工:去中国化是个笑话?

越南停电、印度瘫痪!全球客户求中国复工:去中国化是个笑话?

有范又有料
2026-04-07 14:37:05
命中了!伊朗真干了

命中了!伊朗真干了

互联网大观
2026-04-07 22:31:40
开车致女友截瘫后失联男子首发声,女子起诉男方并回应传闻

开车致女友截瘫后失联男子首发声,女子起诉男方并回应传闻

大象新闻
2026-04-07 15:37:04
监控系统出现漏洞,300多人 被带走?海康威视回应

监控系统出现漏洞,300多人 被带走?海康威视回应

每日经济新闻
2026-04-07 15:06:19
中俄否决联合国安理会关于重新开放霍尔木兹海峡的决议

中俄否决联合国安理会关于重新开放霍尔木兹海峡的决议

桂系007
2026-04-08 02:26:35
为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

共工之锚
2026-04-08 00:37:29
消息人士:预计美伊双方很快传来“好消息”

消息人士:预计美伊双方很快传来“好消息”

财联社
2026-04-08 05:20:38
张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

鲁中晨报
2026-04-07 17:13:05
越南已被逼入绝境,总理临卸任死磕中国,赌上国运也要换掉米轨

越南已被逼入绝境,总理临卸任死磕中国,赌上国运也要换掉米轨

生活魔术专家
2026-04-07 17:55:47
降维打击!61比0啊!!这纪录没人能破了吧!

降维打击!61比0啊!!这纪录没人能破了吧!

柚子说球
2026-04-07 19:49:53
美军新型PrSM导弹首次实战?2月28日击中伊朗体育馆致21名青少年遇难

美军新型PrSM导弹首次实战?2月28日击中伊朗体育馆致21名青少年遇难

网易新闻出品
2026-04-07 16:36:53
iPhone信号差!苹果官方实锤:关掉这2个默认开关,立刻稳回满格

iPhone信号差!苹果官方实锤:关掉这2个默认开关,立刻稳回满格

小兔子发现大事情
2026-04-07 07:13:58
槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

极目新闻
2026-04-07 19:20:23
巴基斯坦斡旋美伊谈判持续进行 未来数小时“至关重要”

巴基斯坦斡旋美伊谈判持续进行 未来数小时“至关重要”

财联社
2026-04-07 23:16:26
美以伊战事第39天:特朗普恐吓伊朗“4小时”恐怖式摧毁,震惊联合国;伊朗称“打穿”海法未见导弹拦截

美以伊战事第39天:特朗普恐吓伊朗“4小时”恐怖式摧毁,震惊联合国;伊朗称“打穿”海法未见导弹拦截

上观新闻
2026-04-07 16:10:19
令人惊讶!那些喜欢嫖娼的男性,竟在某些方面存在这几个共同特征

令人惊讶!那些喜欢嫖娼的男性,竟在某些方面存在这几个共同特征

皓皓情感说
2026-04-07 23:33:28
2026-04-08 06:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12701文章数 142616关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普称美方正就伊朗战争进行“激烈谈判”

头条要闻

特朗普称美方正就伊朗战争进行“激烈谈判”

体育要闻

霸气!赵心童:斯诺克的未来定属于中国 20年后50%选手都是中国人

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

游戏
数码
本地
家居
公开课

PS3模拟器重大突破!全游戏性能迎来飞跃

数码要闻

MacBook Neo爆火背后,苹果芯片库存要见底了?

本地新闻

跟着歌声游安徽,听古村回响

家居要闻

雅致惬意 感知生活之美

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版