网易首页 > 网易号 > 正文 申请入驻

硬碰硬!刚刚,Claude Opus 4.6与GPT-5.3-Codex同时发布

0
分享至



机器之心编辑部

在春节来临之前,海外大模型先来了一波硬碰硬的发布。

北京时间 2 月 6 日凌晨,Anthropic 与 OpenAI 相继推出了新版本基础大模型,分别是 Claude Opus 4.6 与 GPT-5.3-Codex。





昨天两家还在因为 AI 里面的广告而论战,今天在大模型发布上又撞车了。话不多说,直接看他们的模型能力如何。

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 对其旗舰人工智能模型的一次重大升级。在这代模型上,规划更加谨慎,能够维持更长时间的自主工作流程,并在关键的企业基准测试中超越了包括 GPT-5.2 在内的竞争对手。

新模型首次拥有 100 万 token 的上下文窗口,使 AI 能够处理和推理比以往版本多得多的信息。Anthropic 还在 Claude Code 中引入了类似于 Kimi K2.5 的「智能体团队」功能—— 一项研究预览功能,它允许多个 AI 智能体同时处理编码项目的不同方面,并进行自主协调。

Anthropic 强调,Opus 4.6 可将其增强的功能应用于一系列日常工作任务,包括运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。现在在 Cowork 环境中,Claude 可以自主地执行多任务,Opus 4.6 可以代表人类运用所有这些技能。

Opus 4.6 在多项评估中均表现出色。例如,它在智能体编码评估工具 Terminal-Bench 2.0 中取得了最高分,并在「人类最后的考试」(一项复杂的多学科推理测试)中领先于所有其他前沿模型。在 GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中, Opus 4.6 的表现比业界次优模型(OpenAI 的 GPT-5.2)高出约 144 个 Elo 分数,比其前身(Claude Opus 4.5)高出 190 分。此外,Opus 4.6 在 BrowseComp 测试中也优于其他所有模型,该测试用于衡量模型在线查找难寻信息的能力。



Claude Opus 4.6 现已在 claude.ai、API 以及所有主流云平台上线,定价保持不变,每百万 token 5 美元 / 25 美元。

目前大模型的一个常见问题是「上下文腐烂」,即当对话 token 数量超过一定阈值时,模型性能会下降。Opus 4.6 的性能显著优于其前代产品:在 MRCR v2 的 8 针 1M 变体测试中(该测试如同大海捞针),Opus 4.6 的得分为 76%,而 Sonnet 4.5 的得分仅为 18.5%。这标志着模型在保持最佳性能的同时,能够利用的上下文信息量发生了质的飞跃。

为了证明 Opus 4.6 的强大智能体能力,Anthropic 的一名研究员使用 16 个智能体从零开始构建了一个基于 Rust 的 C 语言编译器,设定任务后就基本放手不管了。最后 AI 输出的代码长达 10 万行,可以编译 Linux 内核,耗资 2 万美元,超过 2000 次 Claude Code 会话,历时两周。



该编译器可以在 x86、ARM 和 RISC-V 上构建可启动的 Linux 6.9,它通过了 GCC 99% 的压力测试,可以编译 FFmpeg、Redis、PostgreSQL、QEMU,还通过了开发者的终极考验:编译并运行了 Doom 游戏。

该编译器的代码:https://github.com/anthropics/claudes-c-compiler



虽然没有人类参与编写代码,但研究人员不断重新设计测试,在智能体程序互相干扰时构建 CI 管道,并在所有 16 个智能体程序都卡在同一个 bug 时创建变通方法。

看起来,在未来加入 AI 的工作流程中,人的角色已经从编写代码转变为构建让 AI 能够编写代码的环境。

GPT-5.3-Codex

在 OpenAI 这边,新一代模型 GPT-5.3-Codex 的发布紧随其后。奥特曼称其拥有目前最佳的编码性能,进一步释放了 Codex 的潜能。

GPT-5.3-Codex 在多项基准上刷新纪录:在 SWE-Bench Pro 上达到 56.8%,在 Terminal-Bench 2.0 上达到 77.3%,同时相比此前版本运行更快、消耗的 token 更少。







OpenAI 表示,该模型融合了 GPT-5.2-Codex 的前沿编码性能和 GPT-5.2 的推理及专业知识能力,速度提升了 25%。这使其能够胜任需要研究、工具使用和复杂执行的长时间任务。

它就像一位真正的同事一样,你可以在 GPT-5.3-Codex 工作时对其进行指导和交互,而不会丢失上下文信息。借助 GPT-5.3-Codex,Codex 从一个能够编写和审查代码的代理,变成了一个几乎可以执行开发人员和专业人士在计算机上的任何操作的代理。

除了更加强大的编码能力外,GPT-5.2-Codex 在 OpenAI 长期关注的美学方面又一次有了长足的进步。

在这次发布中,OpenAI 让 GPT-5.3-Codex 构建了两款游戏:一款是 Codex 应用发布时推出的赛车游戏的第二版,另一款是潜水游戏。



OpenAI 表示,GPT-5.3-Codex 利用其网页游戏开发技能以及预先设定的通用后续提示(例如「修复错误」或「改进游戏」),自主地迭代开发了数百万个 token。

这次发布的 GPT-5.3-Codex ,OpenAI 对其的期望远不止步于一个智能编码模型,而是一个能够「Beyond coding」,实现工作助理的智能体。

GPT-5.3-Codex 能够支持软件生命周期中的所有工作 —— 调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试、指标分析等等。



GPT-5.3-Codex 输出净值分析表格示例

OpenAI 认为,随着模型能力的不断增强,差距不再仅仅在于智能体能够做什么,而是在于人类如何轻松地与多个并行工作的智能体进行交互、指导和监督。鉴于此,Codex 应用可以让管理和指导智能体变得更加便捷,而 GPT-5.3-Codex 的加入更使其交互性更强。

借助新模型,Codex 会频繁更新,让你随时了解关键决策和进展。人们无需等待最终输出,即可实时互动 —— 提出问题、讨论方法,并共同探索解决方案。GPT-5.3-Codex 会语音播报其运行过程,响应反馈,并让你从始至终掌握整个流程。

最后,OpenAI 表示,GPT-5.3-Codex 的训练和部署使用了 Codex,OpenAI 的许多研究人员和工程师都表示,他们现在的工作与两个月前相比发生了根本性的变化。

例如,研究团队使用 Codex 来监控和调试本次版本的训练运行。它不仅加速了基础设施问题的调试,还帮助追踪整个训练过程中的模式,对交互质量进行深入分析,提出修复方案,并构建了丰富的应用程序,使研究人员能够精确地了解模型行为与先前模型之间的差异。

工程团队使用 Codex 对 GPT-5.3-Codex 框架进行了优化和适配。当出现影响用户的异常极端情况时,团队成员利用 Codex 识别上下文渲染错误,并找出缓存命中率低的根本原因。在整个发布过程中,GPT-5.3-Codex 通过动态扩展 GPU 集群来应对流量高峰并保持延迟稳定,持续为团队提供支持。

在 Alpha 测试期间,一位研究人员想要了解 GPT-5.3-Codex 每回合能完成多少额外工作,以及由此带来的生产力提升。GPT-5.3-Codex 生成了几个简单的正则表达式分类器,用于估算用户澄清请求的频率、正面和负面反馈以及任务进度,然后将这些分类器可扩展地应用于所有会话日志,并生成一份包含结论的报告。

GPT-5.3-Codex 已包含在 ChatGPT 的付费套餐中,但 API 还需要等待一段时间。

OpenAI 报告说,由于基础设施和推理堆栈的改进,Codex 用户现在运行 GPT-5.3-Codex 的速度也提高了 25%,从而实现了更快的交互和更快的结果。

结语

海外的大模型已经轮番上阵,在春节前的最后这几天,国内大模型也必然会卷起来,包括 DeepSeek v4 也许即将到来。



你期待住了吗?

参考内容:

https://www.anthropic.com/news/claude-opus-4-6

https://www.anthropic.com/engineering/building-c-compiler

https://openai.com/index/introducing-gpt-5-3-codex/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
链条高跟凉鞋搭配破洞紧身牛仔裤还挺有韵味

链条高跟凉鞋搭配破洞紧身牛仔裤还挺有韵味

牛弹琴123456
2026-02-06 11:06:08
10岁女孩怕压岁钱被家长花,连续3年买成黄金!妈妈:最开始买时460多元/克,还会继续买

10岁女孩怕压岁钱被家长花,连续3年买成黄金!妈妈:最开始买时460多元/克,还会继续买

大象新闻
2026-02-05 00:13:03
汤志平,当选新职

汤志平,当选新职

新京报政事儿
2026-02-05 21:38:57
换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

乡野小珥
2026-02-05 15:03:34
东体:杨希已经投入海港训练;中后卫引援近期有明确说法

东体:杨希已经投入海港训练;中后卫引援近期有明确说法

懂球帝
2026-02-06 11:46:07
有点纯欲感的OL风格拿捏了!

有点纯欲感的OL风格拿捏了!

艾斯莱斯奈斯
2026-02-06 12:03:36
赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

达文西看世界
2026-01-20 13:35:51
1950 年胡兰成获北京任职邀,北上上海想通后偷渡日本保命

1950 年胡兰成获北京任职邀,北上上海想通后偷渡日本保命

唠叨说历史
2026-01-30 14:29:18
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
美媒报道:2008年跳楼自杀的顶级模特鲁斯拉娜,的确是萝莉岛女孩

美媒报道:2008年跳楼自杀的顶级模特鲁斯拉娜,的确是萝莉岛女孩

老范谈史
2025-12-24 17:24:57
笑死,儿子带女同学来店里买裙子,亲妈在线求助,评论区沦陷了

笑死,儿子带女同学来店里买裙子,亲妈在线求助,评论区沦陷了

另子维爱读史
2026-01-30 23:26:22
天空体育预测英超25轮:利物浦4-1曼城,曼联2-2热刺,阿森纳2-0

天空体育预测英超25轮:利物浦4-1曼城,曼联2-2热刺,阿森纳2-0

郝小小看体育
2026-02-06 10:36:41
全球第一发炎食物,一吃马上就发炎!别再让它破坏你的肠道

全球第一发炎食物,一吃马上就发炎!别再让它破坏你的肠道

健康科普365
2026-02-04 21:50:43
不能更完美了,本泽马在利雅得新月生涯首秀上演帽子戏法

不能更完美了,本泽马在利雅得新月生涯首秀上演帽子戏法

懂球帝
2026-02-06 03:07:12
《太平年》越南网络引热议:吴越国如越南独立,中国将失GDP大省

《太平年》越南网络引热议:吴越国如越南独立,中国将失GDP大省

七彩论世
2026-02-06 00:00:15
张本智和1-3爆冷!引发连锁反应,1/8决赛或对阵王楚钦林诗栋

张本智和1-3爆冷!引发连锁反应,1/8决赛或对阵王楚钦林诗栋

卿子书
2026-02-06 11:54:06
东契奇替补有了!球哥重新搭档老詹!湖人有意鲍尔加盟

东契奇替补有了!球哥重新搭档老詹!湖人有意鲍尔加盟

湖人侃球师
2026-02-06 08:50:41
爱尔眼科董事长疑为湖北骗保精神病院实控人,爱尔股价暴跌

爱尔眼科董事长疑为湖北骗保精神病院实控人,爱尔股价暴跌

听心堂
2026-02-06 12:05:06
国家网信办解读《意见》:鼓励有条件的地区及重点城市先试先行

国家网信办解读《意见》:鼓励有条件的地区及重点城市先试先行

中国经济网
2026-02-05 18:26:08
广东2名干部被通报

广东2名干部被通报

黄河新闻网吕梁频道
2026-02-06 10:10:08
2026-02-06 13:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12262文章数 142564关注度
往期回顾 全部

科技要闻

微信封禁元宝红包后,又把阿里千问封了

头条要闻

女子付4980元买500双鞋仅收90余双 涉事商家销号失联

头条要闻

女子付4980元买500双鞋仅收90余双 涉事商家销号失联

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

很意外,美债危机要化解了

汽车要闻

标配华为乾崑解决方案 华境S完成六座满载冬测

态度原创

健康
教育
本地
旅游
公开课

转头就晕的耳石症,能开车上班吗?

教育要闻

换成你如何回答孩子?是像梅宇一样继续误导孩子,还是有别的方式!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

旅游要闻

240个点位解锁新春体验!北京文旅邀市民游客“畅游北京过大年”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版