网易首页 > 网易号 > 正文 申请入驻

硬碰硬!刚刚,Claude Opus 4.6与GPT-5.3-Codex同时发布

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心编辑部

在春节来临之前,海外大模型先来了一波硬碰硬的发布。

北京时间 2 月 6 日凌晨,Anthropic 与 OpenAI 相继推出了新版本基础大模型,分别是 Claude Opus 4.6 与 GPT-5.3-Codex。



昨天两家还在因为 AI 里面的广告而论战,今天在大模型发布上又撞车了。话不多说,直接看他们的模型能力如何。

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 对其旗舰人工智能模型的一次重大升级。在这代模型上,规划更加谨慎,能够维持更长时间的自主工作流程,并在关键的企业基准测试中超越了包括 GPT-5.2 在内的竞争对手。

新模型首次拥有 100 万 token 的上下文窗口,使 AI 能够处理和推理比以往版本多得多的信息。Anthropic 还在 Claude Code 中引入了类似于 Kimi K2.5 的「智能体团队」功能 —— 一项研究预览功能,它允许多个 AI 智能体同时处理编码项目的不同方面,并进行自主协调。

Anthropic 强调,Opus 4.6 可将其增强的功能应用于一系列日常工作任务,包括运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。现在在 Cowork 环境中,Claude 可以自主地执行多任务,Opus 4.6 可以代表人类运用所有这些技能。

Opus 4.6 在多项评估中均表现出色。例如,它在智能体编码评估工具 Terminal-Bench 2.0 中取得了最高分,并在「人类最后的考试」(一项复杂的多学科推理测试)中领先于所有其他前沿模型。在 GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中, Opus 4.6 的表现比业界次优模型(OpenAI 的 GPT-5.2)高出约 144 个 Elo 分数,比其前身(Claude Opus 4.5)高出 190 分。此外,Opus 4.6 在 BrowseComp 测试中也优于其他所有模型,该测试用于衡量模型在线查找难寻信息的能力。


Claude Opus 4.6 现已在 claude.ai、API 以及所有主流云平台上线,定价保持不变,每百万 token 5 美元 / 25 美元。

目前大模型的一个常见问题是「上下文腐烂」,即当对话 token 数量超过一定阈值时,模型性能会下降。Opus 4.6 的性能显著优于其前代产品:在 MRCR v2 的 8 针 1M 变体测试中(该测试如同大海捞针),Opus 4.6 的得分为 76%,而 Sonnet 4.5 的得分仅为 18.5%。这标志着模型在保持最佳性能的同时,能够利用的上下文信息量发生了质的飞跃。

为了证明 Opus 4.6 的强大智能体能力,Anthropic 的一名研究员使用 16 个智能体从零开始构建了一个基于 Rust 的 C 语言编译器,设定任务后就基本放手不管了。最后 AI 输出的代码长达 10 万行,可以编译 Linux 内核,耗资 2 万美元,超过 2000 次 Claude Code 会话,历时两周。

该编译器可以在 x86、ARM 和 RISC-V 上构建可启动的 Linux 6.9,它通过了 GCC 99% 的压力测试,可以编译 FFmpeg、Redis、PostgreSQL、QEMU,还通过了开发者的终极考验:编译并运行了 Doom 游戏。

该编译器的代码:https://github.com/anthropics/claudes-c-compiler

虽然没有人类参与编写代码,但研究人员不断重新设计测试,在智能体程序互相干扰时构建 CI 管道,并在所有 16 个智能体程序都卡在同一个 bug 时创建变通方法。

看起来,在未来加入 AI 的工作流程中,人的角色已经从编写代码转变为构建让 AI 能够编写代码的环境。

GPT-5.3-Codex

在 OpenAI 这边,新一代模型 GPT-5.3-Codex 的发布紧随其后。奥特曼称其拥有目前最佳的编码性能,进一步释放了 Codex 的潜能。

GPT-5.3-Codex 在多项基准上刷新纪录:在 SWE-Bench Pro 上达到 56.8%,在 Terminal-Bench 2.0 上达到 77.3%,同时相比此前版本运行更快、消耗的 token 更少。




OpenAI 表示,该模型融合了 GPT-5.2-Codex 的前沿编码性能和 GPT-5.2 的推理及专业知识能力,速度提升了 25%。这使其能够胜任需要研究、工具使用和复杂执行的长时间任务。

它就像一位真正的同事一样,你可以在 GPT-5.3-Codex 工作时对其进行指导和交互,而不会丢失上下文信息。借助 GPT-5.3-Codex,Codex 从一个能够编写和审查代码的代理,变成了一个几乎可以执行开发人员和专业人士在计算机上的任何操作的代理。

除了更加强大的编码能力外,GPT-5.2-Codex 在 OpenAI 长期关注的美学方面又一次有了长足的进步。

在这次发布中,OpenAI 让 GPT-5.3-Codex 构建了两款游戏:一款是 Codex 应用发布时推出的赛车游戏的第二版,另一款是潜水游戏。


OpenAI 表示,GPT-5.3-Codex 利用其网页游戏开发技能以及预先设定的通用后续提示(例如「修复错误」或「改进游戏」),自主地迭代开发了数百万个 token。

这次发布的 GPT-5.3-Codex ,OpenAI 对其的期望远不止步于一个智能编码模型,而是一个能够「Beyond coding」,实现工作助理的智能体。

GPT-5.3-Codex 能够支持软件生命周期中的所有工作 —— 调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试、指标分析等等。


GPT-5.3-Codex 输出净值分析表格示例

OpenAI 认为,随着模型能力的不断增强,差距不再仅仅在于智能体能够做什么,而是在于人类如何轻松地与多个并行工作的智能体进行交互、指导和监督。鉴于此,Codex 应用可以让管理和指导智能体变得更加便捷,而 GPT-5.3-Codex 的加入更使其交互性更强。

借助新模型,Codex 会频繁更新,让你随时了解关键决策和进展。人们无需等待最终输出,即可实时互动 —— 提出问题、讨论方法,并共同探索解决方案。GPT-5.3-Codex 会语音播报其运行过程,响应反馈,并让你从始至终掌握整个流程。

最后,OpenAI 表示,GPT-5.3-Codex 的训练和部署使用了 Codex,OpenAI 的许多研究人员和工程师都表示,他们现在的工作与两个月前相比发生了根本性的变化。

例如,研究团队使用 Codex 来监控和调试本次版本的训练运行。它不仅加速了基础设施问题的调试,还帮助追踪整个训练过程中的模式,对交互质量进行深入分析,提出修复方案,并构建了丰富的应用程序,使研究人员能够精确地了解模型行为与先前模型之间的差异。

工程团队使用 Codex 对 GPT-5.3-Codex 框架进行了优化和适配。当出现影响用户的异常极端情况时,团队成员利用 Codex 识别上下文渲染错误,并找出缓存命中率低的根本原因。在整个发布过程中,GPT-5.3-Codex 通过动态扩展 GPU 集群来应对流量高峰并保持延迟稳定,持续为团队提供支持。

在 Alpha 测试期间,一位研究人员想要了解 GPT-5.3-Codex 每回合能完成多少额外工作,以及由此带来的生产力提升。GPT-5.3-Codex 生成了几个简单的正则表达式分类器,用于估算用户澄清请求的频率、正面和负面反馈以及任务进度,然后将这些分类器可扩展地应用于所有会话日志,并生成一份包含结论的报告。

GPT-5.3-Codex 已包含在 ChatGPT 的付费套餐中,但 API 还需要等待一段时间。

OpenAI 报告说,由于基础设施和推理堆栈的改进,Codex 用户现在运行 GPT-5.3-Codex 的速度也提高了 25%,从而实现了更快的交互和更快的结果。

结语

海外的大模型已经轮番上阵,在春节前的最后这几天,国内大模型也必然会卷起来,包括 DeepSeek v4 也许即将到来。


你期待住了吗?

参考内容:

https://www.anthropic.com/news/claude-opus-4-6

https://www.anthropic.com/engineering/building-c-compiler

https://openai.com/index/introducing-gpt-5-3-codex/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

解读热点事件
2026-01-30 04:02:43
3-0!5-0!疯狂一夜,尤文耻辱出局,马竞杀入4强,新月狂轰6球

3-0!5-0!疯狂一夜,尤文耻辱出局,马竞杀入4强,新月狂轰6球

足球狗说
2026-02-06 06:24:03
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
日本家庭“恩格尔系数”28.6%,达1981年来高位

日本家庭“恩格尔系数”28.6%,达1981年来高位

界面新闻
2026-02-06 11:46:06
20 岁女子与 40 岁钓鱼男多次开房,两人却辩称:只是师徒关系

20 岁女子与 40 岁钓鱼男多次开房,两人却辩称:只是师徒关系

没有偏旁的常庆
2026-01-05 06:15:03
34岁周冬雨整容失败了?近照变40岁大妈,脸垮僵硬不敢认似郑秀文

34岁周冬雨整容失败了?近照变40岁大妈,脸垮僵硬不敢认似郑秀文

八星人
2026-02-06 10:49:41
突遭血洗,超58万人爆仓!“极度恐惧”来了

突遭血洗,超58万人爆仓!“极度恐惧”来了

中国基金报
2026-02-06 10:01:20
赖清德:如果有人欣然接受九二共识,表示他是中国人,那就是促统

赖清德:如果有人欣然接受九二共识,表示他是中国人,那就是促统

我心纵横天地间
2026-02-06 19:59:30
已突破1000万单!有人刷了近6小时才出现可下单界面,结果被AI提示下单“香飘飘奶茶”,千问:今天累垮了,求求明天再来

已突破1000万单!有人刷了近6小时才出现可下单界面,结果被AI提示下单“香飘飘奶茶”,千问:今天累垮了,求求明天再来

极目新闻
2026-02-06 18:43:40
勇士送上大礼!湖人1日内5喜临门,詹姆斯的第五冠真的有戏了

勇士送上大礼!湖人1日内5喜临门,詹姆斯的第五冠真的有戏了

小路看球
2026-02-06 18:49:35
搞特权谋求特殊待遇,利用信贷权力敛财,中纪委连打四“虎”

搞特权谋求特殊待遇,利用信贷权力敛财,中纪委连打四“虎”

南方都市报
2026-02-06 21:44:07
当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

霹雳炮
2026-02-06 13:48:54
商务部:指导上海、北京、广州、天津、重庆对标国际先进水平,营造国际化消费环境

商务部:指导上海、北京、广州、天津、重庆对标国际先进水平,营造国际化消费环境

北青网-北京青年报
2026-02-06 19:36:45
百万粉丝汽车博主发布小米SU7与极氪007碰撞测试视频被逮捕,检方以损害商品声誉罪提起公诉,今日开庭

百万粉丝汽车博主发布小米SU7与极氪007碰撞测试视频被逮捕,检方以损害商品声誉罪提起公诉,今日开庭

大风新闻
2026-02-06 15:34:10
2-0,马内利剑出鞘,利雅得胜利队逼近榜首,40岁C罗罢赛缺席

2-0,马内利剑出鞘,利雅得胜利队逼近榜首,40岁C罗罢赛缺席

侧身凌空斩
2026-02-07 03:30:48
乌克兰公布最新数据,历经4年作战乌军死亡5.5万,俄军死亡76.3万

乌克兰公布最新数据,历经4年作战乌军死亡5.5万,俄军死亡76.3万

碳基生物关怀组织
2026-02-05 23:11:54
陈小春用本名亮相会议,本人当选广东政协委员,新提案引网友热议

陈小春用本名亮相会议,本人当选广东政协委员,新提案引网友热议

一盅情怀
2026-02-06 17:37:03
武汉新娘给黑人DJ留言事件,把我人都看麻了

武汉新娘给黑人DJ留言事件,把我人都看麻了

听风听你
2026-02-03 21:37:44
至少14人被拍到!女大学生从广州坐高铁回家,网友:看着看着就哭了

至少14人被拍到!女大学生从广州坐高铁回家,网友:看着看着就哭了

环球网资讯
2026-02-06 14:06:36
中华人民共和国正式向全世界宣告两件大事:

中华人民共和国正式向全世界宣告两件大事:

百态人间
2026-02-05 15:32:53
2026-02-07 06:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2139842文章数 5382关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

健康
亲子
旅游
教育
军事航空

转头就晕的耳石症,能开车上班吗?

亲子要闻

弥勒融媒2026年寒假研学记,10天系统教学+实景实战

旅游要闻

琅琊古城·“文旅迎春 马跃新程”2026河东文旅新春联欢晚会举行

教育要闻

高考服务处所别错过!3类关键功能解析

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版