网易首页 > 网易号 > 正文 申请入驻

一夜两炸!Opus 4.6 编程能力竟然倒退, OpenAI 炸出首个自我创造的模型

0
分享至

★ 设为星标 | 只讲人话,带你玩转AIGC。

这周一直在蹲 Claude 新版发布,结果没想到几个小时前,AI 圈上演了史上最抓马(Drama)的一幕。

OpenAI 和 Anthropic 这两家死对头,直接开干了。

本来是 Claude 要发新版,没想到 OpenAI 也来搅局了。 对于这种不讲武德,Anthropic 只能提前 15 分钟偷跑了!

其实这两家的火药味,在前几天就已经藏不住了。

Anthropic 直接在超级碗广告里面公开讽刺 OpenAI 在 ChatGPT 里植入广告,那个阴阳怪气的劲儿,简直是把桌子都掀了。

既然两家已经撕破脸打起了“明牌”,那我们这些打工人也别客气了。

今天这篇,就来聊聊这两个“神仙”到底谁更能打,以及我们该把谁招进团队?

01| Claude Opus 4.6:深思熟虑的“老领导”

Opus 4.6 这次主打一个百万 token 上下文,以及 Agent team,不过在深入之前,按照惯例我们还是先看看跑分。


图:Opus 4.6 参数表

1. “办公室的神”实锤了 (Office Tasks & Search)

这是 Claude 最引以为傲的地方。

在办公任务(Office Tasks)上,Opus 4.6 拿到了 1606 分,直接碾压了 GPT-5.2 的 1462 分。

这说明在处理复杂的文档、表格、写报告这种“白领工作”上,Claude 的优势巨大。


之前 Claude 已经发过一个 Excel 插件,这次不仅进行了大幅升级。还新出了一个 PPT 插件,看样子它是准备把手伸进 Office 全家桶。

在 Excel里处理完数据,能直接在 PowerPoint 里给你生成 PPT,连你公司的品牌字体、配色模板都能自动对齐 。


产品经理和咨询顾问们,颤抖了吗?

在搜索能力(BrowseComp)上也是遥遥领先,说明 Claude 更擅长在网页的海洋里捞出你真正需要的信息,而不是给你扔一堆无关链接。

这对于一个 Agent 来说是极其重要的。

2. 奇怪的“倒退”:写代码居然变差了? (Agentic Coding)

不知道大家发现没有,这里有个非常有意思的细节,甚至可以说是“翻车”现场。

Agentic coding (SWE-bench Verified) Opus 4.6 的得分是 80.8%,而上一代 Opus 4.5 的得分是 80.9%。

这就诡异了,Opus 一直主打一个编程能力强,新模型居然比老模型低了 0.1%?

虽然这属于误差范围,但在这种级别的宣传物料里出现“负增长”是非常罕见的。

这可能印证了文中提到的“过度思考”问题,因为想得太多,反而把简单的代码写复杂了,导致通过率下降。

程序员朋友们注意了,写代码这事儿,新版 Claude 没准还不如旧版利索,它可能有点“想太多”。

3.智能体实测:长了双手,但脑子有点乱?

最近的模型看点,其实已经从 AI 的“动嘴”能力转移到“动手”了,也就是所谓的 Agent 能力。

在电脑操作(Computer Use)上,Claude Opus 4.6 拿到了 72.7% 的高分。

这意味着它不再只是给你写代码,而是真的能接管鼠标键盘,像个活人一样帮你点开软件、配置环境。

但别高兴太早,这里藏着一个巨大的雷。

在大规模工具调度(Scaled Tool Use)上,新模型居然翻车了!

Opus 4.6 的得分只有 59.5%,不仅输给了死对头 GPT-5.2(60.6%),甚至还不如它自己的上一代 Opus 4.5(62.3%)。

这是什么概念?如果你让它干一件具体的事(比如在终端编程),它很强(Terminal Coding 65.4%)。

但如果你一口气甩给它几十个工具让它自己调度,这位“深思熟虑”的老领导可能反而会因为想太多而把自己绕晕。

想用它搞复杂自动化流程的开发者,心里恐怕得打个鼓了。

除了这个跑分以外,Opus 4.6 这次还带了了 2 个真正重磅的更新。

1. 记忆力怪兽:一口气吞下 100 万 Token

Opus 系列第一次支持 100 万 token 的上下文窗口,比上一代直接翻了 5 被。

100 万 token 是什么概念?

你把整套《哈利波特》加上你们公司那堆陈年代码山一起扔进去,它不仅吞得下,还能精准地告诉你第 300 页代码里那个变量名拼错了 。

用它来写代码或者写书、翻译的人都很清楚,这个东西是有多重要了。

而且,它终于治好了 AI 的“金鱼脑”。

以前我们最怕聊着聊着 AI 就忘了前面的设定,但 Opus 4.6 搞了个“记忆压缩技术”,在脑容量快爆的时候自动把旧信息打包压缩 。

这就使得它在很长的上下文检索或者长语境情况下进行推理,变得非常强。


这就好比一个永远随身带录音笔和会议纪要的秘书,想糊弄它?没门。

2. 给我配一个“智能体团队”

这是我觉得最炸裂的功能。

在 Claude Code 里,你不再是一对一单挑,而是可以组建一个团队(Agent Teams)。

你可以指挥好几个 AI“分身”同时开工:一个负责写代码,一个负责查 Bug,一个负责写文档 。

它们作为一个团队协同工作,共享任务,互相之间可以进行消息传递和集中管理。

你呢?你只需要像老板一样,看着它们干活,哪里不对点哪里,或者直接接管其中一个“分身”的操作 。

这哪是写代码,这简直是在玩《模拟人生》啊!

现在,Claude 网页版和 Claude Code上,Claude Opus 4.6 都已经上线了。


不过,有一说一,Opus 4.6 虽然说自己厉害,但对标的都是 GPT 的前一代 5.2,但跟同时炸出的 5.3 Codex 相比怎么样呢?

02 GPT-5.3-Codex:手速惊人的“全能工程师”

如果说 Claude 是坐办公室的管理者,那 OpenAI 的 GPT-5.3-Codex 就是那个这辈子不知道什么叫累的超级工程师

1. 唯快不破,且“自我进化”

OpenAI 这次就两个字:快,强。新模型比上一代 GPT-5.2 快了 25% 。

但最让我背脊发凉的是这一点:它是自己把自己造出来的。

OpenAI 的工程师承认,他们大量使用了早期版本的 Codex 来找 Bug、调试训练过程 。

AI 开始自我进化了,朋友们,终结者的剧本是不是翻得太快了点?

2. 编码及 Agent 能力

OpenAI 这次不装了,直接给了 AI 一双手。

它在 OSWorld(电脑操作测试)上的得分直接起飞,达到了 64.7%(人类大概是 72%),比上一代基本翻倍了。

看得出来,OpenAI 在猛干 Codex 的 Agent 能力,不过这个值似乎低于前面的 Opus 4.6(72.7%,已经超越了人类?)


但细心的你会发现这里面有猫腻。Opus 的是 OSWorld ,而 OpenAI 这里加了个个 Verified。

简单来说,Verified 是个升级版,它的难度系数更大,所以这里谁强谁弱还真说不准。(有可能 Codex 更强一点)

这意味着它不仅能写代码,还能像你一样控制鼠标键盘,在电脑上点来点去。

在测试里,OpenAI 甚至让它从零开始写了两个游戏(赛车和潜水游戏),它就这么自己在电脑上改 Bug、测试、迭代,几天就搞定了 。

说到编程能力,这里又和 OSWorld 一样,两家的指标不一样。

再次的,OpenAI 采用了更严格的SWE-Bench Pro,而 Opus 用的是SWE-Bench Verified。

SWE-Bench Verified 仅测试 Python 编码能力,而SWE-Bench Pro 涵盖了 4 种语言,它的挑战性会高很多。


两家唯一共同的指标,也是争吵最多的指标:Terminal-Bench。

两家公司前后脚发布,自然少不了互相拉踩。但这次的数据对比,简直是一场“罗生门”。

争议焦点就是这个 Terminal-Bench 2.0(终端技能)

Anthropic 宣称: 我们是 No.1!Opus 4.6 拿到了该测试的最高分。(65.4%)

但仅仅 15 分钟后,OpenAI 的报告里赫然写着:GPT-5.3-Codex 拿了 77.3%。


3. 它是懂“交互”的

以前用 AI 写代码,最烦它写一堆你就干等着。

现在的 GPT-5.3-Codex 会像个坐在你旁边的同事,一边写一边跟你汇报:“老板,我准备这么改,你觉得行吗?”

你可以随时打断它,纠正它 。

这种“结对编程”的感觉,真的太像真人了。

写在最后:变天了

本来这几天,大家其实都在等咱们自家的“AI 春晚”(毕竟 DeepSeek R2 还没动静)。没想到,大洋彼岸的“科技春晚”先演了一出大戏,还是一场直接掀桌子的硬仗。

抛开刚才的拉踩不谈,透过这两家打得头破血流的数据,我们也该看清一个事实:风向彻底变了。

现在无论是 Claude 想做“全能文员”,还是 GPT-5.3 开始“自我创造”,大家都在死磕同一个方向:Agent(智能体)。

也就是,少废话,去干活。

未来的 AI 战场,不再是比拼谁更像个百科全书,而是比拼谁能真正接管你的鼠标和键盘。

从写代码、修 Bug,到操作 Excel、调度工具,模型的能力正在从“纸上谈兵”转向“真刀真枪”的交付。

这是一个分水岭。

未来的 AI 不再是那个陪你聊天的虚拟网友,而是那个能坐在你工位上,用你的电脑,把你工作干完的——超级同事。

美国的卷完了,接下来,压力给到国产模型这边了。

(看完觉得有启发的,点个“赞”、点个♥️,咱们评论区见!)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春运大巴逆袭封神,干翻高铁的,是数亿打工人回家刚需

春运大巴逆袭封神,干翻高铁的,是数亿打工人回家刚需

老特有话说
2026-02-02 22:26:24
具俊晔首次承认大S死亡真相,和一年前说法不一,汪小菲没说错

具俊晔首次承认大S死亡真相,和一年前说法不一,汪小菲没说错

把喜欢都给他
2026-02-04 21:40:19
富商将五箱茅台深埋地底,20年后才挖出来,打开箱子后富商愣住了

富商将五箱茅台深埋地底,20年后才挖出来,打开箱子后富商愣住了

二十一号故事铺
2024-09-25 07:00:12
1991年,19岁吴晓丽被判处死刑,在枪决前,她突然高喊一个要求

1991年,19岁吴晓丽被判处死刑,在枪决前,她突然高喊一个要求

南权先生
2026-01-05 16:39:45
1分钟8分引逆转!里夫斯25分钟35+6各种高难三分 湖媒:超级巨星

1分钟8分引逆转!里夫斯25分钟35+6各种高难三分 湖媒:超级巨星

颜小白的篮球梦
2026-02-06 13:44:03
孙殿英炸开慈禧陵墓后,为何急着脱她裤子?原因绝非想的那么不堪

孙殿英炸开慈禧陵墓后,为何急着脱她裤子?原因绝非想的那么不堪

谈史论天地
2026-02-04 13:31:21
他作为政委不被信任?司令员出事后,副司令主持工作,后被换下来

他作为政委不被信任?司令员出事后,副司令主持工作,后被换下来

浔阳咸鱼
2026-02-06 09:30:15
啥队有这配置?记者:某球队放弃字母哥因担心其不想当老二

啥队有这配置?记者:某球队放弃字母哥因担心其不想当老二

懂球帝
2026-02-06 02:04:07
狂秀操作!3笔交易送走半支队,整整省了1亿啊,冠军和薪资全都要

狂秀操作!3笔交易送走半支队,整整省了1亿啊,冠军和薪资全都要

球童无忌
2026-02-05 11:41:16
央视退休主持人聚会,张泽群主持串场,倪萍多次回怼不给面子

央视退休主持人聚会,张泽群主持串场,倪萍多次回怼不给面子

清衣渡a
2026-02-05 15:41:38
贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

素素娱乐
2026-02-06 10:29:31
倒计时一天,佩通坦和为泰党能否赢得大选?

倒计时一天,佩通坦和为泰党能否赢得大选?

风阳生
2026-02-06 15:08:54
阿斯:皇马客战瓦伦西亚,巴尔韦德将回到熟悉的中场位置

阿斯:皇马客战瓦伦西亚,巴尔韦德将回到熟悉的中场位置

画夕
2026-02-06 15:42:25
邮报:皇马球员的面罩训练回归,既节省时间又降低受伤风险

邮报:皇马球员的面罩训练回归,既节省时间又降低受伤风险

懂球帝
2026-02-06 10:43:08
2026有线电视大升级:收费透明、设备免费,这些关键点别错过

2026有线电视大升级:收费透明、设备免费,这些关键点别错过

时尚的弄潮
2026-02-06 14:53:16
《太平年》没有演的结局:放下王冠的钱氏家族,为何能绵延千年?

《太平年》没有演的结局:放下王冠的钱氏家族,为何能绵延千年?

小邵说剧
2026-02-04 07:48:02
痛心!南通54岁教师监考时突发疾病后离世,平时凌晨3点还在忙…

痛心!南通54岁教师监考时突发疾病后离世,平时凌晨3点还在忙…

南通濠生活
2026-02-06 12:22:18
《太平年》大结局:钱弘俶一生7次封王,被赵光义毒杀?结局太惨

《太平年》大结局:钱弘俶一生7次封王,被赵光义毒杀?结局太惨

掠影后有感
2026-02-05 11:29:35
彩电零售量跌破3000万台的恶果

彩电零售量跌破3000万台的恶果

家电圈
2026-02-03 19:50:24
1978年,有人反对陈云进政治局,姚依林:八大副主席只剩他一个了

1978年,有人反对陈云进政治局,姚依林:八大副主席只剩他一个了

混沌录
2026-02-05 22:10:16
2026-02-06 16:24:49
AI范儿 incentive-icons
AI范儿
AI范儿是一个专注于人工智能领域的资讯和学习平台,提供最新的人工智能资讯
658文章数 438关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

长和巴拿马港口遭接管 百亿美元全球港口出售计划生变

头条要闻

长和巴拿马港口遭接管 百亿美元全球港口出售计划生变

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科卷入骗保疑云 公司回应

汽车要闻

这颜值真的可以!方程豹首款轿车叫"镁7"还是"方程"?

态度原创

本地
亲子
时尚
公开课
军事航空

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

亲子要闻

老人相信“多指多福”不让切,孩子越早做影响越小

开运首饰|| 300多到手天然珍珠、水晶,好意头还显贵气

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

不惧以军拦截 “全球坚韧船队”将再赴加沙

无障碍浏览 进入关怀版