网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.6和GPT 5.3 Codex同时更新,这波贪了,应该留到春晚再看的

0
分享至

AI圈迎来了新年的第一个双响炮啊,

Anthropic刚发了Claude Opus 4.6,OpenAI也发了GPT‑5.3-Codex,在Codex app里已经能用了。我这稿子写一半直接重新写啊。马上来看看这两模型的评分,它们强化了那些点,以及除了模型本身,还带来了什么更新。

先看跑分。

Anthropic是第一次给Opus系列模型上100万tokens的上下文窗口,在MRCRv2八针1M (大海捞针)测试里,比Sonnet 4.5高了57个点,我第一反应就是我一定要在clawdbot体验一把Opus 4.6。

除了记忆好,Opus 4.6在GDPval-AA(44个不同岗位的知识工作任务)上也超了GPT5.2 200多分,感觉Cowork又可以升级一波了。


隔壁的GPT‑5.3-Codex定位是个编程模型,融合了GPT-5.2-Codex的编码性能和GPT-5.2的推理能力及专业知识,速度提升了 25%(codex有救了),离谱的是OSWorld-Verified(视觉桌面操作)上提升了快30个点,

夯爆了。


我仔细对比了一下两张官方表,发现它们重合的数据集只有一个,Terminal-Bench 2.0,是在终端命令行里进行编程的测试。光看这个评分,GPT-5.3-Codex可以说是把Claude Opus 4.6给拉爆了,高了12个点。

其他展示出来的数据不能直接拿来硬比,

SWE-Bench(Agent编程)数据集人OpenAI用的是Pro版本,包含了四种语言。Claude Opus 4.6测评的SWE-Bench Verified只测试Python。

OpenAI测试OSWorld-Verified比Claude Opus 4.6测的OSWorld测评出来的分数会更加可信,因为Verified修复了300多个数据问题。

还是来看看它们单个都更新了啥,

Claude Opus 4.6还在高难度Agent 搜索(DeepSearchQA / BrowseComp)上单 Agent比GPT-5.2 Pro多6个点,在多学科推理(Humanity's Last Exam / ARC AGI 2)上,同样是工具配置拉满的状态下,比GPT5.2Pro多了3个点。



GPT-5.3-Codex有个指标高到离谱,

OSWorld-Verified(视觉桌面操作),

用人话说就是让AI看截图换成各种电脑任务,人类基准是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

融合这个两个模型的优势的GPT-5.3-Codex直接干到64.7%,跟这个比起来,其他的SWE-Bench Pro(Agent编程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug赚100万挑战)的5,6个点的提升都是常规操作了。


再来看看应用案例。

Anthropic这次都没有放出Claude Opus 4.6跑的case,而且选择把自家产品线更新了,

Claude Code新功能agent teams(智能体团队),可以让多个Agent并行工作,适合用在像大规模代码检查之类可以被拆成很多个独立子任务的场景。

Claude in Excel也更新了,更新了规划模式,还能给乱七八糟的非结构化数据,自动做一个合适的表格结构。

还给PPT新出了 research preview,Claude能识别公司品牌的ppt模版,保证布局,字体,颜色都不会变,能针对单张幻灯片简化文本和添加图表,也可以一次性生成10张幻灯片再微调。


OpenAI把更多时间放在showcase上,

他们放了两个用GPT-5.3-Codex构建的新游戏,但没有像GPT-5.2-Codex那样把完整提示语放出来。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

两个游戏我都完整打了一把,这个赛车真的不是抄马里奥赛车的吗,道具箱里还有泡泡和香蕉。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

潜水我也玩了,本来是想当个超人,一口气潜到最底的,但是潜到一半就体验到为什么神秘园会说,那些专业人士潜进去就出不来了。。。

他们还放出来一个我觉得很蠢的网页case,理由是GPT-5.3-Codex做这个价格页面的时候,会把年费展示成打个折的月费,而不是总金额。。。

奥特曼没活了可以去咬个打火机

关于API和定价,Anthropic这次给API加了Adaptive thinking(自适应思考),由Claude 来判断什么时候打开thinking模式。

还有四档Effort(努力程度)可选,默认是high(高),还有low(低),medium(中)和max(最大)。

还有一个beta功能,当长期对话或者Agent任务快到打到上下文上限的时候,会自动把上下文压缩成摘要,用摘要替换上下文。价格我做成表格了,


GPT-5.3-Codex还没有API,不过在app,CLI,IDE插件and网页版都能用了,上线就全量,这很不openai。

说句题外话,api形式的gpt4o一周后就没了,这波属于是时代的眼泪了。


最后说说安全。

这次两家都花了不小的篇幅来谈安全问题。我们还是用人话来解读一下。


Anthropic上来先亮了个图,说这次升级没有影响我们模型的安全性,这段时间我们做了两件事。

第一件事,努力搞清楚模型脑子里到底在想什么。

他们在做一种可解释性的新方法,目标是让研究人员能看见模型为什么会在某些情况下给出某种回答。这样做的好处是,很多问题在标准测评里不一定暴露,但当你能追到原因,就更容易提前发现风险,比如模型在某些边缘场景会突然变得很会误导人。

第二件事,在模型擅长的领域加了更严的防护。

他们发现 Opus 4.6 在网络安全上能力更强,能修bug,也能拿去攻击。所以他们做了六个新的网络安全探针,用来检测模型有没有在输出可能被滥用的内容。

隔壁OpenAI在安全上也下了苦功夫,

他们现在给开源项目免费做体验,把一些熟悉的坏套路整理成话术识别规则,当我们给gpt发的问题跟某个套路很像的时候,模型就会自动降低问答的详细程度。

这次模型更新后,

明显感觉我的预期值变高了,以前更新模型我通常还会去测一下文本,代码,3D的表现,

但现在随着Claude Code,Cowork,Clawdbot三连击,我对于模型的表现处于薛定谔的猫状态。

太简单的测起来没意思,

我们现在用Claude Code加一些模型,

也能够做到这样的上限。

太复杂的,我想以Agent的形式,

放到我们已有的工作流里长时间来评估它的差异。

说不定后面模型的更新会成为一种日常的迭代,

发布会也不开了,

开始卷Agent形态了,

我就一个愿望,

别光跟整理桌面较劲了,

我桌面都快没文件了。

@ 作者 / 卡尔

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

如果你有更有趣的玩法,欢迎在评论区和我聊聊

更多的内容正在不断填坑中……


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川一校花太漂亮了,身高170五官精致,美得让人移不开眼

四川一校花太漂亮了,身高170五官精致,美得让人移不开眼

阿废冷眼观察所
2026-01-29 08:24:05
为什么汉朝皇帝称为“帝”,而唐宋皇帝却叫“宗”,今天才弄明白

为什么汉朝皇帝称为“帝”,而唐宋皇帝却叫“宗”,今天才弄明白

铭记历史呀
2026-01-10 13:10:16
人民币升值再创新高,中国GDP将突破20万亿美元?

人民币升值再创新高,中国GDP将突破20万亿美元?

壹号股权
2026-02-05 16:50:44
150万台!市委书记市长齐出席,小牛电动第3次重仓常州

150万台!市委书记市长齐出席,小牛电动第3次重仓常州

创客公社-江苏第一创投媒体
2026-02-05 16:22:41
打起来了!美航母中东开了第一枪,伊朗果然好猛,各大势力选边站

打起来了!美航母中东开了第一枪,伊朗果然好猛,各大势力选边站

浮光惊掠影
2026-02-04 19:31:17
体坛联播|C罗继续罢赛矛盾持续升级,字母哥留守雄鹿

体坛联播|C罗继续罢赛矛盾持续升级,字母哥留守雄鹿

澎湃新闻
2026-02-06 08:13:05
原来他是鲁豫的前夫,离婚12年专注新媒体工作,生活低调婚姻成谜

原来他是鲁豫的前夫,离婚12年专注新媒体工作,生活低调婚姻成谜

以茶带书
2026-02-03 11:25:56
阿拉伯人奉穆罕默德为圣人,杀害穆罕默德的子孙却毫不留情!

阿拉伯人奉穆罕默德为圣人,杀害穆罕默德的子孙却毫不留情!

优趣纪史记
2026-02-03 12:22:34
1967年他应蒋介石邀请去台湾,临终却交代妻:千万别把我留这里

1967年他应蒋介石邀请去台湾,临终却交代妻:千万别把我留这里

大运河时空
2026-02-05 17:40:03
明明是联盟第二三分手,结果他在火箭却得不到足够的出手机会?

明明是联盟第二三分手,结果他在火箭却得不到足够的出手机会?

稻谷与小麦
2026-02-06 01:12:01
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
有钱了!曝中赫集团获80亿资金,北京国安能否过上好日子?

有钱了!曝中赫集团获80亿资金,北京国安能否过上好日子?

体坛鉴春秋
2026-02-05 21:00:54
欧尔班:匈牙利不应再追随西方

欧尔班:匈牙利不应再追随西方

环球网资讯
2026-02-05 14:03:05
随着波尔津吉斯的加盟,勇士这套全新首发阵容可保底进入季后赛!

随着波尔津吉斯的加盟,勇士这套全新首发阵容可保底进入季后赛!

田先生篮球
2026-02-05 20:10:49
纳指跌超1.6%,恐慌指数VIX飙升20%

纳指跌超1.6%,恐慌指数VIX飙升20%

每日经济新闻
2026-02-05 23:42:11
70枚导弹全中,不到72小时,美军发起行动,俄外长撂下一句狠话

70枚导弹全中,不到72小时,美军发起行动,俄外长撂下一句狠话

奇奇圈
2026-02-05 14:13:18
亚洲杯最新晋级形势:16强已出12人,国乒8人晋级,4人待定

亚洲杯最新晋级形势:16强已出12人,国乒8人晋级,4人待定

格斗社
2026-02-05 22:31:32
闫学晶妈妈放狠话:多吃燕窝气死你们!这“神助攻”彻底看傻眼?

闫学晶妈妈放狠话:多吃燕窝气死你们!这“神助攻”彻底看傻眼?

娱乐领航家
2026-02-04 20:30:03
原来她已离世26年!23岁登春晚一夜成名,却因一个巴掌付出生命

原来她已离世26年!23岁登春晚一夜成名,却因一个巴掌付出生命

法老不说教
2025-12-24 12:22:51
消费时评 | 高铁时代,绿皮车何以一直“跑”下去

消费时评 | 高铁时代,绿皮车何以一直“跑”下去

消费日报
2026-02-05 10:03:36
2026-02-06 08:51:00
卡尔的AI沃茨 incentive-icons
卡尔的AI沃茨
前大厂算法工程师,3家科技公司技术总监|致力打造最系统的Al学习体系,让1万人通过Al提高生产力
206文章数 87关注度
往期回顾 全部

科技要闻

亚马逊盘后崩9%!2000亿美元AI豪赌吓坏投资者

头条要闻

教女儿直面死亡的患癌父亲去世 曾称"你当我去旅行了"

头条要闻

教女儿直面死亡的患癌父亲去世 曾称"你当我去旅行了"

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

美股、黄金、白银、比特币、石油全崩了

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

时尚
家居
健康
手机
军事航空

今年春天一定要拥有的4件衣服,复古又时髦!

家居要闻

简雅序章 自然且闲适

耳石症分类型,症状大不同

手机要闻

消息称苹果考虑使用聚酰亚胺薄膜制造iPhone Fold可折叠手机

军事要闻

54岁荷兰王后以预备役军人身份参军 王室解释原因

无障碍浏览 进入关怀版