网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

刚刚，ChatGPT 和 Claude 同时大更新，不会给 AI 当老板的打工人要被淘汰

2026-02-06 06:28:21　来源: 爱范儿

广东举报

0

分享至

就在刚刚，硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像约好了一样，同时甩出了自家的重磅更新：Claude Opus 4.6 和 GPT-5.3-Codex。

如果说昨晚之前，我们还在讨论「怎么写好 Prompt 辅助工作」；那么今天凌晨，我们可能被迫要学会「如何作为老板去管理 AI 员工」。

AI 造 AI，顺便接管你的电脑

就在昨天，Sam Altman 刚在 X 平台上凡尔赛了一把 Codex 的「百万活跃用户」里程碑。短短一天后，OpenAI 再次乘胜追击，扔出王炸——GPT-5.3-Codex。

技术文档里藏着一句极具分量的话：「这是我们第一个在创造自己的过程中，发挥了关键作用的模型。」

说人话就是：AI 已经学会了自己写代码、自己找 Bug，甚至开始自己训练下一代的 AI 了。这种自我进化能力，也直接体现在了一连串跑分数据上。

还记得那个模拟人类操作电脑的 OSWorld-Verified 基准测试吗？前代模型只有 38.2% 的准确率，连及格线都够不上。

但这次，GPT-5.3-Codex 直接跳涨到了 64.7%！

要知道，人类的平均水平也就 72%。这意味着，AI 距离像你一样熟练地甩鼠标、切屏、操作软件，只剩下一层窗户纸的距离。

而在 Terminal-Bench 2.0（命令行操作）中，它更是拿下了 77.3% 的高分，把 GPT-5.2（62.2%）远远甩在身后。

知名 SWE-Bench Pro 基准测试覆盖四种编程语言，不仅抗污染，还全是真实世界的硬核工程难题。

GPT-5.3-Codex 在这里不仅拿下了 SOTA（最高水平），而且用的 Token 比以往任何模型都少。这意味着什么？意味着它不仅干活猛，解决问题的路径还比人类更短、更省钱。

OpenAI 甚至展示了它独立构建的能力：

在几天内，它从零构建了一款包含多张地图的赛车游戏 v2，顺手还搞定了一款管理氧气系统的深海潜水游戏。

最让我印象深刻的是 GPT-5.3-Codex 对模糊意图的理解。

在构建「Quiet KPI」落地页时，它自动把「年度计划」换算成了「打折后的月付价格」，甚至还贴心地自动补充了用户评价轮播——这一切，都不需要你下指令。

OpenAI 的野心已经写在脸上了：以前微软常说 AI 将会成为人类的副驾驶（Copilot），但现在 AI 更想做那个能掌控方向盘、甚至能自己修车的司机。

对了，还有一个有趣的细节。

此前外界盛传 OpenAI 对英伟达的 AI 芯片颇有微词，但这次官方博客特地强调：GPT-5.3-Codex 的设计、训练和部署都在 NVIDIA GB200 NVL72 系统上完成。

这一波高情商的「感谢英伟达」，属实是给足了黄仁勋面子。

告别「金鱼记忆」Claude 迎来绝地反击

在 GPT-5.3-Codex 发布的前后脚，Anthropic 也端出了自己的春节大礼包。

坏消息是，大家期待的 Claude「中杯」Sonnet 模型没有更新；但好消息是，Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。

相比于 OpenAI 在「行动力」上的激进，Anthropic 今天发布的 Claude Opus 4.6 则是在「思考力」和「可用性」上死磕。

很多企业用户都有一个名为 Context Rot（上下文腐蚀）的痛点：号称支持 200k 上下文，但塞进去的数据一多，AI 就开始顾头不顾尾。

这次，Claude Opus 4.6 拿出的数据简直是「降维打击」。

在 MRCR v2（长文本大海捞针）测试中，Claude Opus 4.6 的召回率高达 76%。

作为对比，上一代 Sonnet 4.5 只有惨不忍睹的 18.5%。从某种程度上说，这是一个从基本不可用到「高可靠」的质变。

这是 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。

这意味着什么？意味着你可以把几百页的财报、几十万字的代码库直接扔给它，它不仅能读完，还能精准地告诉你第 342 页脚注里的那个数字有问题。

更让打工人眼前一亮的是它的生产力功能。

一方面，Anthropic 这回直接把 Claude 塞进了 Excel 和 PowerPoint。它能根据 Excel 数据直接生成 PPT，不仅保留排版风格，连字体和模板都能对齐。在 Claude Cowork 协作环境中，它甚至能进行自主多任务处理。

另一方面，Anthropic 顺势在 Claude Code 中推出了实验性的 Agent Teams 功能，让普通开发者也能体验这种「指挥千军万马」的感觉：

角色分工：你可以指定一个 Claude Session 担任 Team Lead（组长），它不干脏活累活，专门负责拆解任务、分配工单、合并代码；其他的 Session 则是队友（Teammates），各自领任务去干。
独立作战：每个队友都有独立的上下文窗口（不用担心 Token 爆炸），它们甚至能背着你互相发消息（Inter-agent messaging），讨论技术细节，最后只把结果汇报给组长。
并行赛马：这东西有什么用？想象一下查一个顽固 Bug，你可以生成 5 个 Agent，分别验证 5 种不同的假设，像「赛马」一样并行排雷；或者在 Code Review 时，让一个队友扮「安全专家」查漏洞，一个扮「架构师」看性能，互不干扰。

为了展示 Opus 4.6 的极限，Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验：Agent Teams（智能体团队）。

他没有亲自写代码，而是扔了 2 万美元的 API 额度，让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。

结果在短短两周内，这群 AI 自主进行了 2000 多个编程会话，从零手写了一个 10 万行代码的 C 语言编译器（基于 Rust）。

这个 AI 写的编译器，还成功编译了 Linux 6.9 内核（涵盖 x86、ARM 和 RISC-V 架构），甚至跑通了 Doom 游戏。

虽然它还不够完美（比如生成的代码效率不如 GCC），但这个案例也表明我们不再是和 AI 一起编程，而是看着一个 AI 团队自主协作、查错、推进项目。

此外，它还学会了 Adaptive Thinking（自适应推理），能根据难度自己决定「想多久」。加上新增的「智能强度」控制，你可以在 Low 到 Max 四档之间切换。

定价方面，Anthropic 这次很良心，维持在每百万 Token $5/$25 的基础定价。看来是为了抢占企业级市场，铁了心要和 OpenAI 卷到底。

一个是激进天才，一个是靠谱老牛

知名 AI 评测人 Dan Shipper 在第一时间搞了个「盲测」（Vibe Check），他的评价非常精准：

Claude Opus 4.6 是「高上限，高方差」（High Ceiling, High Variance）。

它像是一个才华横溢但偶尔跳脱的天才。在测试中，它直接解决了一个让 iOS 团队卡了两个月的功能难题；在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶尔也会「过度自信」，一本正经地胡说八道。如果你需要突破性的灵感，选它。

GPT-5.3-Codex 是「高可靠，低方差」（High Reliability, Low Variance）。

它像是一个经验丰富、绝不掉链子的资深工程师。推理速度提升 25%，几乎不犯低级错误，稳健得让人心安。

虽然在创造性任务上略逊一筹（LFG 得分 7.5/10），但在日常的 Coding 和运维任务中，它是最高效的老黄牛。如果你需要稳定交付，选它。

时间步入 2026 年，我们的角色开始发生变化。

在这个时间节点，对于普通用户而言，最大的变化莫过于此：Prompt Engineering（提示词工程）的重要性正在下降，而 Agent Management（智能体管理）的能力开始浮出水面。

当 ChatGPT 可以自主修 Bug 甚至操作你的终端，当 Claude 可以一次性吞吐 100 万字并精准定位细节时，我们不再需要像教小学生一样，把指令拆解得碎碎念。

我们需要做的，是学会如何以「管理者」的身份，去定义目标、审核结果、以及——决定在什么时候，把什么任务交给哪位「员工」。

这就是 2026 年的新职场：你的团队里混入了一群硅基天才，而你是唯一的碳基老板。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

玉渊谭天：奉劝法国别酒不醉人人自醉

北京日报 2026-02-12 08:22:18
6168 跟贴 6168
U17国足与日本队同组

北京晚报 2026-02-12 16:36:03
1214 跟贴 1214

影石年会送出5套房员工：获奖房者都是90后、无高管

红星新闻 2026-02-12 14:13:24
2775 跟贴 2775

马斯克谈Seedance 2.0：发展速度太快

财联社 2026-02-12 13:40:07
1398 跟贴 1398
德国俱乐部回应“樊振东是否将续约”

浙江之声 2026-02-12 15:24:55
198 跟贴 198

外交部：中国政府高度重视食品安全

财联社 2026-02-12 15:41:11
169 跟贴 169

报告：近六成日企计划今年扩大或维持对华投资

第一财经资讯 2026-02-12 11:01:30
2911 跟贴 2911
中国运动员头部冲下摔倒本人晒照回应伤情

封面新闻 2026-02-12 12:45:20
203 跟贴 203

长江和记：邀请巴拿马就港口问题磋商

界面新闻 2026-02-12 18:41:33
729 跟贴 729
美国要搞“北约3.0”

新华社 2026-02-12 18:57:03
528 跟贴 528
深圳17岁“少年烤鸡”店老板，开席请100人吃年夜饭！“花多少钱不重要，想真心实意谢谢他们”

大象新闻 2026-02-12 19:45:11
61 跟贴 61
东北辽宁方大集团“霸总”累计给员工发40亿红包，现场摆数米高“现金墙”

大风新闻 2026-02-12 17:52:06
2 跟贴 2
河南邓州通报错领骨灰盒

北京日报 2026-02-12 17:47:44
190 跟贴 190
女子春节上门喂猫已接下26单收入近6000元

闪电新闻 2026-02-12 20:16:30
178 跟贴 178
湖北一男子想在丈母娘家表现，劈柴失误致骨折入院，当事人：估计恢复正常仍需几个月，之前没有劈过柴，没有经验

大象新闻 2026-02-12 14:49:03
9 跟贴 9
中南大学湘雅医院2025年外籍患者就诊人次较前年翻6倍

澎湃新闻 2026-02-12 20:48:26
104 跟贴 104
长城汽车人均年终奖超5万元？魏建军：具体不知道，肯定多一些

每日经济新闻 2026-02-12 16:22:03
122 跟贴 122
1342万亿日元！日本国家债务创最高纪录

环球网资讯 2026-02-12 06:54:04
211 跟贴 211
网友吐槽：高铁买到“低人一等座”？12306回应：新增提醒，若介意可退

上观新闻 2026-02-12 20:49:20
0 跟贴 0
刚刚 | 钟南山院士这番话，热搜第一！

天津广播 2026-02-12 14:55:29
22 跟贴 22
12家第三方火车票网络销售平台被约谈（2026·02·12）

今日辟谣 2026-02-12 18:21:45
60 跟贴 60
邓飞收国家网信办未禁其9账号回复，当起诉社媒平台维权

雄韬视线 2026-02-13 03:45:27
2 跟贴 2

林诗栋勇夺2026年首冠！感恩刘志强指导，球迷直言王皓尴尬难当

林诗栋勇夺2026年首冠！感恩刘志强指导，球迷直言王皓尴尬难当

卿子书

2026-01-31 16:37:33

最强天然大身材的她还是个球迷！

最强天然大身材的她还是个球迷！

碧波万览

2026-02-13 03:40:07

炸裂！湖南法官判男方净身出户，转身娶了拿走全部家产的女方

炸裂！湖南法官判男方净身出户，转身娶了拿走全部家产的女方

麦大人

2025-11-28 20:18:30

广东一公园凌晨4点公放“恭喜发财”音乐，有市民在睡梦中被吵醒！公园：线路出现故障

广东一公园凌晨4点公放“恭喜发财”音乐，有市民在睡梦中被吵醒！公园：线路出现故障

广东吃喝玩乐

2026-02-12 12:06:24

立陶宛高层再表态：愿讨论更名，释放修复关系信号

立陶宛高层再表态：愿讨论更名，释放修复关系信号

一口娱乐

2026-02-13 01:07:03

立陶宛总理：考虑将“台湾代表处”更名为“台北代表处”

立陶宛总理：考虑将“台湾代表处”更名为“台北代表处”

扬子晚报

2026-02-12 11:04:17

体验完智谱刚刚发布的 GLM-5，我终于明白它为什么让硅谷猜破了头

体验完智谱刚刚发布的 GLM-5，我终于明白它为什么让硅谷猜破了头

爱范儿

2026-02-12 13:45:23

黑天鹅出现后，中方公布黄金存量，购金潮爆发，华盛顿有求于北京

黑天鹅出现后，中方公布黄金存量，购金潮爆发，华盛顿有求于北京

别人都叫我阿腈

2026-02-13 02:55:04

国际贵金属继续下挫现货黄金跌超3%

国际贵金属继续下挫现货黄金跌超3%

财联社

2026-02-13 00:20:05

黄一鸣直播喊话王思聪：孩子需要爸爸！网友却说她是“豪赌失败”

黄一鸣直播喊话王思聪：孩子需要爸爸！网友却说她是“豪赌失败”

未曾青梅

2026-02-11 23:54:24

刘青云夫妇洛阳度假，58岁郭蔼明穿破洞裤，不用带娃不愁钱像40岁

刘青云夫妇洛阳度假，58岁郭蔼明穿破洞裤，不用带娃不愁钱像40岁

八怪娱

2026-02-12 11:03:53

惊天逆转！俄罗斯拟重返美元体系，全球格局彻底改写

惊天逆转！俄罗斯拟重返美元体系，全球格局彻底改写

老马拉车莫少装

2026-02-13 03:19:04

官方：U17亚洲杯中国队分组出炉！

官方：U17亚洲杯中国队分组出炉！

五星体育

2026-02-12 17:32:54

直接摊牌了！国防部这次没留任何余地，直接把话挑明了

直接摊牌了！国防部这次没留任何余地，直接把话挑明了

安安说

2026-02-12 21:18:01

特朗普支持率暴跌，白宫发文恳求支持者不要失去信心：我们正在赢

特朗普支持率暴跌，白宫发文恳求支持者不要失去信心：我们正在赢

爱看剧的阿峰

2026-02-11 19:31:23

浙江破获首例“洗机”黑产案：核心技术人员均任职知名大厂

浙江破获首例“洗机”黑产案：核心技术人员均任职知名大厂

澎湃新闻

2026-02-12 20:40:27

北京市常务副市长：首都都市圈是目前我国唯一拥有两个直辖市的都市圈，具有独一无二的发展优势

北京市常务副市长：首都都市圈是目前我国唯一拥有两个直辖市的都市圈，具有独一无二的发展优势

红星新闻

2026-02-12 11:57:06

iOS 26.3正式版翻车：欧盟吃肉，国行喝汤，这次吃相真的太难看了

iOS 26.3正式版翻车：欧盟吃肉，国行喝汤，这次吃相真的太难看了

小8说科技

2026-02-12 14:54:02

超级工程，我国一旦全面完成，中国军队将处于世界顶峰

超级工程，我国一旦全面完成，中国军队将处于世界顶峰

米师傅安装

2026-02-13 01:38:34

心脏最怕“缺镁”！医生提醒：心脏不好的，可多吃这5种高镁食物

心脏最怕“缺镁”！医生提醒：心脏不好的，可多吃这5种高镁食物

九哥聊军事

2026-02-12 21:41:25

消费科技第一媒体

38432文章数 2600892关注度

往期回顾全部

科技要闻

10倍速的一夜：三大模型春节前的暗战

头条要闻

钟南山：会用证据让全世界服气

头条要闻

钟南山：会用证据让全世界服气

体育要闻

31岁首次参加冬奥，10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科？

汽车要闻

开212 T01柴油版去穿越连牧马人都跟不上

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

数码

亲子

家居

公开课

本地新闻

下一站是嘉禾望岗，请各位乘客做好哭泣准备

数码要闻

英伟达App更新，搞定Optimus MUX显卡切换难题

亲子要闻

孩子最渴望听到父母说的五句话

家居要闻

本真栖居爱暖伴流年

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版