网易首页 > 网易号 > 正文 申请入驻

刚刚,ChatGPT 和 Claude 同时大更新,不会给 AI 当老板的打工人要被淘汰

0
分享至

就在刚刚,硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像约好了一样,同时甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。

如果说昨晚之前,我们还在讨论「怎么写好 Prompt 辅助工作」;那么今天凌晨,我们可能被迫要学会「如何作为老板去管理 AI 员工」。


AI 造 AI,顺便接管你的电脑

就在昨天,Sam Altman 刚在 X 平台上凡尔赛了一把 Codex 的「百万活跃用户」里程碑。短短一天后,OpenAI 再次乘胜追击,扔出王炸——GPT-5.3-Codex。

技术文档里藏着一句极具分量的话:「这是我们第一个在创造自己的过程中,发挥了关键作用的模型。」

说人话就是:AI 已经学会了自己写代码、自己找 Bug,甚至开始自己训练下一代的 AI 了。这种自我进化能力,也直接体现在了一连串跑分数据上。


还记得那个模拟人类操作电脑的 OSWorld-Verified 基准测试吗?前代模型只有 38.2% 的准确率,连及格线都够不上。

但这次,GPT-5.3-Codex 直接跳涨到了 64.7%!


要知道,人类的平均水平也就 72%。这意味着,AI 距离像你一样熟练地甩鼠标、切屏、操作软件,只剩下一层窗户纸的距离。

而在 Terminal-Bench 2.0(命令行操作)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)远远甩在身后。


知名 SWE-Bench Pro 基准测试覆盖四种编程语言,不仅抗污染,还全是真实世界的硬核工程难题。

GPT-5.3-Codex 在这里不仅拿下了 SOTA(最高水平),而且用的 Token 比以往任何模型都少。这意味着什么?意味着它不仅干活猛,解决问题的路径还比人类更短、更省钱。

OpenAI 甚至展示了它独立构建的能力:

在几天内,它从零构建了一款包含多张地图的赛车游戏 v2,顺手还搞定了一款管理氧气系统的深海潜水游戏。


最让我印象深刻的是 GPT-5.3-Codex 对模糊意图的理解。

在构建「Quiet KPI」落地页时,它自动把「年度计划」换算成了「打折后的月付价格」,甚至还贴心地自动补充了用户评价轮播——这一切,都不需要你下指令。


OpenAI 的野心已经写在脸上了:以前微软常说 AI 将会成为人类的副驾驶(Copilot),但现在 AI 更想做那个能掌控方向盘、甚至能自己修车的司机。

对了,还有一个有趣的细节。

此前外界盛传 OpenAI 对英伟达的 AI 芯片颇有微词,但这次官方博客特地强调:GPT-5.3-Codex 的设计、训练和部署都在 NVIDIA GB200 NVL72 系统上完成。

这一波高情商的「感谢英伟达」,属实是给足了黄仁勋面子。


告别「金鱼记忆」Claude 迎来绝地反击

在 GPT-5.3-Codex 发布的前后脚,Anthropic 也端出了自己的春节大礼包。

坏消息是,大家期待的 Claude「中杯」Sonnet 模型没有更新;但好消息是,Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。

相比于 OpenAI 在「行动力」上的激进,Anthropic 今天发布的 Claude Opus 4.6 则是在「思考力」和「可用性」上死磕。


很多企业用户都有一个名为 Context Rot(上下文腐蚀)的痛点:号称支持 200k 上下文,但塞进去的数据一多,AI 就开始顾头不顾尾。

这次,Claude Opus 4.6 拿出的数据简直是「降维打击」。

在 MRCR v2(长文本大海捞针)测试中,Claude Opus 4.6 的召回率高达 76%。

作为对比,上一代 Sonnet 4.5 只有惨不忍睹的 18.5%。从某种程度上说,这是一个从基本不可用到「高可靠」的质变。

这是 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。



这意味着什么?意味着你可以把几百页的财报、几十万字的代码库直接扔给它,它不仅能读完,还能精准地告诉你第 342 页脚注里的那个数字有问题。

更让打工人眼前一亮的是它的生产力功能。

一方面,Anthropic 这回直接把 Claude 塞进了 Excel 和 PowerPoint。它能根据 Excel 数据直接生成 PPT,不仅保留排版风格,连字体和模板都能对齐。在 Claude Cowork 协作环境中,它甚至能进行自主多任务处理。

另一方面,Anthropic 顺势在 Claude Code 中推出了实验性的 Agent Teams 功能,让普通开发者也能体验这种「指挥千军万马」的感觉:

  • 角色分工:你可以指定一个 Claude Session 担任 Team Lead(组长),它不干脏活累活,专门负责拆解任务、分配工单、合并代码;其他的 Session 则是队友(Teammates),各自领任务去干。
  • 独立作战:每个队友都有独立的上下文窗口(不用担心 Token 爆炸),它们甚至能背着你互相发消息(Inter-agent messaging),讨论技术细节,最后只把结果汇报给组长。
  • 并行赛马:这东西有什么用?想象一下查一个顽固 Bug,你可以生成 5 个 Agent,分别验证 5 种不同的假设,像「赛马」一样并行排雷;或者在 Code Review 时,让一个队友扮「安全专家」查漏洞,一个扮「架构师」看性能,互不干扰。

为了展示 Opus 4.6 的极限,Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验:Agent Teams(智能体团队)。

他没有亲自写代码,而是扔了 2 万美元 的 API 额度,让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。

结果在短短两周内,这群 AI 自主进行了 2000 多个编程会话,从零手写了一个 10 万行代码的 C 语言编译器(基于 Rust)。


这个 AI 写的编译器,还成功编译了 Linux 6.9 内核(涵盖 x86、ARM 和 RISC-V 架构),甚至跑通了 Doom 游戏。

虽然它还不够完美(比如生成的代码效率不如 GCC),但这个案例也表明我们不再是和 AI 一起编程,而是看着一个 AI 团队自主协作、查错、推进项目。

此外,它还学会了 Adaptive Thinking(自适应推理),能根据难度自己决定「想多久」。加上新增的「智能强度」控制,你可以在 Low 到 Max 四档之间切换。

定价方面,Anthropic 这次很良心,维持在每百万 Token $5/$25 的基础定价。看来是为了抢占企业级市场,铁了心要和 OpenAI 卷到底。

一个是激进天才,一个是靠谱老牛

知名 AI 评测人 Dan Shipper 在第一时间搞了个「盲测」(Vibe Check),他的评价非常精准:

Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。

它像是一个才华横溢但偶尔跳脱的天才。在测试中,它直接解决了一个让 iOS 团队卡了两个月的功能难题;在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶尔也会「过度自信」,一本正经地胡说八道。如果你需要突破性的灵感,选它。

GPT-5.3-Codex 是「高可靠,低方差」(High Reliability, Low Variance)。

它像是一个经验丰富、绝不掉链子的资深工程师。推理速度提升 25%,几乎不犯低级错误,稳健得让人心安。

虽然在创造性任务上略逊一筹(LFG 得分 7.5/10),但在日常的 Coding 和运维任务中,它是最高效的老黄牛。如果你需要稳定交付,选它。


时间步入 2026 年,我们的角色开始发生变化。

在这个时间节点,对于普通用户而言,最大的变化莫过于此:Prompt Engineering(提示词工程)的重要性正在下降,而 Agent Management(智能体管理)的能力开始浮出水面。

当 ChatGPT 可以自主修 Bug 甚至操作你的终端,当 Claude 可以一次性吞吐 100 万字并精准定位细节时,我们不再需要像教小学生一样,把指令拆解得碎碎念。

我们需要做的,是学会如何以「管理者」的身份,去定义目标、审核结果、以及——决定在什么时候,把什么任务交给哪位「员工」。

这就是 2026 年的新职场:你的团队里混入了一群硅基天才,而你是唯一的碳基老板。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林诗栋勇夺2026年首冠!感恩刘志强指导,球迷直言王皓尴尬难当

林诗栋勇夺2026年首冠!感恩刘志强指导,球迷直言王皓尴尬难当

卿子书
2026-01-31 16:37:33
最强天然大身材的她还是个球迷!

最强天然大身材的她还是个球迷!

碧波万览
2026-02-13 03:40:07
炸裂!湖南法官判男方净身出户,转身娶了拿走全部家产的女方

炸裂!湖南法官判男方净身出户,转身娶了拿走全部家产的女方

麦大人
2025-11-28 20:18:30
广东一公园凌晨4点公放“恭喜发财”音乐,有市民在睡梦中被吵醒!公园:线路出现故障

广东一公园凌晨4点公放“恭喜发财”音乐,有市民在睡梦中被吵醒!公园:线路出现故障

广东吃喝玩乐
2026-02-12 12:06:24
立陶宛高层再表态:愿讨论更名,释放修复关系信号

立陶宛高层再表态:愿讨论更名,释放修复关系信号

一口娱乐
2026-02-13 01:07:03
立陶宛总理:考虑将“台湾代表处”更名为“台北代表处”

立陶宛总理:考虑将“台湾代表处”更名为“台北代表处”

扬子晚报
2026-02-12 11:04:17
体验完智谱刚刚发布的 GLM-5,我终于明白它为什么让硅谷猜破了头

体验完智谱刚刚发布的 GLM-5,我终于明白它为什么让硅谷猜破了头

爱范儿
2026-02-12 13:45:23
黑天鹅出现后,中方公布黄金存量,购金潮爆发,华盛顿有求于北京

黑天鹅出现后,中方公布黄金存量,购金潮爆发,华盛顿有求于北京

别人都叫我阿腈
2026-02-13 02:55:04
国际贵金属继续下挫 现货黄金跌超3%

国际贵金属继续下挫 现货黄金跌超3%

财联社
2026-02-13 00:20:05
黄一鸣直播喊话王思聪:孩子需要爸爸!网友却说她是“豪赌失败”

黄一鸣直播喊话王思聪:孩子需要爸爸!网友却说她是“豪赌失败”

未曾青梅
2026-02-11 23:54:24
刘青云夫妇洛阳度假,58岁郭蔼明穿破洞裤,不用带娃不愁钱像40岁

刘青云夫妇洛阳度假,58岁郭蔼明穿破洞裤,不用带娃不愁钱像40岁

八怪娱
2026-02-12 11:03:53
惊天逆转!俄罗斯拟重返美元体系,全球格局彻底改写

惊天逆转!俄罗斯拟重返美元体系,全球格局彻底改写

老马拉车莫少装
2026-02-13 03:19:04
官方:U17亚洲杯中国队分组出炉!

官方:U17亚洲杯中国队分组出炉!

五星体育
2026-02-12 17:32:54
直接摊牌了!国防部这次没留任何余地,直接把话挑明了

直接摊牌了!国防部这次没留任何余地,直接把话挑明了

安安说
2026-02-12 21:18:01
特朗普支持率暴跌,白宫发文恳求支持者不要失去信心:我们正在赢

特朗普支持率暴跌,白宫发文恳求支持者不要失去信心:我们正在赢

爱看剧的阿峰
2026-02-11 19:31:23
浙江破获首例“洗机”黑产案:核心技术人员均任职知名大厂

浙江破获首例“洗机”黑产案:核心技术人员均任职知名大厂

澎湃新闻
2026-02-12 20:40:27
北京市常务副市长:首都都市圈是目前我国唯一拥有两个直辖市的都市圈,具有独一无二的发展优势

北京市常务副市长:首都都市圈是目前我国唯一拥有两个直辖市的都市圈,具有独一无二的发展优势

红星新闻
2026-02-12 11:57:06
iOS 26.3正式版翻车:欧盟吃肉,国行喝汤,这次吃相真的太难看了

iOS 26.3正式版翻车:欧盟吃肉,国行喝汤,这次吃相真的太难看了

小8说科技
2026-02-12 14:54:02
超级工程,我国一旦全面完成,中国军队将处于世界顶峰

超级工程,我国一旦全面完成,中国军队将处于世界顶峰

米师傅安装
2026-02-13 01:38:34
心脏最怕“缺镁”!医生提醒:心脏不好的,可多吃这5种高镁食物

心脏最怕“缺镁”!医生提醒:心脏不好的,可多吃这5种高镁食物

九哥聊军事
2026-02-12 21:41:25
2026-02-13 04:20:49
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38432文章数 2600892关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

本地
数码
亲子
家居
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

数码要闻

英伟达App更新,搞定Optimus MUX显卡切换难题

亲子要闻

孩子最渴望听到父母说的五句话

家居要闻

本真栖居 爱暖伴流年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版