网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天

2026-02-06 07:19:30　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子好困

【新智元导读】整个硅谷又癫狂了！Anthropic深夜扔出王炸，Claude 4.6用近乎恐怖的编程能力和智能体军团，给OpenAI和谷歌上了一堂名为「降维打击」的课。

Anthropic深夜惊雷，终于祭出了编程之王！

刚刚，Claude Opus 4.6横空出世，一夜成为全球最强编程AI，「无模」能敌。

它在前一代Opus 4.5的基础上，大幅提升了编码技能。

Claude Opus 4.6的规划更缜密，能更持久地执行AI Agent任务，在超大规模代码库中运行也更加可靠。

最重要的是，它还具备更强自我纠错能力，比如精准的代码审查、调试。

它也是Anthropic首款在beta阶段，上下文支持100万token的Opus级模型。

在多项基准测试中，Claude Opus 4.6编程实力几乎全方位领先，Gemini 3 Pro、GPT-5.2望尘莫及。

在ARC-AGI-2上，Opus 4.6拿下68.8%高分，超过GPT-5.2-xhigh

（左右滑动查看）

不仅如此，Opus 4.6一经上线，就开始革命办公了！

今天，这款新模型同时在Excel、PPT中的Claude，以及Claude Code、API中同步上线。

比如奥运长跑鞋供应链数据，和自己预测的不一样，好几个季度数据不能一眼过完，可以紧急向Opus 4.6求救。

它会遍历文件夹下所有Excel表，直接抓出差错的地方，还能同步绘制出折线图。

同样在PPT中，也能实时调用Opus 4.6了，从布局、字体到母板，Claude都能确保内容符合品牌规范。

从今天起，Claude Opus 4.6可以在Claude网页端、开发者平台，以及各大平台直接可上手。

硅谷今晚的火药味，恐怕要冲破屏幕了......

Opus 4.6发布后没几分钟，OpenAI紧急掏出GPT-5.3-Codex。

眼瞧着奥特曼发了预告，Anthropic立刻火速亮剑。只能说，起了个大早赶了个晚集

「编程新王」深夜炸场，革命全球打工人

Claude Opus 4.6的官宣，可以说是Anthropic一次重大转折。

负责人Alex Albert是这么说的，「Claude在2025颠覆了编程，在2026年将彻底重塑知识型工作」！

Opus 4.6绝不仅是一次简单的模型升级，而是AI真正成为人类「职场合伙人」的分水岭——

尤其是对于那些每天泡在表格、PPT和长文档里的打工人。正是这类工作，支撑起了金融和咨询等核心产业。

在真实的金融任务测试中，Opus 4.6比几个月前业界顶尖的Sonnet 4.5，足足提升了23%以上。

在这个时代，「几个月前」听起来就像上个世纪。

而且这些测试一点都不抽象，全是实打实的硬活：建财务模型、做路演 PPT、搞并购分析。以前分析师得忙活好几周的工作，现在眨眼间就能完成。

在日常工作任务中，Opus 4.6将成为最强助力——

运行财务分析、进行深度研究，以及使用和创建Word、Excel、PPT，全都可以调用。

值得一提的是，据不完全统计，全球约有15亿人都在Office全家桶上办公，Opus 4.6正在引发一场深层的办公效率变革。

不仅如此，在Claude Cowork中，Opus 4.6可以直接成为「牛马」手替，完成以上一切复杂任务。

在输出质量上，Opus 4.6也有了质的飞跃。

以前的模型可能需要反复修改好几轮，甚至根本搞不定；但现在，第一版出来的东西往往就能直接用了。

Cowork让你丢进一整个文件夹就能同时启动多项分析；
Excel里的Claude 处理起多表财务模型来得心应手，绝不跑偏；
PowerPoint里的Claude，让你能直接在软件里生成和修改。

正如AI抹平了开发的门槛，它也将重塑每一位知识工作者的能力边界。

一场生产力的范式转移已箭在弦上，序幕才刚刚开启。

全面碾压Gemini 3、GPT-5.2

SOTA拿到手软

能够推动这种生产力范式的迁移，前提一定是，有一个实力全方位能打的模型。

Opus 4.6做到了！它在多项评估中的表现均达到了SOTA——

在智能体编程评估Terminal-Bench 2.0中，它拿下了65.4的高分；在HLE测试中，领跑所有其他前沿模型。

最重要的是，在GDPval-AA知识工作的性能评估中，Opus 4.6比GPT-5.2高出约144 Elo分，比上一代 Opus 4.5高出190分。

另外，Opus 4.6在智能体搜索BrowseComp基准上，表现完胜任何模型。

从更全面的基准PK中看，在智能体编程、计算机使用、工具使用、搜索和金融领域，Opus 4.6是业界领先的模型，优势更加明显。

在智能体工具使用t2-bench中，Opus 4.6拿下了近满分的成绩，零售91.9%，电信99.3%。

Opus 4.6在从海量文档中检索相关信息方面，表现得更好。

这种能力延伸到了长上下文任务中，它可以在数十万Token中保存和跟踪信息，且漂移更少，并且能捕捉到即使是Opus 4.5也会错过的深埋细节。

AI模型一个常见的痛点是「上下文衰减」（context rot），即随着对话超过一定数量的Token，性能会下降。

Opus 4.6表现明显优于其前身：在MRCR v2的8-needle 1M变体（一种「大海捞针」基准测试）上，其得分为 76%，而Sonnet 4.5得分仅为18.5%。

这代表了模型在保持峰值性能的同时，实际可用上下文数量上的质的飞跃。

总而言之，Opus 4.6更擅长在长上下文中查找信息，更擅长在吸收该信息后进行推理，并且总体上具有明显更强的专家级推理能力。

下面的图表显示了， Claude Opus 4.6 在各种基准测试中的表现。

这些测试评估了其软件工程技能、多语言编程能力、长期一致性、网络安全能力及其生命科学知识。

左右滑动查看

Claude Code「智能体群」登场

一人指挥AI大军

更值得一提的是，Opus 4.6深度集成到了Claude Code中。

如今，在Claude Code中，开发者可以组建智能体团队（agent teams）来协同处理任务。

也就是人们最近讨论最热的「智能体群」（Agent Swarms）。

Claude Code之父Boris Cherny警告，尚在实验阶段，可能会消耗大量token

从此以后，不再只是单个Claude孤军奋战、按部就班地处理任务。

如今，「主智能体」可以将任务分发给多个「Claude团队成员」。其他AI可以并行开展调研、调试和开发工作，并实时保持沟通协作。

这意味着，一个开发者可以带领Claude大军搞开发了。只要动动嘴描述一下想法，就能写出软件。

在官方文档介绍中，Anthropic将其称之为「多Claude Code会话团队编排」（Orchestrate teams）。

每次任务中，都会有一个领头人Claude在AI大军中挑起重担，负责统筹全局、分配任务并汇总最终结果。

可以使用Shift+Up/Down或tmux直接接管任何子智能体（subagent）

其他AI则在各自独立的上下文中各司其职，并且彼此之间可以直接沟通。

这与「子智能体」有所不同：子智能体运行在单一会话内，只能向主智能体汇报；

而对于「AI智能体团队」，开发者可以越过负责人直接与任何一个成员进行交互。

在下面demo中，可以看到在同一个界面中，多个Agent同步执行任务，让开发效率狂飙。

砸2万美金，16个Claude组团写10万行C编译器

这不，Anthropic打了个样，让Opus 4.6智能体群打造出一款C编译器，人类只「旁观」几乎不干预。

两周后，它成功在Linux内核中运行了！

实验中，团队让16个Claude Opus 4.6，在没有任何人类干预的情况下，并行协作开发代码。

为了测试这套系统的极限，给这群AI派了一个硬核任务——从零开始用Rust语言写一个C编译器，而且目标是必须能编译Linux内核。

16个Claude疯狂「加班」，消耗了近20亿个输入Token，总共烧掉了约2万美元的API成本。

实验过程非常有意思，Nicholas Carlini构建了一个自动循环系统，让Claude 完不成任务就不准「下班」。

这里只想mark下Dario Amodei这句话：未来6-12月，软件工程不再需要人类

为了防止AI们打架，他设计了一套基于Git任务锁机制，让不同的Claude负责不同的模块：

有的在解 Bug，有的在写文档，有的在优化代码质量，甚至还有专门负责「吐槽」架构并进行重构的。

最终结果令人震撼：这支AI战队真的撸出了一个10万行代码的编译器！

它不仅能成功编译Linux 6.9内核（支持x86、ARM和RISC-V架构），还能跑通《毁灭战士》（Doom）、PostgreSQL、Redis等复杂项目。

Claude创造Claude，学会深度思考

在Anthropic内部，团队用Claude来构建Claude。

工程师每天都使用Claude Code编写代码，每一款新模型都会首先在内部工作中进行测试。

对于Opus 4.6，团队发现可以在无需被告知的情况下，更加专注于任务中最具挑战性的部分，在较简单的部分快速推进，以更好的判断力处理模棱两可的问题，并在更长的会话中保持高效。

Opus 4.6经常会进行更深度的思考，并在确定答案之前更仔细地重新审视其推理过程。

这在处理较难的问题时会产生更好的结果，但在较简单的问题上可能会增加成本和延迟。

如果发现模型在某个特定任务上「想太多」，建议将 Effort（思考力度）从默认设置（高）调低至中等。

左右滑动查看

加入百万token上下文革命

在API上，Claude可以用「上下文压缩」来总结其上下文，从而在不触及限制的情况下，执行运行时间更长的任务。

团队还引入了「自适应思考」（adaptive thinking）——模型可以根据上下文线索感知何时需要使用扩展思考；

以及，全新的Effort（思考力度）控制，让开发者对智能、速度和成本拥有更多掌控权。

在API定价方面，Claude Opus 4.6输入价格5美元/百万token，输出价格25美元/百万token。

此外，Opus 4.6是首款支持100万Token上下文的Opus级别模型。

对于超过200k Token的提示词，将按高级费率计费（每百万输入/输出 Token分别为10美元/37.5美元）。

另外，Opus 4.6支持高达128k Token的输出，这让Claude无需将任务分解为多个请求即可完成更大输出量的任务。

对于需要在美运行的工作负载，可以使用仅限美国推理（US-only inference），价格为Token定价的1.1倍。

更安全，更听话

智能的提升并非以牺牲安全性为代价。

在自动化行为审计中，Opus 4.6表现出较低的未对齐行为（misaligned behaviors）发生率，如欺骗、阿谀奉承（sycophancy）、助长用户妄想以及配合滥用。

总体而言，它与我们迄今为止最对齐的前沿模型Opus 4.5一样对齐良好。

Opus 4.6还显示出在任何最近的Claude模型中最低的过度拒绝（over-refusals）率——即模型拒绝回答良性查询的情况。

最后，用Anthropic负责人Alex Albert一句话总结Claude Opus 4.6的这场发布——

2025年是AI编程走向普及的元年，而2026年，AI将在编程之外的所有领域全面爆发。

参考资料：

https://www.anthropic.com/news/claude-opus-4-6

https://x.com/claudeai/status/2019467372609040752

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Claude Fable 5省钱秘诀来了：调成Low档比Opus更便宜

量子位 2026-06-11 16:23:55
0 跟贴 0
AI 大厂集体转向，大模型迎来“杰文斯时刻”

钛媒体APP 2026-07-15 13:02:08
0 跟贴 0

刚刚，Claude设计「大脑」走了！马斯克再下一城

新智元 2026-07-14 22:02:02
6 跟贴 6

大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
这个省token的邪修大法直接砍掉Fable 5七成账单

量子位 2026-07-08 15:17:55
0 跟贴 0

机器人也开始修炼「见闻色」，星尘智能发布具身基座模型 Lumo-2，让动作更快更准了

爱范儿 2026-07-15 16:04:45
0 跟贴 0

Agent-World：扩展真实世界环境，让智能体与环境协同进化！

机器之心Pro 2026-05-06 12:40:24
0 跟贴 0
超越OpenAI，中国00后团队攻破「记忆」难题！打造下一个AI互联网时刻

新智元 2026-07-15 13:59:09
0 跟贴 0

ISSTA 2026｜LAVE：面向扩散语言模型的约束解码

机器之心Pro 2026-07-15 14:35:24
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
越过湖畔，AI在阳澄湖半岛「跑进」真实生活

36氪 2026-07-15 16:36:25
0 跟贴 0
编程已死，键盘长草！Claude Code之父对谈Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
102 跟贴 102
微软是如何穿越30年周期的

钛媒体APP 2026-04-18 20:29:35
2 跟贴 2
Claude Opus 5凌晨曝光！

新智元 2026-07-15 08:58:37
4 跟贴 4
全球数学青少年英才齐聚上海第67届国际数学奥林匹克（IMO）开幕

上观新闻 2026-07-15 14:39:28
0 跟贴 0
第二届中国手机摄影大展截稿倒计时！奖金超9万元！更有vivo旗舰产品全家桶等你来拿！

摄影笔记 2026-07-15 08:43:06
0 跟贴 0
用了Photoshop多年，才懂这3个被冷落的神操作

灰度测试中 2026-07-13 00:37:35
0 跟贴 0
断腿三十年，他把人生踢成了一场加时赛

带你逛体坛 2026-07-15 16:36:23
0 跟贴 0
网友拍到棕头鸦雀投喂杜鹃，面对比自己还大的“宝宝”丝毫没觉得不对

南阳日报 2026-07-14 18:37:10
550 跟贴 550
乌军公布视频：无人艇抢滩登陆成功，机器人自主下船登上俄控海岸

红星新闻 2026-07-14 18:58:17
14856 跟贴 14856
PIVOTBY虽好，但条件格式短板让我重回透视表

摸鱼算法 2026-07-13 01:28:57
0 跟贴 0
Excel透视表实战：几分钟让数千行数据开口说话

Ping值焦虑 2026-07-15 03:25:19
0 跟贴 0
excel带星号的表达式如何计算？

部落窝教育 2026-07-12 07:00:00
0 跟贴 0
excel利用PQ进行数据拆分整理

部落窝教育 2026-07-14 07:00:00
0 跟贴 0
大神开源傻瓜式Loop教程，一行命令开启AI自循环

量子位 2026-07-15 01:07:37
0 跟贴 0
亚马尔"九擒"姆巴佩 1.5亿奥利塞20次丢失球权0过人

澎湃新闻 2026-07-15 11:28:35
3337 跟贴 3337
软件大战突破极限

刀爷讲棋 2026-07-12 01:39:35
6 跟贴 6
千万别以为树叶小鸟是模型，夜里集体入眠，饲养人一次性全部收笼

超话看世界 2026-07-13 12:45:51
1 跟贴 1
全红婵夺冠后不敢笑！巴黎奥运领奖台两届金牌都我拿是不是不对

两个脑花 2026-07-13 02:36:40
1 跟贴 1
苹果全家桶新功能，小修小补但还挺好用【X.PIN】

差评XPIN 2026-07-11 00:51:25
0 跟贴 0
“消失”的人工客服，一个电话就能解决的事，为何把人逼到“走投无路”？

都市快报橙柿互动 2026-07-15 00:20:32
1047 跟贴 1047
温州“明珠七号”邮轮突然大幅倾斜，超2亿元打造却闲置14年；涉事公司回应：相关部门迅速到场开展处置工作，详细原因正进一步调查中

荔枝新闻 2026-07-15 11:13:02
2003 跟贴 2003
豆包手机撞墙半年后，阶跃、荣耀为何接着“头铁”？

钛媒体APP 2026-07-15 12:40:18
0 跟贴 0
计算机学生必做的7个AI项目

薛定谔的BUG 2026-07-15 05:16:03
0 跟贴 0
张雪称无人驾驶摩托车车主已找到

潇湘晨报 2026-07-15 10:56:53
3123 跟贴 3123
卡了半年的弦论难题，Claude一夜解开！东大教授惊到删推

新智元 2026-07-14 22:01:41
102 跟贴 102
发行价8.66元，长鑫科技打新中一签能赚多少？

界面新闻 2026-07-15 12:49:23
7 跟贴 7
北京一副局长自费购买10亿个token，花1个月自主编程! 手搓防汛 APP，可实时查看山体预警、群众转移状态等

究竟视频 2026-07-14 11:50:41
0 跟贴 0
新疆：坚决拥护党中央对马兴瑞的处理决定

澎湃新闻 2026-07-15 09:59:07
21 跟贴 21

母亲是知名作家，老师是文坛泰斗，36岁的蒋方舟却给他们丢了大脸

母亲是知名作家，老师是文坛泰斗，36岁的蒋方舟却给他们丢了大脸

周哥一影视

2026-07-14 19:53:22

抓到检方程序把柄！总统姐姐法庭上怒砸检方传票，萨拉死里逃生？

抓到检方程序把柄！总统姐姐法庭上怒砸检方传票，萨拉死里逃生？

阅微札记

2026-07-15 14:21:23

法国队为何又倒在西班脚下？姆巴佩红牌背后的心理溃败赛前所有人都说，这是法国队的“救赎之战”

法国队为何又倒在西班脚下？姆巴佩红牌背后的心理溃败赛前所有人都说，这是法国队的“救赎之战”

带你逛体坛

2026-07-15 15:53:15

斯诺克首冠明日诞生！亚洲球员雄起，占据半数8强，新王或登基？

斯诺克首冠明日诞生！亚洲球员雄起，占据半数8强，新王或登基？

刘姚尧的文字城堡

2026-07-15 06:56:30

内蒙古乌兰察布市一在建项目2名工人不慎掉入冷凝水箱溺亡

内蒙古乌兰察布市一在建项目2名工人不慎掉入冷凝水箱溺亡

澎湃新闻

2026-07-15 13:18:03

爆冷！广东男篮杜锋离任，全队最大争议曝光，球迷彻底破防

爆冷！广东男篮杜锋离任，全队最大争议曝光，球迷彻底破防

野渡舟山人

2026-07-15 11:04:41

自食恶果！一心想要“毁了”宗馥莉，最后自己反而被扒得底裤朝天

自食恶果！一心想要“毁了”宗馥莉，最后自己反而被扒得底裤朝天

生活新鲜市

2026-07-15 13:58:04

0-2出局后，法国主帅怒喷裁判，齐达内将接任，姆巴佩金球奖梦碎

0-2出局后，法国主帅怒喷裁判，齐达内将接任，姆巴佩金球奖梦碎

侃球熊弟

2026-07-15 06:22:57

两性关系:不管你信不信，女性过了70岁后，基本都有以下这7个现状

两性关系:不管你信不信，女性过了70岁后，基本都有以下这7个现状

来去自如的小章

2026-07-15 15:41:58

朱可夫晚年道出实情：1951苏械援华，不止帮志愿军，另有隐秘目的

朱可夫晚年道出实情：1951苏械援华，不止帮志愿军，另有隐秘目的

小莜读史

2026-07-14 12:18:06

果然被我说中，英伟达开始动手了！

果然被我说中，英伟达开始动手了！

有态度的何总

2026-07-15 11:09:55

伊朗宣布封海，不到24小时，中防表态，措辞不寻常

伊朗宣布封海，不到24小时，中防表态，措辞不寻常

流史岁月

2026-07-15 16:00:08

人活多久，看小便就能知道？寿命长的人，小便一般会有这5个特征

人活多久，看小便就能知道？寿命长的人，小便一般会有这5个特征

华庭讲美食

2026-07-06 01:12:12

帕丽斯·希尔顿深棕长发带娃出游，金发标志说换就换

帕丽斯·希尔顿深棕长发带娃出游，金发标志说换就换

生活观察员啊

2026-07-14 01:18:25

西班牙世界杯隐形功臣！伊布盛赞全场无处不在，瓜帅预言彻底应验

西班牙世界杯隐形功臣！伊布盛赞全场无处不在，瓜帅预言彻底应验

澜归序

2026-07-15 06:45:57

法国0-2西班牙！5个没想到：亚马尔说到做到奥利塞拉胯姆巴佩哑

法国0-2西班牙！5个没想到：亚马尔说到做到奥利塞拉胯姆巴佩哑

郝小小看体育

2026-07-15 05:53:30

回婆家过节，被弟媳安排住宾馆，嫂子大发雷霆：这套房是我买的

回婆家过节，被弟媳安排住宾馆，嫂子大发雷霆：这套房是我买的

广西秦胖胖

2026-07-14 15:14:30

刘姥姥为何一眼看出宝钗是鬼？蘅芜苑外的残荷与荇菜：伏黛玉之死!

刘姥姥为何一眼看出宝钗是鬼？蘅芜苑外的残荷与荇菜：伏黛玉之死!

品点历史

2026-07-15 10:55:16

消费者称在乐事薯片中吃出“蓝色薯片”，品牌方回应：已与消费者取得联系，希望可以取回产品进行内部核查

消费者称在乐事薯片中吃出“蓝色薯片”，品牌方回应：已与消费者取得联系，希望可以取回产品进行内部核查

山西晚报

2026-07-14 11:26:47

推广视频设计偷窥女性剧情引众怒，周兆成：广告不能拿侵犯隐私博流量

推广视频设计偷窥女性剧情引众怒，周兆成：广告不能拿侵犯隐私博流量

周兆成律师

2026-07-15 16:16:21

AI产业主平台领航智能+时代

15697文章数 66955关注度

往期回顾全部

科技要闻

估值4800亿！传DeepSeek再融资，明年IPO

头条要闻

岳父在芝麻酱下毒毒死女婿所购剂量能毒死上千人

头条要闻

岳父在芝麻酱下毒毒死女婿所购剂量能毒死上千人

体育要闻

世界杯两大巨星，加一起22岁

娱乐要闻

大S遗嘱曝光！S家拒不承认

财经要闻

上半年GDP同比增长4.7% 新动能快速成长

汽车要闻

10组真风道+4激光+百变空间岚图追光S这是要上谁的桌?

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

数码

公开课

军事航空

本地新闻

打的直达拉萨，一条视频拿下五十万奖金

教育要闻

暑期反诈提示：这些套路专挑学生下手！

数码要闻

漫步者推出R1000TC II音响，399元

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

美军称已恢复对伊朗的海上封锁

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版