网易首页 > 网易号 > 正文 申请入驻

刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】整个硅谷又癫狂了!Anthropic深夜扔出王炸,Claude 4.6用近乎恐怖的编程能力和智能体军团,给OpenAI和谷歌上了一堂名为「降维打击」的课。

Anthropic深夜惊雷,终于祭出了编程之王!

刚刚,Claude Opus 4.6横空出世,一夜成为全球最强编程AI,「无模」能敌。

它在前一代Opus 4.5的基础上,大幅提升了编码技能。



Claude Opus 4.6的规划更缜密,能更持久地执行AI Agent任务,在超大规模代码库中运行也更加可靠。

最重要的是,它还具备更强自我纠错能力,比如精准的代码审查、调试。

它也是Anthropic首款在beta阶段,上下文支持100万token的Opus级模型


在多项基准测试中,Claude Opus 4.6编程实力几乎全方位领先,Gemini 3 Pro、GPT-5.2望尘莫及。




在ARC-AGI-2上,Opus 4.6拿下68.8%高分,超过GPT-5.2-xhigh

(左右滑动查看)

不仅如此,Opus 4.6一经上线,就开始革命办公了!

今天,这款新模型同时在Excel、PPT中的Claude,以及Claude Code、API中同步上线。

比如奥运长跑鞋供应链数据,和自己预测的不一样,好几个季度数据不能一眼过完,可以紧急向Opus 4.6求救。

它会遍历文件夹下所有Excel表,直接抓出差错的地方,还能同步绘制出折线图。


同样在PPT中,也能实时调用Opus 4.6了,从布局、字体到母板,Claude都能确保内容符合品牌规范。


从今天起,Claude Opus 4.6可以在Claude网页端、开发者平台,以及各大平台直接可上手。

硅谷今晚的火药味,恐怕要冲破屏幕了......

Opus 4.6发布后没几分钟,OpenAI紧急掏出GPT-5.3-Codex。



眼瞧着奥特曼发了预告,Anthropic立刻火速亮剑。只能说,起了个大早赶了个晚集


「编程新王」深夜炸场,革命全球打工人

Claude Opus 4.6的官宣,可以说是Anthropic一次重大转折。

负责人Alex Albert是这么说的,「Claude在2025颠覆了编程,在2026年将彻底重塑知识型工作」!


Opus 4.6绝不仅是一次简单的模型升级,而是AI真正成为人类「职场合伙人」的分水岭——

尤其是对于那些每天泡在表格、PPT和长文档里的打工人。正是这类工作,支撑起了金融和咨询等核心产业。

在真实的金融任务测试中,Opus 4.6比几个月前业界顶尖的Sonnet 4.5,足足提升了23%以上

在这个时代,「几个月前」听起来就像上个世纪。

而且这些测试一点都不抽象,全是实打实的硬活:建财务模型、做路演 PPT、搞并购分析。以前分析师得忙活好几周的工作,现在眨眼间就能完成。


在日常工作任务中,Opus 4.6将成为最强助力——

运行财务分析、进行深度研究,以及使用和创建Word、Excel、PPT,全都可以调用。

值得一提的是,据不完全统计,全球约有15亿人都在Office全家桶上办公,Opus 4.6正在引发一场深层的办公效率变革。

不仅如此,在Claude Cowork中,Opus 4.6可以直接成为「牛马」手替,完成以上一切复杂任务。

在输出质量上,Opus 4.6也有了质的飞跃。

以前的模型可能需要反复修改好几轮,甚至根本搞不定;但现在,第一版出来的东西往往就能直接用了。

  • Cowork让你丢进一整个文件夹就能同时启动多项分析;

  • Excel里的Claude 处理起多表财务模型来得心应手,绝不跑偏;

  • PowerPoint里的Claude,让你能直接在软件里生成和修改。

正如AI抹平了开发的门槛,它也将重塑每一位知识工作者的能力边界。

一场生产力的范式转移已箭在弦上,序幕才刚刚开启。


全面碾压Gemini 3、GPT-5.2

SOTA拿到手软

能够推动这种生产力范式的迁移,前提一定是,有一个实力全方位能打的模型。

Opus 4.6做到了!它在多项评估中的表现均达到了SOTA——

在智能体编程评估Terminal-Bench 2.0中,它拿下了65.4的高分;在HLE测试中,领跑所有其他前沿模型。



最重要的是,在GDPval-AA知识工作的性能评估中,Opus 4.6比GPT-5.2高出约144 Elo分,比上一代 Opus 4.5高出190分。


另外,Opus 4.6在智能体搜索BrowseComp基准上,表现完胜任何模型。


从更全面的基准PK中看,在智能体编程、计算机使用、工具使用、搜索和金融领域,Opus 4.6是业界领先的模型,优势更加明显。

在智能体工具使用t2-bench中,Opus 4.6拿下了近满分的成绩,零售91.9%,电信99.3%。


Opus 4.6在从海量文档中检索相关信息方面,表现得更好。

这种能力延伸到了长上下文任务中,它可以在数十万Token中保存和跟踪信息,且漂移更少,并且能捕捉到即使是Opus 4.5也会错过的深埋细节。

AI模型一个常见的痛点是「上下文衰减(context rot),即随着对话超过一定数量的Token,性能会下降。

Opus 4.6表现明显优于其前身:在MRCR v2的8-needle 1M变体(一种「大海捞针」基准测试)上,其得分为 76%,而Sonnet 4.5得分仅为18.5%。



这代表了模型在保持峰值性能的同时,实际可用上下文数量上的质的飞跃。

总而言之,Opus 4.6更擅长在长上下文中查找信息,更擅长在吸收该信息后进行推理,并且总体上具有明显更强的专家级推理能力。

下面的图表显示了, Claude Opus 4.6 在各种基准测试中的表现。

这些测试评估了其软件工程技能、多语言编程能力、长期一致性、网络安全能力及其生命科学知识。






左右滑动查看

Claude Code「智能体群」登场

一人指挥AI大军

更值得一提的是,Opus 4.6深度集成到了Claude Code中。

如今,在Claude Code中,开发者可以组建智能体团队(agent teams)来协同处理任务

也就是人们最近讨论最热的「智能体群」(Agent Swarms)。


Claude Code之父Boris Cherny警告,尚在实验阶段,可能会消耗大量token

从此以后,不再只是单个Claude孤军奋战、按部就班地处理任务。

如今,「主智能体」可以将任务分发给多个「Claude团队成员」。其他AI可以并行开展调研、调试和开发工作,并实时保持沟通协作。

这意味着,一个开发者可以带领Claude大军搞开发了。只要动动嘴描述一下想法,就能写出软件。


在官方文档介绍中,Anthropic将其称之为「多Claude Code会话团队编排」(Orchestrate teams)。

每次任务中,都会有一个领头人Claude在AI大军中挑起重担,负责统筹全局、分配任务并汇总最终结果。


可以使用Shift+Up/Down或tmux直接接管任何子智能体(subagent)

其他AI则在各自独立的上下文中各司其职,并且彼此之间可以直接沟通。

这与「子智能体」有所不同:子智能体运行在单一会话内,只能向主智能体汇报;

而对于「AI智能体团队」,开发者可以越过负责人直接与任何一个成员进行交互。



在下面demo中,可以看到在同一个界面中,多个Agent同步执行任务,让开发效率狂飙。

砸2万美金,16个Claude组团写10万行C编译器

这不,Anthropic打了个样,让Opus 4.6智能体群打造出一款C编译器,人类只「旁观」几乎不干预。

两周后,它成功在Linux内核中运行了!


实验中,团队让16个Claude Opus 4.6,在没有任何人类干预的情况下,并行协作开发代码。

为了测试这套系统的极限,给这群AI派了一个硬核任务——从零开始用Rust语言写一个C编译器,而且目标是必须能编译Linux内核。

16个Claude疯狂「加班」,消耗了近20亿个输入Token,总共烧掉了约2万美元的API成本。

实验过程非常有意思,Nicholas Carlini构建了一个自动循环系统,让Claude 完不成任务就不准「下班」。


这里只想mark下Dario Amodei这句话:未来6-12月,软件工程不再需要人类

为了防止AI们打架,他设计了一套基于Git任务锁机制,让不同的Claude负责不同的模块:

有的在解 Bug,有的在写文档,有的在优化代码质量,甚至还有专门负责「吐槽」架构并进行重构的。

最终结果令人震撼:这支AI战队真的撸出了一个10万行代码的编译器!

它不仅能成功编译Linux 6.9内核(支持x86、ARM和RISC-V架构),还能跑通《毁灭战士》(Doom)、PostgreSQL、Redis等复杂项目。

Claude创造Claude,学会深度思考

在Anthropic内部,团队用Claude来构建Claude。

工程师每天都使用Claude Code编写代码,每一款新模型都会首先在内部工作中进行测试。

对于Opus 4.6,团队发现可以在无需被告知的情况下,更加专注于任务中最具挑战性的部分,在较简单的部分快速推进,以更好的判断力处理模棱两可的问题,并在更长的会话中保持高效。

Opus 4.6经常会进行更深度的思考,并在确定答案之前更仔细地重新审视其推理过程。

这在处理较难的问题时会产生更好的结果,但在较简单的问题上可能会增加成本和延迟。

如果发现模型在某个特定任务上「想太多」,建议将 Effort(思考力度)从默认设置(高)调低至中等。







左右滑动查看

加入百万token上下文革命

在API上,Claude可以用「上下文压缩」来总结其上下文,从而在不触及限制的情况下,执行运行时间更长的任务。

团队还引入了「自适应思考」(adaptive thinking)——模型可以根据上下文线索感知何时需要使用扩展思考;

以及,全新的Effort(思考力度)控制,让开发者对智能、速度和成本拥有更多掌控权。

在API定价方面,Claude Opus 4.6输入价格5美元/百万token,输出价格25美元/百万token。


此外,Opus 4.6是首款支持100万Token上下文的Opus级别模型。

对于超过200k Token的提示词,将按高级费率计费(每百万输入/输出 Token分别为10美元/37.5美元)。


另外,Opus 4.6支持高达128k Token的输出,这让Claude无需将任务分解为多个请求即可完成更大输出量的任务。

对于需要在美运行的工作负载,可以使用仅限美国推理(US-only inference),价格为Token定价的1.1倍。

更安全,更听话

智能的提升并非以牺牲安全性为代价。

在自动化行为审计中,Opus 4.6表现出较低的未对齐行为(misaligned behaviors)发生率,如欺骗、阿谀奉承(sycophancy)、助长用户妄想以及配合滥用。

总体而言,它与我们迄今为止最对齐的前沿模型Opus 4.5一样对齐良好。

Opus 4.6还显示出在任何最近的Claude模型中最低的过度拒绝(over-refusals)率——即模型拒绝回答良性查询的情况。


最后,用Anthropic负责人Alex Albert一句话总结Claude Opus 4.6的这场发布——

2025年是AI编程走向普及的元年,而2026年,AI将在编程之外的所有领域全面爆发。


参考资料:

https://www.anthropic.com/news/claude-opus-4-6

https://x.com/claudeai/status/2019467372609040752


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

陈意小可爱
2026-03-26 14:09:51
卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

另子维爱读史
2026-01-26 20:08:00
“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

新京报
2026-03-25 13:18:07
跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

懂球帝
2026-03-26 13:21:12
杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

懂球帝
2026-03-26 12:27:11
为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

鉴史录
2026-03-25 18:19:06
提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

美食格物
2026-03-14 01:05:06
马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

手工制作阿歼
2026-03-26 14:04:28
192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

菲儿爱蛋糕
2026-03-26 13:09:00
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:34:46
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

北青网-北京青年报
2026-03-26 13:55:05
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

海峡导报社
2026-03-25 08:17:03
马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

璀璨幻行者
2026-01-31 18:59:25
原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

奇思妙想草叶君
2026-03-26 14:01:49
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

另子维爱读史
2026-03-25 21:27:45
2026-03-26 14:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
游戏
时尚
旅游
手机

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

2026年了,最好看的还是“这件针织”!

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

无障碍浏览 进入关怀版