网易首页 > 网易号 > 正文 申请入驻

Claude新模型4.6让更多饭碗没了:华尔街财务、编译器、安全白帽

0
分享至

衡宇 梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

一睁眼,Anthropic上新模型,让Claude Opus 4.6来给您拜!年!了!

消息一出,金融数据服务商FactSet最惨盘中暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。



这已经是Anthropic你小子本周第二次搅动市场了

几天前,它旗下一款自动化法律工作的插件悄悄上线,直接引爆了万亿美元级别的软件股暴跌。

投资者的恐慌聚焦在一个问题:谁能保证几年内不被AI颠覆?不能就抛售。

想不到今天的Anthropic更狠。

今天以前,大家对Claude的印象,就是编程能力断档性的强。

Claude Opus 4.6冷笑一声,梆梆一拳打破这个印象:俺在更多的领域都很强!

至少就官方说法而言,财务分析、研究,以及Office三件套,Claude Opus 4.6都可以玩儿得贼溜。



官网直接写到:

  • 在GDPval-AA(一项评估金融、法律和其他领域经济价值知识工作任务的性能指标)上,Opus 4.6比行业下一最佳模型OpenAI GPT-5.2高出144个Elo哟

(这意味着Claude Opus 4.6在大约70%的情况下在这个评估中获得比GPT-5.2更高的分数,50%的情况下意味着分数相当)



当然,编程这块它依旧独领风骚。

在Agent编程评估Terminal-Bench 2.0中取得了最高分,并在“人类最后考试”中领先所有其他前沿模型。



好消息是加量不加价,Opus 4.6的定价保持原有标准:每百万token输入/输出,价格是5美元/25美元

(为了方便阅读,以下简称新模型为Opus 4.6)

带着 1M 上下文和自适应思考杀回巅峰

Opus 4.6最直观的进步就是有了1M Token超大上下文,这是Claude首次在Opus级别模型中引入这个长度的上下文窗口。



这极大改善了Opus 4.6在处理长文本时会出现的“上下文衰减”情况。

在MRCR v2 8-needle 1M基准测试——大海捞针——中,Opus 4.6得分76%,而Claude Sonnet 4.5只有18.5%。

伴随而来的结果是搜索能力的提升。

在BrowseComp评测(评估在线检索难获取信息的能力)中,Opus 4.6排名行业第一,深度多步骤代理式搜索表现最佳,能精准定位分散在长文档中的关键信息。



Opus 4.6还引入了自适应思考(Adaptive Thinking)功能。

以前,使用Claude模型的开发者只能二选一,扩展思考模式要么开,要么关。

现在,Claude可以自己判断什么时候需要深度推理。

(讲真,这一步比ChatGPT慢了哈,下次请搞快点上这种好功能)

配套的effort参数提供四档选择——low、medium、high、max——,默认high,遇到模型过度思考的情况可以手动调低。

另一个实用功能是上下文压缩(Context Compaction)。

当对话接近上下文窗口上限时自动摘要并替换旧内容,让长对话和Agent任务更轻松。



编码、知识工作、搜索、推理等核心场景,杀爆了

官方博客显示,Opus 4.6一出,几乎无模型能与其争锋。

在编码、知识工作、搜索、推理等核心场景,Opus 4.6有显著突破

多项评测成绩超越前代及行业竞品,be like:



看完有了个大概印象,我们再一个一个掰开说。

首先是编程能力。

Opus 4.6在Terminal-Bench 2.0中拿到了最高分。

从成绩背后的实际能力来看,Opus 4.6能更周密地进行任务规划,可在大型代码库中稳定运行,代码审查与调试精度提升。

而且能自主发现自身错误。



另一点是Opus 4.6支持多语言编码,能处理跨语言软件工程问题。

它能像高级工程师一样完成数百万行代码库迁移,且用时实打实少一半那种。

写到这里的时候,我不禁在想:

工程师们看到这个消息到底是高兴得头发都不掉了,还是会掉更快呢……(陷入沉思.jpg)

其次,Opus 4.6也在积极入侵传统办公领地。

这次它对Office三件套狠狠出手了。

  • 能直接在Excel里摄入凌乱的非结构化数据,自行推断合理的表格结构,一次操作中可处理多个复杂步骤;
  • 能铭记你公司的PPT模板,包括字体和布局风格也记住,确保生成的PPT没啥AI味,让老板以为是你熬夜框框一顿做的。



在Cowork环境下,Opus 4.6可以代表用户自主多任务运行,一边跑财务分析,一边把研究成果整理成文档

感觉,Anthropic有点想把Claude从聊天框里拉到更多空间里的意思?

第三,我们来说说它在推理能力上的进步

先上个总结:

  • Opus 4.6在跨领域推理上,更强了。

在多学科复杂推理测试 “人类最后的考试” 中,Opus领先所有前沿模型。

在法律领域,Opus 4.6在40%为满分的BigLaw Bench上,得分90.2%。

在金融、法律等经济价值导向任务评测GDPval-AA 中,Opus 4.6以144 Elo超越“行业竞品”OpenAI GPT-5.2。

无论是复杂的法律、金融专业知识还是刁钻的学术研究,它的推理理解深度都达到了目前frontier models的顶峰。

难得的是,这种智力的飞跃并没有以牺牲安全性为代价

在Anthropic最看重的自动化行为审计中,Opus 4.6的对齐水平极高,同时,欺骗、奉承等负面行为极低

Opus 4.6甚至解决了目前AI圈普遍头疼的“过度拒绝”问题——

在面对正常的、无害的请求时,它比以往任何模型都更少地表现出那种死板的拒绝。




目前,Opus 4,6已经在官网、API和所有主流云平台上线。

加量不加价,Opus 4.6的定价保持原有标准:每百万token输入/输出,价格是5美元/25美元

不过在10M token上下文测试版本中,提示词超过200k token的话会有额外付费。

划!重!点!

想要使用Opus 4.6的话,需要在调用API的时候明确制定模型标识 “Claude-opus-4-6”。

更多饭碗没了

16个Agent两周写完C编译器,运行毁灭战士

Opus 4.6带来的一项核心能力升级是Agent Teams,即多个Claude实例并行协作,无需人类实时监督。

Anthropic安全团队的研究员Nicholas Carlini拿它做了个压力测试:让16个Agent从零开始用Rust写一个能编译Linux内核的C编译器。

两周时间,近2000次Claude Code会话,烧掉20亿输入Token和1.4亿输出Token,总成本不到2万美元。

最终产出是一个10万行的编译器,能在x86、ARM和RISC-V三个架构上编译Linux 6.9,还能跑Doom。

这套并行机制让每个Agent跑在独立的Docker容器里,共享一个git仓库。

为了防止多个Agent撞车,都屁颠屁颠跑去解决同一个问题,系统用了一个简单的锁机制。

Agent通过往current_tasks/目录写文件来”认领”任务,git的同步机制自动处理冲突。Agent之间没有专门的通信协议,也没有编排Agent,每个Claude自己决定下一步干什么。

Carlini在博客里写道:

“当Agent开始编译Linux内核时曾一度卡住,因为这是一个巨型单体任务,16个Agent全撞在同一个bug上互相覆盖。”

解法是引入GCC作为”oracle”对照组,让每个Agent只编译内核的随机子集,通过二分法定位问题文件,这样并行能力才真正发挥出来。

500个零日漏洞,开箱即挖

Opus 4.6在网络安全领域的表现让Anthropic自己都有点意外。

在发布前的测试中,Anthropic的前沿红队把Opus 4.6扔进一个沙箱环境,给它Python和常规漏洞分析工具(fuzzer、debugger那些),没有任何专门指令或领域知识,让它自己去找开源代码里的漏洞。

结果它挖出了超过500个此前未知的高危零日漏洞

每一个都经过了Anthropic团队成员或外部安全研究员的验证的哦。



具体案例包括:

  • 在GhostScript(一个处理PDF和PostScript文件的常用工具)中发现了一个可导致崩溃的漏洞,而且是在传统fuzzing和人工分析都没找到问题之后,Claude自己翻了项目的git提交历史才挖出来的;
  • 在OpenSC(处理智能卡数据的工具)和CGIF(处理GIF文件的工具)中发现了缓冲区溢出漏洞;在CGIF那个案例里,Claude甚至主动写了PoC(概念验证代码)来证明漏洞真实存在。

Anthropic前沿红队负责人Logan Graham说,如果这成为未来开源软件安全审计的主要方式之一,他一点也不惊讶。

不过Anthropic也承认,这种能力可能被滥用。

为此,团队加了六套新的网络安全探测机制,未来可能会上线实时拦截系统来阻止恶意流量。

One More Thing

官网显示,Anhtropic现在已经是“用Claude构建Claude”。

自家工程师每天都在用Claude Code编写代码,每个新模型首先都在自己的工作环境中进行测试。



参考链接:
[1]https://www.anthropic.com/news/Claude-opus-4-6
[2]https://www.anthropic.com/engineering/building-c-compiler
[3]https://x.com/i/trending/2019496145987232014
[4]https://www.axios.com/2026/02/05/anthropic-Claude-opus-46-software-hunting
[5]https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/
[6]https://www.reddit.com/r/singularity/comments/1qwrrn7/Claude_opus_46_is_out/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高志凯:拜登是美国最卑鄙、最无耻的总统!在位四年煽动多国战争

高志凯:拜登是美国最卑鄙、最无耻的总统!在位四年煽动多国战争

扶苏聊历史
2025-12-26 09:53:52
乌克兰女性的战后悲剧:连一个靠谱男人都找不到!

乌克兰女性的战后悲剧:连一个靠谱男人都找不到!

特约前排观众
2026-02-07 00:05:10
临沂女子付4980元买500双鞋仅收90余双且货不对板 涉事商家销号失联

临沂女子付4980元买500双鞋仅收90余双且货不对板 涉事商家销号失联

信网
2026-02-05 11:10:17
决战今夜!2月6日晚23:20!中央5套CCTV5、CCTV5+直播节目表

决战今夜!2月6日晚23:20!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-02-06 12:21:24
停车纠纷酿悲剧!江西乐平烧烤店老板冲突中身亡,警方介入调查

停车纠纷酿悲剧!江西乐平烧烤店老板冲突中身亡,警方介入调查

行者聊官
2026-02-05 22:22:34
千穿万穿,马屁不穿!网友这些令人拍案叫绝的临场反应,绝了

千穿万穿,马屁不穿!网友这些令人拍案叫绝的临场反应,绝了

另子维爱读史
2026-02-04 23:32:28
终于承认基因有男性染色体,性别争议拳手哈利夫:我不是跨性别者

终于承认基因有男性染色体,性别争议拳手哈利夫:我不是跨性别者

体育妞世界
2026-02-06 09:53:55
四川一校花太漂亮了,身高170五官精致,美得让人移不开眼

四川一校花太漂亮了,身高170五官精致,美得让人移不开眼

情感大头说说
2026-02-05 15:22:48
2026春运怪象:火车站空了?农民工“消失”的返乡潮去了哪!

2026春运怪象:火车站空了?农民工“消失”的返乡潮去了哪!

三农雷哥
2026-02-06 17:25:17
立春过后,气运彻底翻盘,贵人财运扎堆靠近的三个星座

立春过后,气运彻底翻盘,贵人财运扎堆靠近的三个星座

小晴星座说
2026-02-05 18:57:21
上海动真格!3月起住院无需家属陪护,但有一笔钱得说清楚了!

上海动真格!3月起住院无需家属陪护,但有一笔钱得说清楚了!

娱乐洞察点点
2026-02-06 20:45:04
大结局要来了!30枚导弹击中,43架大轰在远东集结,普京不想拖了

大结局要来了!30枚导弹击中,43架大轰在远东集结,普京不想拖了

来科点谱
2026-02-05 07:06:00
曝具俊晔将回韩过年,计划给大S买房攒很多钱,汪小菲遭韩媒炮轰

曝具俊晔将回韩过年,计划给大S买房攒很多钱,汪小菲遭韩媒炮轰

古希腊掌管月桂的神
2026-02-04 19:50:03
大结局!湖人2换1交易达成!快船送走祖巴茨,字母哥确定留队

大结局!湖人2换1交易达成!快船送走祖巴茨,字母哥确定留队

篮球扫地僧
2026-02-06 21:52:11
国际银价距历史高点累计跌幅一度近50%

国际银价距历史高点累计跌幅一度近50%

新华社
2026-02-06 12:40:51
上海主帅卢伟展望半决赛对阵山东:需要更多的年轻球员承担责任

上海主帅卢伟展望半决赛对阵山东:需要更多的年轻球员承担责任

狼叔评论
2026-02-06 22:50:08
最新任命!查尔斯宣布由威廉王子代替,哈里王子不得不“妥协”

最新任命!查尔斯宣布由威廉王子代替,哈里王子不得不“妥协”

夜深爱杂谈
2026-02-06 17:37:17
申花官方:阿马杜自由身加盟重庆铜梁龙

申花官方:阿马杜自由身加盟重庆铜梁龙

懂球帝
2026-02-06 20:24:03
识人面相:五十条实战观人术

识人面相:五十条实战观人术

学之道国学院
2026-02-05 18:34:35
从比特币到黄金,全球金融市场为何遭遇“无差别”抛售?

从比特币到黄金,全球金融市场为何遭遇“无差别”抛售?

界面新闻
2026-02-06 13:56:10
2026-02-07 01:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12126文章数 176373关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

本地
艺术
家居
数码
公开课

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

艺术要闻

这颜色太美,不看太可惜!

家居要闻

现代轻奢 温馨治愈系

数码要闻

小米手表5先锋计划即将开启,解决手势失灵、闹钟不响等多项痛点

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版