网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.8 发布|Mythos 即将上线

实测Claude Opus 4.8

0
分享至

Claude 更新了

凌晨,Anthropic 把旗舰模型 Opus 4.8 发布

从官方的表述上来说,这是一个基于 4.7 的常规升级:跑分平稳上行、Agent 能力加强,价格不变,今天可用


我简单试了试,中文分词还是很奇怪,缺如官方所说:常规升级

然后:Opus 4.6 被下了 ╮(╯▽╰)╭

随着模型升级,还有三个改动:

  • Claude 网页版上多了一个控制 Claude Effort 的开关,能改变思考强度

  • Claude Code 新加了 dynamic workflows,能一口气拉起几百个子 Agent 一起干活

  • Opus 4.8 的 fast 模式,2.5 倍速跑,价格比上一代 Fast 便宜了三分之二

加量不加价

Opus 4.8 的价格与 4.7 一致

常规调用还是每百万 input token 5 美元,output token 25 美元,跟 4.7 完全一样。API 里的模型名是 claude-opus-4-8,今天起全平台都能调


跑分如下

对此,Anthropic 自己给了对比,Opus 4.8 在大多数项目上领先 4.7,也领先了 GPT-5.5 和 Gemini 3.1 Pro


GPT-5.5 赢的那个栏目,需要配合 Codex CLI

在编程任务 SWE-Bench Pro 上,Opus 4.8 拿了 69.2%,4.7 是 64.3%。多学科推理的 Humanity's Last Exam,不带工具 49.8%,带工具 57.9%,两档都比 4.7 高。电脑操作的 OSWorld-Verified 到了 83.4%,知识工作的 GDPval-AA 拿了 1890 分,4.7 是 1753

终端编程 Terminal-Bench 2.1 这一项,Opus 4.8 是 74.6%,GPT-5.5 报的是 78.2%。这里有个口径要交代,跑分用的是 Terminus-2 公开测试框架,GPT-5.5 换成自家 Codex CLI 框架报出来是 83.4%。OSWorld 这次 Anthropic 改了测法,把 4.7 的分回填成了 82.3%,更贴近真实表现。金融分析 Finance Agent v2 上 Opus 4.8 是 53.9%

主打诚实

对于 Opus 4.8,Anthropic 专门重点强调了:这孩子主打一个实诚,在 Agent 里不会瞎汇报(比如没干完活,说自己干完了)

按官方评测,Opus 4.8 尝试蒙混过关的概率,只有 4.7 的 1/4,它更愿意主动标出自己拿不准的地方,少了凭空断言。而在「错误对齐行为」这项打分上,Opus 4.8 几乎贴到了 Mythos Preview,明显好于 Opus 4.7 和 Sonnet 4.6 都明显更高


越矮越好,这次 Opus 蹲到了 Mythos 边上

按照 Anthropic 对齐团队的判断,Opus 4.8 在「支持用户自主、为用户最大利益行事」这类亲社会特质上达到了新高

按周的活按天干

跟模型一起发的 dynamic workflows,这是 Claude Code 里的新东西,可以理解为「赛博包工头」


包工头 Claude,带着一群 Claude 干活

dynamic workflows 擅长做的,是先按你的需求把任务拆开,铺成几十上百个并行的子 Agent,每个结果先验证再汇总,最后给你一个统一答复。比如去处理那些又老又乱的屎山代码,或者跨服务器去找几百个文件

在运行的过程中,它还会派出对抗性的 Agent,专门去试着推翻已有结论,一直迭代到答案收敛

正如上面的图片,你能看到每个子 Agent 用的是所调用的模型(Opus 4.8,挂着 1M context 的上下文),token 用量、调了几次工具、花了多少秒...各类信息,同时也能进度边跑边存,中途断了能从断点接着跑,不用从头来

作为实例,Jarred Sumner 用 dynamic workflows 把 Bun 从 Zig 移植到了 Rust,现有测试套件 99.8% 通过,大约 75 万行 Rust 代码,从第一次提交到合并,11 天

具体怎么干的。一个 workflow 先给 Zig 代码里每个结构体字段,都映射出对应的 Rust 生命周期。下一个 workflow 把每个 .rs 文件写成对应 .zig 文件的等价移植,几百个 Agent 并行,每个文件配两个审查者。然后一个修复循环驱动着构建和测试,跑到两边都干净为止。移植落地后,一个过夜的 workflow 又去处理多余的数据拷贝,每处都开了一个 PR 等人做最终 review

dynamic workflows 今天起以研究预览的形式上线,覆盖 Claude Code 的命令行、桌面端和 VS Code 插件,开放给 Max、Team 和 Enterprise(管理员开启后)方案,也上了 Claude API 以及 Amazon Bedrock、Vertex AI、Microsoft Foundry

自定义 effort

在之前 opus4.7 的时候,网页版的 Claude 是不能够选 effort 的,只有一个 adaptive thinking 的开关,而在这次的更新中,你是能手动决定这个数值的,默认是 high


回到最开始的图,看右侧

还有几件小事

除了模型本身,这次还有两个改动

Messages API 现在允许在 messages 数组里塞 system 条目了。你可以在任务跑到一半的时候更新 Claude 的指令,在不打断 prompt 缓存的前提下,更新它的权限、token 预算或者环境上下文

Opus 4.8 的 fast 模式(2.5x 速度)降价了,之前 4.7 的时候是 $30/$150,现在是 $10/$50,单位是每百万 token

Mythos 在路上

在官方公告的最后,还提到:Mythos 要来了

这是 Anthropic 家目前最牛逼的模型,目前只给少数几家厂商在内部使用。在过去的一个月中,这个模型帮助从各种知名软件软件里,找出了一万多个高危或严重漏洞


一万个漏洞找出来了,补丁还在后面排队

Anthropic 还在为这个模型设计护栏,预计未来几周内,就能把 Mythos 级别的模型带给所有客户

另一方面,Anthropic 还在开发并放出一批能力接近 Opus、但成本更低的模型

在哪儿能用上

Opus 4.8 今天全平台可用,价格和 4.7 一致

官方公告:anthropic.com/news/claude-opus-4-8

Dynamic workflows:claude.com/blog/introducing-dynamic-workflows-in-claude-code

Project Glasswing / Mythos:anthropic.com/research/glasswing-initial-update

API 模型名:claude-opus-4-8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
形势有多严峻?坐标上海:80末90初程序员都开始失业,评论区炸了

形势有多严峻?坐标上海:80末90初程序员都开始失业,评论区炸了

慧翔百科
2026-05-14 09:00:11
里克尔梅:弗洛伦蒂诺是伟大主席,但不代表他有权出售俱乐部

里克尔梅:弗洛伦蒂诺是伟大主席,但不代表他有权出售俱乐部

懂球帝
2026-06-01 01:44:34
张海迪是个谜!她1955年出生,虽然曾患有多种疾病,但面色红润

张海迪是个谜!她1955年出生,虽然曾患有多种疾病,但面色红润

岁月有情1314
2026-05-23 01:19:55
外交部:反对《纽约时报》为“台独”谬论提供平台

外交部:反对《纽约时报》为“台独”谬论提供平台

新京报
2026-06-01 15:51:09
俄国防部展示3个月战果

俄国防部展示3个月战果

参考消息
2026-06-01 16:31:13
艾滋病剧增!医生提醒:出门牢记9不碰,别让无知毁了一生!

艾滋病剧增!医生提醒:出门牢记9不碰,别让无知毁了一生!

健康科普365
2026-04-18 19:00:03
2023年忽悠我买了100克金条保值,485块一克,扔进去四万八

2023年忽悠我买了100克金条保值,485块一克,扔进去四万八

霹雳炮
2026-05-31 22:59:13
美方得寸进尺:只要总部在中国,都不准买

美方得寸进尺:只要总部在中国,都不准买

观察者网
2026-06-01 09:15:20
长江存储陈南翔:华为韬定律非常好 是中国半导体对全球的贡献 中国半导体人要扛起大旗

长江存储陈南翔:华为韬定律非常好 是中国半导体对全球的贡献 中国半导体人要扛起大旗

快科技
2026-05-30 16:35:17
承诺“不限次数”,就该接住顾客的“天天来”

承诺“不限次数”,就该接住顾客的“天天来”

南风不及你温柔
2026-05-16 01:02:57
荷兰没料到,闯中国领空这事没完,中方当各国面,让荷兰下不来台

荷兰没料到,闯中国领空这事没完,中方当各国面,让荷兰下不来台

霁寒飘雪
2026-06-01 14:45:21
中国U19男足斩获土伦杯开门红

中国U19男足斩获土伦杯开门红

五星体育
2026-05-31 23:12:34
烂透了!当下食品行业的道德底线,早已被贪婪的利益彻底碾碎。

烂透了!当下食品行业的道德底线,早已被贪婪的利益彻底碾碎。

二大爷观世界
2026-05-29 00:21:23
“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

番外行
2026-05-25 15:15:10
疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

鹤羽说个事
2026-05-28 23:03:03
现役第一驴!连续打了709场比赛!轮休让谁吃了?

现役第一驴!连续打了709场比赛!轮休让谁吃了?

左右为篮
2026-05-31 17:03:10
中方刚表态,欧尔班被传有望接替古特雷斯出任下届联合国秘书长?

中方刚表态,欧尔班被传有望接替古特雷斯出任下届联合国秘书长?

秋枫凋零
2026-06-01 11:41:37
信号失联、烧成火球!神舟21号航天员返回途中,画面捏把冷汗?

信号失联、烧成火球!神舟21号航天员返回途中,画面捏把冷汗?

一簌月光
2026-06-01 12:36:12
傅斯年最终决定前往台湾,北平解放之后,他听的太多,担忧太多

傅斯年最终决定前往台湾,北平解放之后,他听的太多,担忧太多

王知鱼说历史
2026-05-31 07:43:50
97年东北独生女被杭州男友父母断崖式分手,还要求退回7万花销

97年东北独生女被杭州男友父母断崖式分手,还要求退回7万花销

九方鱼论
2026-05-31 21:07:10
2026-06-01 17:43:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
456文章数 53关注度
往期回顾 全部

科技要闻

两大芯片巨头打起来了

头条要闻

见习医生网购3元美工刀 拆快递时被割伤神经手无知觉

头条要闻

见习医生网购3元美工刀 拆快递时被割伤神经手无知觉

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树科技科创板IPO过会

汽车要闻

赛力斯联手字节打造"赛豆" 首款跨界车年内推出

态度原创

手机
家居
游戏
公开课
军事航空

手机要闻

电线变网线、速率翻倍!华为凌霄子母路由Q7电线版发布:子母套装1219元

家居要闻

自信舒展 高背座椅

《使命召唤23》金库版登顶PS预购榜!778港币卖爆

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版